©CC BY-NC-SA 4.0
🚩加入 Nostr!moe 社区: join.nostr.moe
#吐槽

不止于过滤列表:基于大语言模型(LLM)的广告拦截新思路
https://adguard.com/zh_cn/blog/beyond-filter-lists-rethinking-ad-blocking-with-llms.html

TL;DR
通过扩展 AdGuard CSS 过滤规则中的的 :contains 伪类, 使其可以通过三种模式连接到 LLM 进行语义计算:
* :contains-meaning-embedding: 通过嵌入式模型检测目标文本与标准文本的向量相似度. (速度快/成本低/单一语言准确度高/难以处理多语言和复杂情况)
* :contains-meaning-prompt: 直接将选中的页面元素发给 LLM 询问是否符合过滤标准. (云托管模型准确度高速度也快/本地模型延迟高且准确性也低)
* :contains-meaning-vision: 将选中的页面元素截图发给 LLM 进行视觉判断. (云和本地模型准确都高但延迟也一样高)

原型插件: https://github.com/maximtop/ai-blocker-experiment

#AdGuard #LLM

via Nostr@cxplay 不止于过滤列表:基于大语言模型(LLM)的广告拦截新思路
#吐槽

In reply to nevent1q…uv9h
_________________________

在 Hacker News 刷到了自托管数据库对比 AWS RDS 的, 里面的热评就很好地解释了这个责任的负担: 宜家和迪士尼也宕机了, 得等 AWS 它们自己恢复. 潜台词是: 与我无关.

Go ahead, self-host Postgres | Hacker News
https://news.ycombinator.com/item?id=46336947

类似的, 自己建边缘节点和直接用 Cloudflare 也是一样, 有能力自己建, 还得有能力自己承担责任.
以前对自托管的要求只有: 如果只需要对自己负责, 那就无所谓. 直到现在只是出于好玩和节省成本才去自托管了, 如果需要超长期使用和更高的可靠性(责任转移), 那我也会选代托管.

via Nostr@cxplay
#吐槽

如何提高 CDN 缓存效率和命中率: 将 blob 细细切作臊子
Blossom 存分块, Nostr 中继存 manifest, 感觉会很好玩(很滥用), 让我想起了那些拿假切片薅图床的邪门东西.

hzrd149/cherry-tree: Chunked blobs on blossom
https://github.com/hzrd149/cherry-tree

via Nostr@cxplay GitHub - hzrd149/cherry-tree: Chunked blobs on blossom
#吐槽

I'm a Tech Lead, and nobody listens to me. What should I do? | Hacker News
https://news.ycombinator.com/item?id=46286559

热评第一位域名丢失的案例实在是深有同感. 你在一个集体, 你的集体被天天提醒这是一个集体, 然而所有人都不关心一个长期存在并且即将爆发的问题除了你, 你为了这个问题绞尽脑汁, 但最后你自己拼尽全力也没能阻止这个问题导致的后果爆发, 所有人都被斥责, 也包括你.

via Nostr@cxplay
#吐槽

In reply to nevent1q…d6xz
_________________________

* 没有寻求出售数据是为了持续获益.
* 在他的视角下 funstat 这个只有俄语和英语的机器人莫名在中文圈子里面火了, 然而一段时间之后突然又没热度了, 所以找到了我, 他希望能在中文圈子里面赚钱. (在我的视角下, 是机器人被频道公开之后得到了很多其他频道和群组的转发, 然后被中文新闻媒体报道并且都带上了机器人名字, 然而过不了多久就绝对会被举报下架, 于是热度突然出现突然消失)
* 他不知道这个机器人被中文圈子的很多人拿来当作社工库和监视工具用, 他也否认这个机器人创建的目的是为了人肉搜索. 私密群组被爬是因为这些的邀请链接实质被泄露到了公有领域, 类似某些公开频道放一个私密群的邀请链接但从来不验证入群人的身份的用法.
* 他希望能改善这个搜索引擎的在中文圈子中的名声, 在独联体圈子并没有大量这种误用, 它被设计来搜索公开领域的所有消息, 并不是只会用来人肉而是类似于 OSINT.
* 我和他解释了为什么中文用户对信息泄露如此敏感, 为什么即使只是公开领域的数据被收集也会被部分人认为是人肉搜索.
* 他为中文用户专门设置了一个机器人, 做好了为中文用户改进一切其他语言用户不希望有的功能. 我希望他能成为一个更健康的搜索引擎, 数据所有者能选择隐藏数据, 中文用户可以借助他的机器人有希望改善 Telegram 的 CJK 搜索能力, 一些用户也不必为了 Telegram 的全局搜索而去订阅 Premium 而是把钱给他, 用他的机器人.

via Nostr@cxplay
#吐槽

"Circular dependencies also affected our customer experience. For example, during the November 18 incident, Turnstile, our no CAPTCHA bot solution, became unavailable. As we use Turnstile on the login flow to the Cloudflare dashboard, customers who did not have active sessions, or API service tokens, were not able to log in to Cloudflare in the moment of most need to make critical changes."

Code Orange: Fail Small — our resilience plan following recent incidents
https://blog.cloudflare.com/fail-small-resilience-plan/

via Nostr@cxplay Code Orange: Fail Small — our resilience plan following recent incidents
Back to Top