AI 搜索遭遇 Google 与 Cloudflare 双重挤压
AI Agent 网页搜索遭遇基础设施瓶颈
r/LocalLLaMA 社区本周一篇帖子获得了 838 互动量,讨论了一个被忽视但影响深远的问题:AI Agent 的网页搜索/检索通道正在快速收窄。
发帖者指出,Google 正在将免费站点特定/自定义搜索限制为 50 个域名,并将传统搜索 API 的停用日期定在 2027 年 1 月 1 日。与此同时,Cloudflare 默认对 AI 爬虫进行挑战拦截,这一做法据称通过 GoDaddy 合作进一步扩展。两条路径同时收窄,对依赖实时网页检索的 AI Agent 构成实质性威胁。
评论区出现了几个核心观点。技术层面,用户提出了多个替代方案:SearXNG 作为自托管的元搜索引擎,可以在 Bing/DuckDuckGo/Brave 之上建立聚合层;Brave Search API 拥有独立索引,提供每月 2000 次免费查询;Common Crawl 适用于非实时场景,可利用 PB 级公共抓取数据在本地构建索引。
一个重要的技术区分是"搜索"与"内容获取"的差异。搜索 API 仍然可以返回 URL,但 Cloudflare 式的机器人挑战主要破坏后续的页面抓取/获取步骤。对此,建议的缓解方案包括缓存或归档来源(如 Wayback Machine API、Google Cache、archive.today)以及专门的读取/提取服务(如 Jina Reader r.jina.ai)。
经济层面的共识更加直白:API 驱动的 AI 搜索没有广告展示,因此免费的大规模商业索引访问不可持续。一位评论者总结道:"当搜索没有人类眼球落在广告上时,你怎么变现?" 社区普遍预期将转向付费或联邦搜索 API 加上缓存/阅读服务的组合方案。
此外,YaCy(一个长期运行的开源 P2P 去中心化搜索引擎)被多次提及,认为中心化索引的收费/限制趋势可能使分布式抓取/索引重新变得相关。有评论者甚至提议将内容抓取一次后打包为可分发的归档文件,通过 P2P 共享以减少对源站的重复带宽消耗。
⚖️ 政策/监管
本作品采用《CC 协议》,转载必须注明作者和本文链接
关于 LearnKu