Cloudflare指控Perplexity违规抓取数据,AI与网站主权矛盾加剧
时间:2025-08-06 03:55
小编:小世评选
近年来,随着人工智能技术的快速发展,基于网络数据的训练也变得愈发关键。这种数据获取方式的合法性和伦理性却引发了越来越多的争议。最近,美国一家市值5000亿人民币的互联网基础设施巨头Cloudflare,向新兴AI公司Perplexity发起了一项指控,声称后者使用了一种隐蔽的爬虫技术,暗中抓取被严令禁止的网站内容。这场冲突不仅点燃了公众对数据抓取行为的关注,也揭示了人工智能公司在数据获取中与网站主权之间的深层矛盾。
现状与背景
Cloudflare在安全研究中发现,Perplexity的行为并非偶然。该公司在发现其官方爬虫(标识为“PerplexityBot”)被网站的robots.txt文件或防火墙规则阻拦后,立即启动了未申明的备用爬虫。他们通过两种手段来伪装自己,以绕过这些障碍:Perplexity会篡改用户代理,使爬虫伪装成普通用户的浏览器;他们会动态更改IP地址和自治系统网络(ASN),进一步增强隐蔽性。这种行为每天会涉及数万个域名,产生数百万次违规请求,显然已经引起了Cloudflare的高度警惕。
反制措施与回应
随着冲突的升级,Cloudflare做出了及时响应。其首席执行官马修·普林斯(Matthew Prince)对此表示,他们的客户投诉已在先,尽管已经技术性地阻止了Perplexity的爬虫,网站内容仍然出现在该AI公司的搜索结果中。这让Cloudflare在验证后采取了两项措施:将Perplexity移出“已验证机器人”白名单,并向所有用户提供拦截其隐形爬虫的技术方案。
回应中,Perplexity的发言人杰西·德怀尔(Jesse Dwyer)表示,此次指控是“炒作”,且报告中存在“根本性误解”。Cloudflare出示的实验证据显示,其专设的测试域名中的内容,仍然被Perplexity抓取并解析,进一步暴露了其行为的可疑性。
行业博弈的加剧
这场公众行业争端不仅仅是两个公司之间的纠纷,更反映出整个行业面临的巨大压力。越来越多的网站开始担心他们的内容被AI公司无偿利用,并逐渐加入了封堵AI爬虫的行列,已有美联社、Reddit等超过百万个网站参与其中。时至今日,robots.txt这一维系互联网良性互动的“君子协定”,在人工智能技术迅速发展到各个角落的情况下,正遭遇前所未有的挑战。
Cloudflare首席执行官马修·普林斯指出,现阶段AI公司抓取效率与网站收益之间存在明显脱节。以OpenAI为例,平均每1500次抓取仅能产生一次用户跳转,而Anthropic的数据比例则高达73300:1,相比之下,谷歌的比例是18:1。这种严重的不平衡加剧了网站主对于收入的焦虑,同时也让AI公司的运营模式受到质疑。
为了应对这一矛盾,Cloudflare已计划在2025年7月推出一项革命性的收费方案——“Pay Per Crawl”。该政策将允许网站向AI公司按次收取内容抓取费用。他们还将推出一款名为“AI迷宫”的防御工具,用虚假内容耗尽恶意爬虫的资源,这将成为保护网站内容的一道重要防线。
Cloudflare与Perplexity的冲突不仅是商业竞争的结果,也是在人工智能日益普及的背景下,技术伦理与网站主权之间不断加剧的对抗。作为行业参与者,云服务与人工智能公司必须在抓取数据时考虑内容提供者的权益,未来的互联网生态需要通过合理的收费机制和技术手段,达成各方的共赢。随着时代的发展,对数据抓取的监管和合规将成为必然趋势,保持一个健康、有序的网络环境将是我们共同追求的目标。