Cloudflare指控Perplexity违规抓取数据，AI与网站主权矛盾加剧

时间：2025-08-06 03:55

小编：星品数码网

近年来，随着人工智能技术的快速发展，基于网络数据的训练也变得愈发关键。这种数据获取方式的合法性和伦理性却引发了越来越多的争议。最近，美国一家市值5000亿人民币的互联网基础设施巨头Cloudflare，向新兴AI公司Perplexity发起了一项指控，声称后者使用了一种隐蔽的爬虫技术，暗中抓取被严令禁止的网站内容。这场冲突不仅点燃了公众对数据抓取行为的关注，也揭示了人工智能公司在数据获取中与网站主权之间的深层矛盾。

现状与背景

Cloudflare在安全研究中发现，Perplexity的行为并非偶然。该公司在发现其官方爬虫（标识为“PerplexityBot”）被网站的robots.txt文件或防火墙规则阻拦后，立即启动了未申明的备用爬虫。他们通过两种手段来伪装自己，以绕过这些障碍：Perplexity会篡改用户代理，使爬虫伪装成普通用户的浏览器；他们会动态更改IP地址和自治系统网络（ASN），进一步增强隐蔽性。这种行为每天会涉及数万个域名，产生数百万次违规请求，显然已经引起了Cloudflare的高度警惕。

反制措施与回应

随着冲突的升级，Cloudflare做出了及时响应。其首席执行官马修·普林斯（Matthew Prince）对此表示，他们的客户投诉已在先，尽管已经技术性地阻止了Perplexity的爬虫，网站内容仍然出现在该AI公司的搜索结果中。这让Cloudflare在验证后采取了两项措施：将Perplexity移出“已验证机器人”白名单，并向所有用户提供拦截其隐形爬虫的技术方案。

回应中，Perplexity的发言人杰西·德怀尔（Jesse Dwyer）表示，此次指控是“炒作”，且报告中存在“根本性误解”。Cloudflare出示的实验证据显示，其专设的测试域名中的内容，仍然被Perplexity抓取并解析，进一步暴露了其行为的可疑性。

行业博弈的加剧

这场公众行业争端不仅仅是两个公司之间的纠纷，更反映出整个行业面临的巨大压力。越来越多的网站开始担心他们的内容被AI公司无偿利用，并逐渐加入了封堵AI爬虫的行列，已有美联社、Reddit等超过百万个网站参与其中。时至今日，robots.txt这一维系互联网良性互动的“君子协定”，在人工智能技术迅速发展到各个角落的情况下，正遭遇前所未有的挑战。

Cloudflare首席执行官马修·普林斯指出，现阶段AI公司抓取效率与网站收益之间存在明显脱节。以OpenAI为例，平均每1500次抓取仅能产生一次用户跳转，而Anthropic的数据比例则高达73300:1，相比之下，谷歌的比例是18:1。这种严重的不平衡加剧了网站主对于收入的焦虑，同时也让AI公司的运营模式受到质疑。

为了应对这一矛盾，Cloudflare已计划在2025年7月推出一项革命性的收费方案——“Pay Per Crawl”。该政策将允许网站向AI公司按次收取内容抓取费用。他们还将推出一款名为“AI迷宫”的防御工具，用虚假内容耗尽恶意爬虫的资源，这将成为保护网站内容的一道重要防线。

Cloudflare与Perplexity的冲突不仅是商业竞争的结果，也是在人工智能日益普及的背景下，技术伦理与网站主权之间不断加剧的对抗。作为行业参与者，云服务与人工智能公司必须在抓取数据时考虑内容提供者的权益，未来的互联网生态需要通过合理的收费机制和技术手段，达成各方的共赢。随着时代的发展，对数据抓取的监管和合规将成为必然趋势，保持一个健康、有序的网络环境将是我们共同追求的目标。

Cloudflare指控Perplexity违规抓取数据，AI与网站主权矛盾加剧

精品推荐

相关文章