Anthropic公司因AI训练数据问题面临法律审查：数百万美元购书扫描遭质疑

时间：2025-06-27 04:25

小编：小世评选

日前，人工智能公司Anthropic因其AI训练数据的获取方式而引发了法律上的争议。据外媒Ars Technica报道，最近公开的法庭文件显示，Anthropic为训练其AI助手Claude耗费了数百万美元，采用了对图书进行拆装订、扫描并随即丢弃原件的方式。这一举动不仅涉及版权问题，也引起了对于AI公司在合法获取训练数据方面伦理和法律底线的广泛讨论。

法庭文件中详细记录了Anthropic在2024年2月聘请Tom Turvey的过程，后者曾负责过谷歌图书项目的合作事务。显然，Anthropic期望能够借鉴谷歌在图书数字化方面被法院认定为合理使用的经验，从而设计出一种合规的图书扫描模式。法官William Alsup最终裁定认为，Anthropic的扫描行为构成“合理使用”，理由在于数字文件仅在公司内部使用，并未外泄。法官的判断中包含了“节省空间”的考量，他认为这种数字转化是一种转化性特征的体现。Anthropic早期的某些盗版行为却在某种程度上削弱了其合法性。

AI公司在训练过程中需要海量的优质文本，以构建出性能卓越的大语言模型。因此，研究人员需要不断对模型进行训练，以确保词汇和概念之间的关系得到有效建立。训练数据的质量直接决定模型输出结果的准确性和适用性。相较于网络上杂乱的信息，经过编辑的书籍和文章能够显著提升AI的语言处理能力，因此，对出版内容的需求在AI行业中日益迫切。许多公司出于时间成本考虑，通常不愿意与版权方进行耗时的授权谈判。

根据美国的“首次销售原则”，AI公司可以合法获得书籍并进行处理。但这种法律原则的利用，使得购买书籍成为一种“绕道方案”，引发了对于合法性的再度争论。同样，Anthropic在与其他AI公司一样选择绕过版权的捷径时，其法律风险显而易见。根据法庭材料，Anthropic的首席执行官阿莫代伊曾表示希望避免繁琐的授权流程。

随着时间的推移，Anthropic终究意识到法律风险，尤其是在2024年，该公司开始寻求更为安全的替代方案。选择收购二手书籍成为了这一问题的解决之道：既避开了授权谈判，又能获得高质量的训练文本。为了加快数字化进程，Anthropic采用了“破坏式扫描”技术，将原书本彻底拆解，以生成可供机器读取的PDF文件，而处理完成后则将纸质书籍销毁。这一过程耗资数百万美元，似乎让Anthropic在短时间内迅速构建起其AI模型。

非破坏性扫描技术早已被一些权威机构采用，例如Internet Archive就已开发出一些能够保留原书并进行数字化的手段。只不过这条“稳妥之路”显然需要更多的时间、资金及与出版方的谈判和协作。值得一提的是，就在本月早些时候，OpenAI与微软宣布与哈佛大学图书馆达成合作，计划利用近百万本公版书籍进行AI训练，而这些书籍在数字化的过程中能够有效避免损毁。

Anthropic所面临的法律审查似乎揭示了人工智能行业在数据获取方式上的一系列深远问题。伴随着AI业务的迅猛发展，数据的合法获取与使用将成为日后行业发展的重要课题。对于人工智能公司而言，如何在保证自身利益的同时，合法合规地获取训练数据，已经成为了亟待解决的难题。

这一事件引发的讨论不仅关乎法律，亦涉及文化和伦理。在未来，AI技术的健康发展离不开更为完善的法律框架与道德标准，确保技术创新与社会责任并行，才能推动整个行业朝着更好的方向迈进。随着法律与科技的深度交融，如何寻找一个平衡点，让AI公司在不牺牲版权和伦理的前提下获得所需数据，将是所有人工智能企业需要共同面对的问题。

Anthropic公司因AI训练数据问题面临法律审查：数百万美元购书扫描遭质疑

精品推荐

相关文章