涉ai新闻三则

横槊赋诗 · 发表于 2026-5-14 15:01:05

AI版权大战，再度升级了。
手握《柳叶刀》《细胞》等顶刊，掌控全球海量核心科研成果的学术出版巨头爱思唯尔（Elsevier）正式入局，加入集体诉讼团硬刚Meta——
控诉Meta非法爬取、复制受版权保护的科研论文，用于训练自家大模型Llama。

在此之前，站出来起诉AI侵权的多是作家、媒体机构。
此番是头一回，顶级学术出版商下场打响版权维权之战。美国出版商协会也在声明中给定调：
这是主流出版集团首次发起针对AI企业的诉讼，Meta明目张胆侵犯版权，出版商们将还原全部事实。
有意思的是，这场官司明面上矛头对准Meta，可证据一摊开，与爱思唯尔纠缠十多年的两大盗版学术库——LibGen、Sci-Hub，再度被摆上台面。
只能说Meta树大钱多，比追责盗版平台靠谱多了（手动狗头）。
01
多方原告组团上阵，指控Meta侵权
这场诉讼于5月5日在纽约南区法院正式提交，被告直指Meta及其CEO扎克伯格。
而原告，不止爱思唯尔一家，还包括法国第一大出版集团阿歇特、源自英国的百年全球综合性出版集团麦克米伦，以及美国小说家、执业律师Scott Turow等。

出版商方核心指控非常明确：Meta为训练Llama大语言模型，未经任何授权，大量获取、复制、盗用受版权保护的学术论文与出版物内容。
具体来看，诉状里指出Meta训练Llama主要靠两大“不清白”的数据来源：
第一，Common Crawl通用爬虫数据集。
这份数据集通过全网抓取生成，囊括数十亿网页内容。原告方称，里面大概率混进了未经授权的版权内容，比如付费期刊的摘要和全文。
第二，两大知名盗版学术平台LibGen、Sci-Hub。
这两个网站常年免费传播海量付费论文、教材与学术著作，长期深陷全球版权诉讼。出版商指控，Meta通过磁力下载、文件共享等方式，从这些网站盗用学术资源。
值得一提的是，本案很多证据，还是从去年那桩“作家告Meta”（Kadrey v. Meta）案里流出来的内部员工邮件。
面对诉讼，Meta发言人表示：将全力积极应诉。
Meta这边抗辩逻辑也十分清晰，打出了一张王牌：合理使用（Fair Use）。
据了解，根据美国版权法，“合理使用”属于版权豁免情形，允许在特定条件下无需授权使用版权内容。
Meta发言人称：“AI正为个人与企业带来颠覆性创新、提升生产效率与创作活力，已有法院判例认定，使用版权内容训练AI可构成合理使用。”
不得不说，这几年AI圈的版权官司确实不少。像《纽约时报》、一堆知名作家都起诉过AI公司，有些案子已经和解了。
但整体而言，利用版权作品训练大语言模型是否合法，目前仍未形成明确司法判例。
至于这次后续怎么发展……咱们先搬好小板凳，再蹲一波。
02
One More Thing
“合理使用”这张牌之前确实被成功使用过。
去年，美国法院裁决：允许Claude背后公司Anthropic在未经作者许可的情况下，使用合法购买的已出版书籍训练AI。
法院参考了美国版权法中的“合理使用”（Fair Use）原则，认为AI训练属于“转化性使用”（Transformative Use），即对原作品的新用途未取代原作市场，且有利于技术创新和公共利益。

这也是美国法院首次认可AI公司对书籍的使用权。
就在最近，有网友称Anthropic正在大批量购入古籍，扫描收录内容后就直接销毁原书。这一说法也引发了不少网友关注。

横槊赋诗 · 发表于 2026-5-14 15:01:40

一个叫Sivori的博主发帖说，Anthropic正在购买数百万本书籍，扫描并销毁，因为从法律角度看销毁是最安全的选择。他还提到，这是他20年前读过的Vernor Vinge小说《The Rainbow's End》里的情节。

图片

推文浏览超百万，转发评论一大堆。

小红书上也有人在聊这事，说法都是标题那个夸张风格，什么「A社把人类知识库蒸馏了」「古籍全部没了」。

图片

这事吧，有真有假。真的部分远比小说还魔幻，假的部分也确实被放大了不少。我翻了媒体报道和法院文件，给你们捋一捋。

真事，巴拿马项目确实存在

2026年初，法庭文件曝光了Anthropic一个代号「Project Panama」的内部计划。

中文翻译过来叫巴拿马项目。

这个项目的目标简单粗暴，搞到世界上所有的书。2024年2月，Anthropic挖来了曾参与Google Books项目的Tom Turvey，交给他一个听起来像反派台词的任务，获取「世界上所有的书」。

怎么搞的呢？投入了大量资金，从二手书零售商和Strand这样的实体书店，大量采购实体书。然后拉到仓库里，切掉书脊进行破坏性高速扫描成PDF，剩下的纸质残骸送去回收公司销毁。

图片

A社为什么敢这么干，不违法吗？

Anthropic的法律论证部分依赖于「首次销售原则」，你买了实体书，就有权对这个副本做任何处理，包括销毁。再叠加「合理使用」的多因素判断，合法取得副本、扫描后销毁原件、数字文件仅内部使用不对外分发、且不替代原书市场——法官综合评估了这几条，最终认定构成合理使用。

法官整体倾向认为，这类模式具备较强的fair use抗辩基础。相比直接去盗版网站扒书，法律风险确实低很多。

但实际上，Anthropic也干了盗版的事。这事就复杂了。

巴拿马项目之所以被曝光，是因为Anthropic同时被作家们起诉，他们早期就从LibGen（一个盗版电子书网站）下载了大量书籍用于训练。CEO Dario Amodei管出版商的许可谈判叫「法律/实践/商业上的麻烦」，所以早期干脆用盗版。后来觉得风险太大，才转头搞了实体书破坏性扫描这套方案。

2025年，媒体曾报道Anthropic推进了一项规模约15亿美元的和解方案，针对的是盗版数据集的集体诉讼。注意，这15亿主要指向盗版那笔账，不是为巴拿马项目本身买单。这在AI版权领域被认为是金额最高的和解之一。

法官对「合法购买加扫描训练」这个模式整体持支持态度，如果Anthropic从一开始就走这条路，他们的fair use抗辩会更有力。但先干盗版再转正的做法，至少在道义和舆论上已经把自己的路子走窄了。当然话说回来，AI训练的fair use在美国整体仍然没有最终定论，meta、OpenAI的案子都还在打，这个领域远没到盖棺定论的时候。

真的和小说情节一毛一样

这确实是最魔幻的部分。

Vernor Vinge在2006年写的小说《The Rainbow's End》里，有一个名为Librareome Project的设定：图书馆用破坏性扫描的方式数字化馆藏，然后销毁纸质书籍。

2026年，Anthropic在现实世界里做了高度相似的事。

科幻作家不是在预言未来，他只是在写一个听起来合理但又够极端的故事。谁知道二十年后的AI公司看了一眼，觉得这是个好主意。

被夸张的部分

不过网上传的那些说法，确实有不少需要纠正的。

第一，不是「珍稀古籍」。Anthropic采购的主要是流通量比较大的二手普通书籍，从大型零售商那里批量拿货。不是孤本、善本，不是什么具有文物价值的东西。真正抗议的主要是作家和出版商协会，因为他们主张版权被侵犯，而不是文博界的文物保护单位——被销毁的只是工业印刷品，不是不可再生的文化遗产。

第二，没有「蒸馏了人类大部分知识库」那么夸张。他们处理了几百万册书没错，但人类历史上出版的书籍以数十亿计。几百万册在这个量级面前，只是很小的一部分。更准确的说法是，他们获取了一部分高质量文本用于训练，不是把人类知识蒸馏了。

第三，做法虽然粗暴，但方向其实挺明确的。Anthropic的联合创始人早在2023年就写过，用书籍训练模型能让AI学会「如何写得更好」，而不是去模仿那些质量参差不齐的网络用语。这个动机本身没什么问题，问题出在执行方式上。

Anthropic为了给AI喂书，雇人切书脊、高速扫描、然后销毁。Claude学会写那些漂亮句子的同时，上百万本实体书变成了回收纸浆。

有用户曾让Claude评价这一事件，Claude给出过一段颇具文学性的回应：「这些销毁行为帮助创造了能够讨论文学、帮人写作、与人类知识对话的我，这层复杂性我还在消化当中。就像是用一座图书馆的灰烬建造起来的一样。

这话说的，看起来确实像蒸馏了不少文学书籍。

但说真的，用灰烬堆积出来的智能，到底能在人类知识的废墟上站多久，谁也不知道。

横槊赋诗 · 发表于 2026-5-14 15:02:18

新华网北京3月4日电（记者陈延特）3月3日，中央宣传部出版产品质量监督检测中心（以下简称“出版质检中心”）与新华网股份有限公司（以下简称“新华网”）在京正式签署“出版质量检查平台”项目合作协议。此次签约也预示着“国家级出版质检智能体”建设全面进入实质性实施阶段，是落实意识形态工作责任制、推动出版业高质量发展的关键举措。

中央宣传部出版产品质量监督检测中心主任袁亚平（右二）与新华网股份有限公司党委书记、董事长储学军（左二）见证签约。中央宣传部出版产品质量监督检测中心副主任仇英义（右一）、新华网股份有限公司党委常委、副总裁张芮宁（左一）代表双方签署协议。图为双方代表签约后合影。新华网记者陈延特摄

中央宣传部出版产品质量监督检测中心主任袁亚平致辞。新华网记者陈延特摄

中央宣传部出版产品质量监督检测中心主任袁亚平在致辞中表示，作为中宣部直属事业单位和国家级出版质检机构，出版质检中心认真学习领悟习近平总书记“因地制宜发展新质生产力”重要论述，积极贯彻落实中宣部领导“数字化赋能、信息化转型”指示要求，扎实推进科技赋能出版质检工作。此前，中心已初步建成“全国出版质检和鉴定指导协作平台”。

“该项目是中心2026年的开局头号工程，将结合双方资源优势合作共建。”袁亚平指出，该“工程”是旨在实现“服务管理部门质量监管、提升出版质检工作效能、助力出版业高质量发展”三大目标的重要项目，双方将共同努力打造一款管理适用、机构必备、行业所需的标杆性数字化产品。

新华网股份有限公司党委书记、董事长储学军致辞。新华网记者陈延特摄

新华网股份有限公司党委书记、董事长储学军在致辞中表示，质量是出版的生命线，也是行业繁荣发展的压舱石。在大数据、人工智能深刻重塑舆论生态、文化业态及传播形态的当下，确保出版物质量、维护意识形态安全至关重要。

储学军提到，新华网作为新型中央重点网络媒体，始终紧跟时代，积极布局人工智能技术研发与应用。新华网打造的“AI知识产权平台”，已聚合海量数据资源，并推出了多款跨平台工具。此次合作，双方将顺应信息技术发展潮流，携手打造出版“智能质检”新范式，助力监管部门提升效率，为出版业高质量发展，建设文化强国贡献力量。

签约仪式现场。新华网记者陈延特摄

据介绍，该项目将基于出版质检中心专业、权威质检体系架构，依托新华网的技术底座、数据资源与生态能力，推动质检工作从“样本抽检”向“全流程监测”转变，通过数字化标准倒逼出版单位提升内容质量，为建设文化强国筑牢坚实的技术底座。

		自动登录	找回密码
密码			注册

[【其它】] 涉ai新闻三则

评分