找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 51|回复: 2

[【其它】] 涉ai新闻三则

[复制链接]
发表于 2026-5-14 15:01:05 | 显示全部楼层 |阅读模式
AI版权大战,再度升级了。
手握《柳叶刀》《细胞》等顶刊,掌控全球海量核心科研成果的学术出版巨头爱思唯尔(Elsevier)正式入局,加入集体诉讼团硬刚Meta——
控诉Meta非法爬取、复制受版权保护的科研论文,用于训练自家大模型Llama。

在此之前,站出来起诉AI侵权的多是作家、媒体机构。
此番是头一回,顶级学术出版商下场打响版权维权之战。美国出版商协会也在声明中给定调:
这是主流出版集团首次发起针对AI企业的诉讼,Meta明目张胆侵犯版权,出版商们将还原全部事实。
有意思的是,这场官司明面上矛头对准Meta,可证据一摊开,与爱思唯尔纠缠十多年的两大盗版学术库——LibGen、Sci-Hub,再度被摆上台面。
只能说Meta树大钱多,比追责盗版平台靠谱多了(手动狗头)。
01
多方原告组团上阵,指控Meta侵权
这场诉讼于5月5日在纽约南区法院正式提交,被告直指Meta及其CEO扎克伯格。
而原告,不止爱思唯尔一家,还包括法国第一大出版集团阿歇特、源自英国的百年全球综合性出版集团麦克米伦,以及美国小说家、执业律师Scott Turow等。

出版商方核心指控非常明确:Meta为训练Llama大语言模型,未经任何授权,大量获取、复制、盗用受版权保护的学术论文与出版物内容。
具体来看,诉状里指出Meta训练Llama主要靠两大“不清白”的数据来源:
第一,Common Crawl通用爬虫数据集。
这份数据集通过全网抓取生成,囊括数十亿网页内容。原告方称,里面大概率混进了未经授权的版权内容,比如付费期刊的摘要和全文。
第二,两大知名盗版学术平台LibGen、Sci-Hub。
这两个网站常年免费传播海量付费论文、教材与学术著作,长期深陷全球版权诉讼。出版商指控,Meta通过磁力下载、文件共享等方式,从这些网站盗用学术资源。
值得一提的是,本案很多证据,还是从去年那桩“作家告Meta”(Kadrey v. Meta)案里流出来的内部员工邮件。
面对诉讼,Meta发言人表示:将全力积极应诉。
Meta这边抗辩逻辑也十分清晰,打出了一张王牌:合理使用(Fair Use)。
据了解,根据美国版权法,“合理使用”属于版权豁免情形,允许在特定条件下无需授权使用版权内容。
Meta发言人称:“AI正为个人与企业带来颠覆性创新、提升生产效率与创作活力,已有法院判例认定,使用版权内容训练AI可构成合理使用。”
不得不说,这几年AI圈的版权官司确实不少。像《纽约时报》、一堆知名作家都起诉过AI公司,有些案子已经和解了。
但整体而言,利用版权作品训练大语言模型是否合法,目前仍未形成明确司法判例。
至于这次后续怎么发展……咱们先搬好小板凳,再蹲一波。
02
One More Thing
“合理使用”这张牌之前确实被成功使用过。
去年,美国法院裁决:允许Claude背后公司Anthropic在未经作者许可的情况下,使用合法购买的已出版书籍训练AI。
法院参考了美国版权法中的“合理使用”(Fair Use)原则,认为AI训练属于“转化性使用”(Transformative Use),即对原作品的新用途未取代原作市场,且有利于技术创新和公共利益。

这也是美国法院首次认可AI公司对书籍的使用权。
就在最近,有网友称Anthropic正在大批量购入古籍,扫描收录内容后就直接销毁原书。这一说法也引发了不少网友关注。

评分

1

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2026-5-14 15:01:40 | 显示全部楼层
一个叫Sivori的博主发帖说,Anthropic正在购买数百万本书籍,扫描并销毁,因为从法律角度看销毁是最安全的选择。他还提到,这是他20年前读过的Vernor Vinge小说《The Rainbow's End》里的情节。

图片

推文浏览超百万,转发评论一大堆。

小红书上也有人在聊这事,说法都是标题那个夸张风格,什么「A社把人类知识库蒸馏了」「古籍全部没了」。

图片

这事吧,有真有假。真的部分远比小说还魔幻,假的部分也确实被放大了不少。我翻了媒体报道和法院文件,给你们捋一捋。

真事,巴拿马项目确实存在

2026年初,法庭文件曝光了Anthropic一个代号「Project Panama」的内部计划。

中文翻译过来叫巴拿马项目。

这个项目的目标简单粗暴,搞到世界上所有的书。2024年2月,Anthropic挖来了曾参与Google Books项目的Tom Turvey,交给他一个听起来像反派台词的任务,获取「世界上所有的书」。

怎么搞的呢?投入了大量资金,从二手书零售商和Strand这样的实体书店,大量采购实体书。然后拉到仓库里,切掉书脊进行破坏性高速扫描成PDF,剩下的纸质残骸送去回收公司销毁。

图片

A社为什么敢这么干,不违法吗?

Anthropic的法律论证部分依赖于「首次销售原则」,你买了实体书,就有权对这个副本做任何处理,包括销毁。再叠加「合理使用」的多因素判断,合法取得副本、扫描后销毁原件、数字文件仅内部使用不对外分发、且不替代原书市场——法官综合评估了这几条,最终认定构成合理使用。

法官整体倾向认为,这类模式具备较强的fair use抗辩基础。相比直接去盗版网站扒书,法律风险确实低很多。

但实际上,Anthropic也干了盗版的事。这事就复杂了。

巴拿马项目之所以被曝光,是因为Anthropic同时被作家们起诉,他们早期就从LibGen(一个盗版电子书网站)下载了大量书籍用于训练。CEO Dario Amodei管出版商的许可谈判叫「法律/实践/商业上的麻烦」,所以早期干脆用盗版。后来觉得风险太大,才转头搞了实体书破坏性扫描这套方案。

2025年,媒体曾报道Anthropic推进了一项规模约15亿美元的和解方案,针对的是盗版数据集的集体诉讼。注意,这15亿主要指向盗版那笔账,不是为巴拿马项目本身买单。这在AI版权领域被认为是金额最高的和解之一。

法官对「合法购买加扫描训练」这个模式整体持支持态度,如果Anthropic从一开始就走这条路,他们的fair use抗辩会更有力。但先干盗版再转正的做法,至少在道义和舆论上已经把自己的路子走窄了。当然话说回来,AI训练的fair use在美国整体仍然没有最终定论,meta、OpenAI的案子都还在打,这个领域远没到盖棺定论的时候。

真的和小说情节一毛一样

这确实是最魔幻的部分。

Vernor Vinge在2006年写的小说《The Rainbow's End》里,有一个名为Librareome Project的设定:图书馆用破坏性扫描的方式数字化馆藏,然后销毁纸质书籍。

2026年,Anthropic在现实世界里做了高度相似的事。

科幻作家不是在预言未来,他只是在写一个听起来合理但又够极端的故事。谁知道二十年后的AI公司看了一眼,觉得这是个好主意。

被夸张的部分

不过网上传的那些说法,确实有不少需要纠正的。

第一,不是「珍稀古籍」。Anthropic采购的主要是流通量比较大的二手普通书籍,从大型零售商那里批量拿货。不是孤本、善本,不是什么具有文物价值的东西。真正抗议的主要是作家和出版商协会,因为他们主张版权被侵犯,而不是文博界的文物保护单位——被销毁的只是工业印刷品,不是不可再生的文化遗产。

第二,没有「蒸馏了人类大部分知识库」那么夸张。他们处理了几百万册书没错,但人类历史上出版的书籍以数十亿计。几百万册在这个量级面前,只是很小的一部分。更准确的说法是,他们获取了一部分高质量文本用于训练,不是把人类知识蒸馏了。

第三,做法虽然粗暴,但方向其实挺明确的。Anthropic的联合创始人早在2023年就写过,用书籍训练模型能让AI学会「如何写得更好」,而不是去模仿那些质量参差不齐的网络用语。这个动机本身没什么问题,问题出在执行方式上。

Anthropic为了给AI喂书,雇人切书脊、高速扫描、然后销毁。Claude学会写那些漂亮句子的同时,上百万本实体书变成了回收纸浆。

有用户曾让Claude评价这一事件,Claude给出过一段颇具文学性的回应:「这些销毁行为帮助创造了能够讨论文学、帮人写作、与人类知识对话的我,这层复杂性我还在消化当中。就像是用一座图书馆的灰烬建造起来的一样。

这话说的,看起来确实像蒸馏了不少文学书籍。

但说真的,用灰烬堆积出来的智能,到底能在人类知识的废墟上站多久,谁也不知道。
回复

使用道具 举报

 楼主| 发表于 2026-5-14 15:02:18 | 显示全部楼层
新华网北京3月4日电(记者 陈延特)3月3日,中央宣传部出版产品质量监督检测中心(以下简称“出版质检中心”)与新华网股份有限公司(以下简称“新华网”)在京正式签署“出版质量检查平台”项目合作协议。此次签约也预示着“国家级出版质检智能体”建设全面进入实质性实施阶段,是落实意识形态工作责任制、推动出版业高质量发展的关键举措。



  中央宣传部出版产品质量监督检测中心主任袁亚平(右二)与新华网股份有限公司党委书记、董事长储学军(左二)见证签约。中央宣传部出版产品质量监督检测中心副主任仇英义(右一)、新华网股份有限公司党委常委、副总裁张芮宁(左一)代表双方签署协议。图为双方代表签约后合影。新华网记者 陈延特 摄



中央宣传部出版产品质量监督检测中心主任袁亚平致辞。新华网记者 陈延特 摄

  中央宣传部出版产品质量监督检测中心主任袁亚平在致辞中表示,作为中宣部直属事业单位和国家级出版质检机构,出版质检中心认真学习领悟习近平总书记“因地制宜发展新质生产力”重要论述,积极贯彻落实中宣部领导“数字化赋能、信息化转型”指示要求,扎实推进科技赋能出版质检工作。此前,中心已初步建成“全国出版质检和鉴定指导协作平台”。

  “该项目是中心2026年的开局头号工程,将结合双方资源优势合作共建。”袁亚平指出,该“工程”是旨在实现“服务管理部门质量监管、提升出版质检工作效能、助力出版业高质量发展”三大目标的重要项目,双方将共同努力打造一款管理适用、机构必备、行业所需的标杆性数字化产品。



新华网股份有限公司党委书记、董事长储学军致辞。新华网记者 陈延特 摄

  新华网股份有限公司党委书记、董事长储学军在致辞中表示,质量是出版的生命线,也是行业繁荣发展的压舱石。在大数据、人工智能深刻重塑舆论生态、文化业态及传播形态的当下,确保出版物质量、维护意识形态安全至关重要。

  储学军提到,新华网作为新型中央重点网络媒体,始终紧跟时代,积极布局人工智能技术研发与应用。新华网打造的“AI知识产权平台”,已聚合海量数据资源,并推出了多款跨平台工具。此次合作,双方将顺应信息技术发展潮流,携手打造出版“智能质检”新范式,助力监管部门提升效率,为出版业高质量发展,建设文化强国贡献力量。



签约仪式现场。新华网记者 陈延特 摄

  据介绍,该项目将基于出版质检中心专业、权威质检体系架构,依托新华网的技术底座、数据资源与生态能力,推动质检工作从“样本抽检”向“全流程监测”转变,通过数字化标准倒逼出版单位提升内容质量,为建设文化强国筑牢坚实的技术底座。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2026-5-31 21:53 , Processed in 0.104920 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表