找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 620|回复: 22

[【品茶论道】] Meta大模型的新瓜

[复制链接]
发表于 2025-2-17 17:23:35 | 显示全部楼层 |阅读模式
各位看官怎么看呀?训练大模型的这个途径是常规操作吗?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×

评分

1

查看全部评分

回复

使用道具 举报

发表于 2025-2-17 17:36:06 | 显示全部楼层
这,这是用全世界的图书资源来训练大模型啊
回复

使用道具 举报

发表于 2025-2-17 18:28:37 | 显示全部楼层
作为用户来说,我希望大模型利用尽可能多的数据去训练,毕竟有多少数据就有多少智能,否则涌现出来的就是幻觉了

2023 年 OpenAI 就说 LLM 训练已经耗尽了人类几乎所有的文本,进而开发 whisper 去把音频转写成文本,是真的缺数据

我估计 meta 也同样面临数据枯竭的问题,所以才用了安娜和 libgen 的数据,可能是有人别有用心把公司邮件发给媒体了

安娜读秀数据本来也是打算给 LLM 公司独家授权的

评分

2

查看全部评分

回复

使用道具 举报

发表于 2025-2-17 18:37:09 来自手机 | 显示全部楼层
浪子回骨 发表于 2025-2-17 18:28
作为用户来说,我希望大模型利用尽可能多的数据去训练,毕竟有多少数据就有多少智能,否则涌现出来的就是幻 ...

这会libgen基本上不了了,不知道是不是这事的影响
回复

使用道具 举报

发表于 2025-2-17 19:40:12 | 显示全部楼层
横槊赋诗 发表于 2025-2-17 18:37
这会libgen基本上不了了,不知道是不是这事的影响

我试了下,现在 libgen.mx 可以用,之前存的 libgen.li 打不开了


不过我几乎从不担心 libgen 上不去,因为总是能在 Google 找到可用的镜像站,况且现在安娜也有 libgen 的数据~

评分

1

查看全部评分

回复

使用道具 举报

发表于 2025-2-17 19:48:16 | 显示全部楼层
浪子回骨 发表于 2025-2-17 19:40
我试了下,现在 libgen.mx 可以用,之前存的 libgen.li 打不开了

ChatGPT真把人类文本数据利用完了?还是说所有的ai?


其实现在电子书也近乎饱和了,是该想想有哪些盲区没有涉及。
回复

使用道具 举报

发表于 2025-2-17 20:22:03 来自手机 | 显示全部楼层
那是不是想知道这些书的内容,直接问模型就可以了?
回复

使用道具 举报

发表于 2025-2-17 20:29:46 | 显示全部楼层
横槊赋诗 发表于 2025-2-17 19:48
ChatGPT真把人类文本数据利用完了?还是说所有的ai?

看下面链接里的图表,应该这几年就将耗尽,公司之间的数据量不会相差很大

《Nature研究报告:AI革命的数据正在枯竭,研究人员该怎么办?》
https://www.163.com/dy/article/JJ7MSCQ1051193U6.html

评分

2

查看全部评分

回复

使用道具 举报

发表于 2025-2-17 20:32:13 | 显示全部楼层
浪子回骨 发表于 2025-2-17 20:29
看下面链接里的图表,应该这几年就将耗尽,公司之间的数据量不会相差很大

《Nature研究报告:AI革命的数 ...

如果能因此保留互联网全部文化遗产,也是一件好事。ai出来后,互联网似乎没有存在的必要了,人们都用机器思考,何必废话呢
回复

使用道具 举报

发表于 2025-2-17 22:29:25 | 显示全部楼层
NICK159 发表于 2025-2-17 20:22
那是不是想知道这些书的内容,直接问模型就可以了?

不是啊,合法合规的公开语料没那么多的,很多书大模型都没看过,会给你瞎编
回复

使用道具 举报

发表于 2025-2-17 22:31:13 | 显示全部楼层
ai的出现,对版权提出了新问题。也可以说版权严重阻碍了ai的发展
回复 2 0

使用道具 举报

发表于 2025-2-17 22:31:21 来自手机 | 显示全部楼层
鬼笔环肽 发表于 2025-2-17 22:29
不是啊,合法合规的公开语料没那么多的,很多书大模型都没看过,会给你瞎编
...

对于好多网民来说,真相是次要的,瞎编根本不是问题。
回复

使用道具 举报

发表于 2025-2-18 14:21:03 | 显示全部楼层
2023年就已经把现存资料用枯竭了,anna也是很早就在网站上挂上自己书籍用来训练翻译工具等的说明
回复

使用道具 举报

发表于 2025-2-18 14:28:09 | 显示全部楼层
正版和盗版的区别在哪,就是你没付钱呗,内容还是一样的内容
回复

使用道具 举报

发表于 2025-2-18 14:57:44 | 显示全部楼层
有意思,看来人工智能还有很长一段路要走,
回复

使用道具 举报

发表于 2025-2-19 12:16:39 | 显示全部楼层
确实现在的网络新事物,需要法律有跟进了
回复

使用道具 举报

发表于 2025-2-20 08:24:59 | 显示全部楼层
浪子回骨 发表于 2025-2-17 18:28
作为用户来说,我希望大模型利用尽可能多的数据去训练,毕竟有多少数据就有多少智能,否则涌现出来的就是幻 ...

没有大量的数据,如何训练出人工智能
回复

使用道具 举报

发表于 2025-2-20 10:34:45 | 显示全部楼层
我很讨厌安娜的图书馆透露顾客姓名的事情。出卖了Deepseek,还呼吁如果欧美不放开版权限制,将无法封锁中国,会威胁国家安全,无法与中国竞争人工智能竞赛。

评分

2

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2025-2-20 23:08:16 | 显示全部楼层
Doiiars 发表于 2025-2-20 10:34
我很讨厌安娜的图书馆透露顾客姓名的事情。出卖了Deepseek,还呼吁如果欧美不放开版权限制,将无法封锁中国 ...

屁股决定脑袋,不过吃相属实难看
回复

使用道具 举报

发表于 2025-2-21 08:58:42 | 显示全部楼层
现在这大模型是太热了啊。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2025-12-6 18:01 , Processed in 0.094282 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表