找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 237|回复: 26

[【书香茶座】] AI和人口的关系:目前的不景气和未来的趋势

[复制链接]
发表于 2024-2-16 12:03:16 | 显示全部楼层 |阅读模式
本帖最后由 gongqi 于 2024-2-16 12:12 编辑

百度的AI,被chatgpt甩10条街不止。其中的原因可能很多,如果聊的话,技术性的太复杂,历史性的太麻烦,政治性的太敏感,咱们就说一个最简单安全的:人口。

可能有人知道,AI的算法其实没啥太多秘密,百度的算法和chatgpt差不了10条街。10条街的差距在于训练数据的质和量,而训练数据的质和量又和人口的质和量有很大关系。

人口数量很简单。中国14亿,美国3亿,欧洲那些小国家撑死了就几千万,所以在AI之前德国法国甚至芬兰还可以在IT领域时不时地冒头,AI来了这些国家就彻底没戏了,因为人口太少。所以AI的未来就只有2个:汉语和英语。因为这两个语言的人口远超其他。

汉语人口目前看优势很大,但随着近两年中国大陆经济不景气导致人口出生率的大幅下降,美国不仅出生率高于中国而且还吸引大量移民,有人推算几十年后美国人口就会与中国人口持平并进而反转,所以大声疾呼让政府补贴生孩子。

以目前的人口数量来看,百度甩德国法国是应该的,但为什么被chatgpt甩呢?

因为还有人口质量的问题。这并不是说中国人不如美国人聪明,而是说由于体制和教育等原因,中国人一切行动听指挥或容易乌合之众,说话的数据过于单调,单调的数据就是质量低的数据,提供这样质量低的数据的人口从AI的角度看就是低质量人口。

AI来了,很多职业面临被取代的风险,有人以为以后人越来越没用了。其实不是这样。也许以后很多低端劳动和劳动力会被AI取代,但一方面高端人群不可能被AI取代,另一方面中低端人群可以为AI提供其所必须的训练数据。未来的世界可能是这样的:高端人群依旧工作,获得较高比例的利益分配;中低端人群躺平提供训练数据,获得较低比例的利益分配。但这个较低比例的利益分配肯定生活比现在更好,就好像现在人的生活比古代人更好一样。

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-2-16 12:09:37 | 显示全部楼层
人口问题只是一个方面吧,训练模型和算法基本是基于英语语言,而非汉语语言,英语的语料质量也是高于汉语语料质量的。百度短时间内是超越不了OpenAI的,但根本还是钱的问题,百度在对AI的金钱投入还是没有OpenAI公司高的。但未来说不准,也许很快能超越,哈哈。

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-2-16 12:11:14 | 显示全部楼层
百度AI使用来训练的数据是原始采集数据呢,还是像用户搜索百度而经过滤了的数据呢?如果是后者的话,没多少价值。

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-2-16 12:16:30 | 显示全部楼层
也不一定是高低端。比如据说护理工作,社工等还是要人来做。
不了解ai背后的技术。如果需要基础科学支撑的话,欧美的积累深一些。如果算法不复杂,只在于训练数据,那么,中国庞大的数据就有优势了。
另外还有硬件的因素,中国的芯片受到制约,性能上也是要受影响的。

评分

1

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2024-2-16 12:17:44 | 显示全部楼层
fangwu 发表于 2024-2-16 12:09
人口问题只是一个方面吧,训练模型和算法基本是基于英语语言,而非汉语语言,英语的语料质量也是高于汉语语 ...

训练模型和算法和语言没啥关系。语料的数量和质量可能才是关键。

语料哪儿来?都是所有人口的语言输出嘛。
至于投钱,主要是硬件。中国政府最不缺的就是钱,全世界政府的钱加起来都不如中国。但光有硬件,语料水平低也没用。

点评

机器学习也是有权重的吧,语料的重要程度各不相同,正规出版物比网络帖子的重要度要高。机器学习的语料来源于全世界,不限于某一种语言,chatgpt中文就很好,所以地域不是限制。   发表于 2024-2-16 15:43

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-2-16 12:17:46 | 显示全部楼层
我印象里十几年前杂志就已经介绍人工智能了,这么想来,可能军用研究应该已经持续了一段时间。
回复

使用道具 举报

发表于 2024-2-16 12:20:16 | 显示全部楼层
中文互联网衰落,数据小质量差,与英文互联网差距大。
还有国内法律法规某些方面的限制。
回复

使用道具 举报

 楼主| 发表于 2024-2-16 12:23:09 | 显示全部楼层
许春梅 发表于 2024-2-16 12:11
百度AI使用来训练的数据是原始采集数据呢,还是像用户搜索百度而经过滤了的数据呢?如果是后者的话,没多少 ...

肯定是原始数据。
但原始数据也是经过过滤的。而且这种过滤是层层加码。不管是论坛还是微博短视频,动不动会会被禁言封号,不知道有多少不同声音的数据就是这么被过滤掉的。

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-2-16 12:24:37 | 显示全部楼层
gongqi 发表于 2024-2-16 12:23
肯定是原始数据。
但原始数据也是经过过滤的。而且这种过滤是层层加码。不管是论坛还是微博短视频,动不 ...

如果是面向大众的,过滤是必要的。如果不是,那么大概就没有那么必要。
回复

使用道具 举报

发表于 2024-2-16 12:25:00 | 显示全部楼层
中文互联网可用的语料库并不庞大,相比与西方互联网,不利于通用人工智能的发展
回复

使用道具 举报

 楼主| 发表于 2024-2-16 12:28:21 | 显示全部楼层
agent124 发表于 2024-2-16 12:16
也不一定是高低端。比如据说护理工作,社工等还是要人来做。
不了解ai背后的技术。如果需要基础科学支撑的 ...

是的。很多职业是短期很难被替代的。记得以前有个名单,具体记不清了,好像有厨师面包师之类。

AI的背后,如果说科学支撑,算法方面主要就是数学。但这个是很难保密的。一旦数学算法出来,肯定比意大利皮鞋的传播速度不会更慢。当年的说法是米兰上午出样品,温州下午就量产。

评分

1

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2024-2-16 12:30:04 | 显示全部楼层
横槊赋诗 发表于 2024-2-16 12:17
我印象里十几年前杂志就已经介绍人工智能了,这么想来,可能军用研究应该已经持续了一段时间。 ...

AI和之前的技术不同。之前的技术主要依赖专家,所以军用可能领先民用。但AI依赖海量数据,军用数据肯定比民用数据少多了。

评分

1

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2024-2-16 12:31:04 | 显示全部楼层
fhzcy 发表于 2024-2-16 12:20
中文互联网衰落,数据小质量差,与英文互联网差距大。
还有国内法律法规某些方面的限制。 ...

是的。这就是数据质量的差距。
回复

使用道具 举报

 楼主| 发表于 2024-2-16 12:33:41 | 显示全部楼层
横槊赋诗 发表于 2024-2-16 12:24
如果是面向大众的,过滤是必要的。如果不是,那么大概就没有那么必要。
...

语料就是来源于大众。要不怎么说人口很重要呢?

你不可能专门训练几千万体制内签了保密协议的水军专门在内部网说一些外边不许说的话吧?
回复

使用道具 举报

 楼主| 发表于 2024-2-16 13:37:07 | 显示全部楼层
fhzcy 发表于 2024-2-16 12:25
中文互联网可用的语料库并不庞大,相比与西方互联网,不利于通用人工智能的发展 ...

聪明人和傻子的一个区别就是,聪明人有千条妙计,傻子只有一定之规。

简中世界里,限制不同的声音,小粉红乌合之众对不同的声音破口大骂,结果只剩统一的声音。只有统一的声音,别说傻子了,连AI也要变成傻子。

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-2-16 13:48:11 | 显示全部楼层
本帖最后由 fhzcy 于 2024-2-16 14:06 编辑
gongqi 发表于 2024-2-16 13:37
聪明人和傻子的一个区别就是,聪明人有千条妙计,傻子只有一定之规。

简中世界里,限制不同的声音,小粉 ...

粉红没有思考能力,热衷阴谋论,沉溺于精神胜利法。

中国人工智能的未来需要开放繁荣的中文互联网。

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-2-16 13:59:39 | 显示全部楼层
解决问题的人和解决提问题的人
回复 1 0

使用道具 举报

发表于 2024-2-16 14:51:21 | 显示全部楼层
另外一个百思不得其解的问题:为什么我们很多科技公司都996乃至007了,还是卷不过对方的8小时工作制背景下的创造力和质量呢?
回复

使用道具 举报

发表于 2024-2-16 14:55:21 | 显示全部楼层
lamgpyc 发表于 2024-2-16 14:51
另外一个百思不得其解的问题:为什么我们很多科技公司都996乃至007了,还是卷不过对方的8小时工作制背景下 ...

人家可以招外国劳动力的啊
回复

使用道具 举报

发表于 2024-2-16 15:56:22 | 显示全部楼层
lamgpyc 发表于 2024-2-16 14:51
另外一个百思不得其解的问题:为什么我们很多科技公司都996乃至007了,还是卷不过对方的8小时工作制背景下 ...

有时候不是拼时间和加班时长,而是在单位时间内的有效性。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-5-13 23:43 , Processed in 0.618465 second(s), 18 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表