找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 66|回复: 4

[【书香茶座】] 简中语境下跨国AI模型比较:豆书记、chatgpt、Gemini

[复制链接]
发表于 前天 23:26 | 显示全部楼层 |阅读模式
有机会比较强内外AI模型,发现结果挺有意思的。

豆包被网友戏称为豆书记。这也是最近知道的。不过真的很有道理,尤其是最近这一阵豆书记有点变本加厉了,书记味儿强到了呛人的程度。
比如在老板的智商那个帖子里聊到了创业者的风险偏好,不免联想到军事家的风险偏好,想到了两个极端的例子:山本五十六和林彪。因为数据是更安全的证据,所以就去问了一下AI,结果问豆包立刻先被豆包一通政治教育,我不过是纯粹从军事学和管理学的角度好不好?豆书记的书记味儿真是太呛人了。我记得半个月之前的豆书记还不是这么严重呢。

墙外AI的话,有两个典型可以比较,一个是规模最大资历最深的chatgpt,另一个是被越来越看好的Gemini。
比较发现,在书记味儿比较强的领域,chatgpt也有那么点书记味儿,Gemini基本无色无味。
和AI探讨了一下,因为AI的答案都是从现成语料中学习和训练的结果,所以是否当简中提问时,因为AI会从简中语料出发,而简中语料显然书记味儿是比较重的,结果简中问题的答案就会书记味儿比较重。
chatgpt的回答是:对于简中问题,AI还是会从全球语料出发的,并不限于简中语料,但是最后出答案的时候有一个步骤叫alignment,这个alignment不同的公司有不同的控制。换句话说,AI心里是啥都懂的,但是AI说出来的话要经过公司的内审,而不同公司的内审是不同的,这就是AI不同回答背后的白箱解释。
我觉得还是有道理的,虽然不知真假。chatgpt和微软一样希望进入中国大陆市场,所以它的内审就要有个态度,本来就没戏,态度不好就更没戏了。Gemini则认清了彻底没戏,所以也没必要有好态度。

与书记味儿无关的领域,比如数学,不同AI的比较如何呢?
正好我们家宝宝刚拿了高斯比赛的满分,培训机构说我们这儿从来没有满分,而且你还从来没参加过我们的培训,所以质疑宝宝的成绩。其中最后一道题的确有难度,问了一下各大AI,结果所有AI的结果全不一样。
豆书记的数学是相对较差的,这次依然不负众望。
chatgpt还是原始算法的风格,还是那张逻辑严谨的婆婆嘴,不过也算错了。
Gemini是唯一算对了的,而且算法也是相对来说最好的。经我提醒,它很快找到了更加faster and structural的算法。
当然一道题不能说明什么。一叶知秋而已。

没时间进行全方位的比较。不过我相信有人有时间,静待结果吧。
最后顺便说一下,豆书记可能会用RLHF来给自己的书记味儿打马虎眼,但其实显然是无效的。哪怕用风险偏好来解释都会更合理。

评分

1

查看全部评分

回复

使用道具 举报

 楼主| 发表于 昨天 13:36 | 显示全部楼层
又分别让豆书记和chatgpt、Gemini做了3道AMC的数学题。结果如下:
豆书记三题全错。看来数学真是不行。
chatgpt一错两对。而且对的题解法有一题比Gemini更好。
Gemini三题全对。但有一题的解法不如chatgpt。

豆书记和chatgpt都错的那道题,让deepseek也做了一下,它也错了。但它的表现比豆书记要强一点,它发现了自己的解法可能有问题并明确说了出来,几乎就走向正确,可惜最后还是坚持了错误。
回复

使用道具 举报

发表于 昨天 17:27 | 显示全部楼层
本帖最后由 秋水小柯 于 2026-6-6 22:04 编辑

据说deepseek以前同一个问题,用英文输入和中文,答案有时是不一样的。我没有试过,不过我即使用Gemini、GTP或者Claude,Prompt我都会加一句“英文思考,中文输出”,或者英文输出,然后用另一个模型翻译一下。
回复

使用道具 举报

发表于 昨天 17:28 | 显示全部楼层
秋水小柯 发表于 2026-6-6 17:27
据说deepseek以前同一个问题,用英文输入和中文,答案有时是不一样的。我没有试过,不过我即使用Gemini、GT ...

你都用英文发问了还多此一举翻译干什么
回复

使用道具 举报

 楼主| 发表于 4 小时前 | 显示全部楼层
秋水小柯 发表于 2026-6-6 17:27
据说deepseek以前同一个问题,用英文输入和中文,答案有时是不一样的。我没有试过,不过我即使用Gemini、GT ...

思路肯定是对的。各大模型虽然算法不太一样,这个方法对于prompt语言决定语料范围的那种特别有效。

不过最后输出时都有个alignment的问题。而在做align时,RLHF是必须的,只不过RLHF的具体策略墙内墙外不同,各公司也有不同。
所以加一句直接排斥某种倾向例如书记味在prompt里,可能更有利于RLHF的调整。

当然,墙内AI的话,这些可能都无效,因为就不是RLHF了,而是RLGF了:老百姓喜欢不喜欢无所谓,关键要看官家的态度。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2026-6-7 06:04 , Processed in 0.098992 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表