gongqi 发表于 2026-6-5 23:26:25

简中语境下跨国AI模型比较:豆书记、chatgpt、Gemini

有机会比较强内外AI模型,发现结果挺有意思的。

豆包被网友戏称为豆书记。这也是最近知道的。不过真的很有道理,尤其是最近这一阵豆书记有点变本加厉了,书记味儿强到了呛人的程度。
比如在老板的智商那个帖子里聊到了创业者的风险偏好,不免联想到军事家的风险偏好,想到了两个极端的例子:山本五十六和林彪。因为数据是更安全的证据,所以就去问了一下AI,结果问豆包立刻先被豆包一通政治教育,我不过是纯粹从军事学和管理学的角度好不好?豆书记的书记味儿真是太呛人了。我记得半个月之前的豆书记还不是这么严重呢。

墙外AI的话,有两个典型可以比较,一个是规模最大资历最深的chatgpt,另一个是被越来越看好的Gemini。
比较发现,在书记味儿比较强的领域,chatgpt也有那么点书记味儿,Gemini基本无色无味。
和AI探讨了一下,因为AI的答案都是从现成语料中学习和训练的结果,所以是否当简中提问时,因为AI会从简中语料出发,而简中语料显然书记味儿是比较重的,结果简中问题的答案就会书记味儿比较重。
chatgpt的回答是:对于简中问题,AI还是会从全球语料出发的,并不限于简中语料,但是最后出答案的时候有一个步骤叫alignment,这个alignment不同的公司有不同的控制。换句话说,AI心里是啥都懂的,但是AI说出来的话要经过公司的内审,而不同公司的内审是不同的,这就是AI不同回答背后的白箱解释。
我觉得还是有道理的,虽然不知真假。chatgpt和微软一样希望进入中国大陆市场,所以它的内审就要有个态度,本来就没戏,态度不好就更没戏了。Gemini则认清了彻底没戏,所以也没必要有好态度。

与书记味儿无关的领域,比如数学,不同AI的比较如何呢?
正好我们家宝宝刚拿了高斯比赛的满分,培训机构说我们这儿从来没有满分,而且你还从来没参加过我们的培训,所以质疑宝宝的成绩。其中最后一道题的确有难度,问了一下各大AI,结果所有AI的结果全不一样。
豆书记的数学是相对较差的,这次依然不负众望。
chatgpt还是原始算法的风格,还是那张逻辑严谨的婆婆嘴,不过也算错了。
Gemini是唯一算对了的,而且算法也是相对来说最好的。经我提醒,它很快找到了更加faster and structural的算法。
当然一道题不能说明什么。一叶知秋而已。

没时间进行全方位的比较。不过我相信有人有时间,静待结果吧。
最后顺便说一下,豆书记可能会用RLHF来给自己的书记味儿打马虎眼,但其实显然是无效的。哪怕用风险偏好来解释都会更合理。

gongqi 发表于 2026-6-6 13:36:41

又分别让豆书记和chatgpt、Gemini做了3道AMC的数学题。结果如下:
豆书记三题全错。看来数学真是不行。
chatgpt一错两对。而且对的题解法有一题比Gemini更好。
Gemini三题全对。但有一题的解法不如chatgpt。

豆书记和chatgpt都错的那道题,让deepseek也做了一下,它也错了。但它的表现比豆书记要强一点,它发现了自己的解法可能有问题并明确说了出来,几乎就走向正确,可惜最后还是坚持了错误。

秋水小柯 发表于 2026-6-6 17:27:06

本帖最后由 秋水小柯 于 2026-6-6 22:04 编辑

据说deepseek以前同一个问题,用英文输入和中文,答案有时是不一样的。我没有试过,不过我即使用Gemini、GTP或者Claude,Prompt我都会加一句“英文思考,中文输出”,或者英文输出,然后用另一个模型翻译一下。

横槊赋诗 发表于 2026-6-6 17:28:47

秋水小柯 发表于 2026-6-6 17:27
据说deepseek以前同一个问题,用英文输入和中文,答案有时是不一样的。我没有试过,不过我即使用Gemini、GT ...

你都用英文发问了还多此一举翻译干什么

gongqi 发表于 2026-6-7 01:12:18

秋水小柯 发表于 2026-6-6 17:27
据说deepseek以前同一个问题,用英文输入和中文,答案有时是不一样的。我没有试过,不过我即使用Gemini、GT ...
思路肯定是对的。各大模型虽然算法不太一样,这个方法对于prompt语言决定语料范围的那种特别有效。

不过最后输出时都有个alignment的问题。而在做align时,RLHF是必须的,只不过RLHF的具体策略墙内墙外不同,各公司也有不同。
所以加一句直接排斥某种倾向例如书记味在prompt里,可能更有利于RLHF的调整。

当然,墙内AI的话,这些可能都无效,因为就不是RLHF了,而是RLGF了:老百姓喜欢不喜欢无所谓,关键要看官家的态度。

gongqi 发表于 5 天前

其实还有一个选项:Claude。
因为据说Claude最耿直。在有些领域,耿直的AI是最需要的。

秋水小柯 发表于 5 天前

gongqi 发表于 2026-6-10 11:55
其实还有一个选项:Claude。
因为据说Claude最耿直。在有些领域,耿直的AI是最需要的。 ...

是的,目前看Claude是最好用的,Gemini降智太严重,不过从长期看,大模型应该会趋同到同一技术水平,墙内的应该够戗。

gongqi 发表于 5 天前

秋水小柯 发表于 2026-6-10 12:33
是的,目前看Claude是最好用的,Gemini降智太严重,不过从长期看,大模型应该会趋同到同一技术水平,墙内 ...

豆包和chatgpt都说大家水平差不多,差别在alignment。

不过二位这么说的前提是我批评了它俩一个书记一个准书记,它俩自然要自辩。

目前在弄一个语言学的东西。从目前的情况看,这些大模型各有千秋。在对现代汉语思维的理解和梳理上,chatgpt更符合我的想法。但聊到python,chatgpt的婆婆嘴就又太碎了。

横槊赋诗 发表于 5 天前

gongqi 发表于 2026-6-10 16:48
豆包和chatgpt都说大家水平差不多,差别在alignment。

不过二位这么说的前提是我批评了它俩一个书记一个 ...

ChatGPT好像主要是用的英文语料,包括国内AI我用的通义千问好像也是利用英文搜集信息再翻译成中文的,这又如何能理解现代汉语呢?

秋水小柯 发表于 5 天前

gongqi 发表于 2026-6-10 16:48
豆包和chatgpt都说大家水平差不多,差别在alignment。

不过二位这么说的前提是我批评了它俩一个书记一个 ...

这两个不可能差不多的,即便是技术上拉齐了,但是大模型底层的东西是不一样的。不过我觉得其实也并不是很重要,毕竟意识到差别的人,自然具备分辨能力,没有分辨能力的人,留在茧房就好了。我觉得现在AI的主要能力在推理而不是分析,需要给方向,做校验。说到底还是使用者的能力,缺乏逻辑能力,表达混乱的人,用哪个都一样:lol

gongqi 发表于 4 天前

横槊赋诗 发表于 2026-6-10 17:07
ChatGPT好像主要是用的英文语料,包括国内AI我用的通义千问好像也是利用英文搜集信息再翻译成中文的,这 ...
这一代的生成式AI也是从国外传过来的,所以其基础或者直接复制自或者蒸馏自国外的AI,也就是说基础语料是英文语料。
但进来后,官家显然抗拒其意识形态有关的内容,所以必然要改造。最简单的改造就是在后期的alignment处下手,但这先后不够,因为会开很多天窗和驴唇不对马嘴的脑洞。所以后来就大幅增加简中语料的训练。其结果就是,前期的豆书记们就是大老粗式的简单粗暴,但现在的豆书记们已经熟练了义务教育里的那套意识形态逻辑,也能讲一些详细的道理了。
不过,豆书记们的道理显然讲不过墙外的AI。所以一定要用墙挡住墙外AI。

所以,现在与意识形态有关的信息是不会用英文搜索的。

gongqi 发表于 4 天前

秋水小柯 发表于 2026-6-10 17:31
这两个不可能差不多的,即便是技术上拉齐了,但是大模型底层的东西是不一样的。不过我觉得其实也并不是很 ...
纯粹从技术角度分析,墙内AI做的是:

[*]预训练语料过滤:在数据层面就清洗掉敏感内容,而不只是事后align。
[*]RLHF的标注员选择:墙内内模型的人类反馈标注本身就在特定意识形态框架内。
[*]推理层的关键词拦截:这是最直接但最可靠的兜底,独立于模型权重之外。
[*]RAG层的内容控制:联网检索时只访问已审查的内容源。

这样做的确会让墙内AI在意识形态上更可靠。但缺点是模型的水平会下降。
道理是:墙和AI的配合构成了一个自我强化的循环:墙外AI越强,就越需要更高的墙,更高的墙又进一步降低了国内模型提高水平的动力。简单说就是竞争小了,动力也小了,水平自然就会下降。
这让人想起了当年没有竞争时中国电信的服务水平和技术水平。比如服务,没有竞争时你得求着电信给你服务,你得陪笑脸送礼;有了竞争后电信求着你给你服务,电信给你陪笑脸还得给你降价。
当然这个比喻和所有比喻一样都是蹩脚的——它缺了一条线:意识形态的强烈需求带来的动力。

至于说推理能力,其实技术上可能存在一条线:线下时,可以单独提高非意识形态方面的推理能力,这也是目前的情况。但一旦线上,一旦推理能力强到一定程度,人为的限制可能就会被突破,对人类有效的用利益来威胁对无利益的AI可能是无效的。
是不是给AI某种好处让它有自己的利益呢?
回到技术层面,当前的LLM本质上是无状态的函数,所以是“无利益”的。agent会更加有状态,所以也会更有利益。

不过,从技术角度看,一个真正有利益的AI,也许不会比没有利益的AI更听话,只会更难以预测。这是AI安全研究中被称为misalignment。当AI有了自己的目标函数之后,其行为对人类变得不透明。
当然技术上也有暂时的办法,例如沙箱化推理。不过这些方法似乎只是提高了上述那条线,并不能彻底解决问题。
有句流行的话:不能解决问题就解决提出问题的人。AI水平和目标形成trade-off,为了目标,那就只能牺牲AI的水平。
页: [1]
查看完整版本: 简中语境下跨国AI模型比较:豆书记、chatgpt、Gemini