简中语境下跨国AI模型比较：豆书记、chatgpt、Gemini

gongqi · 发表于前天 23:26

有机会比较强内外AI模型，发现结果挺有意思的。

豆包被网友戏称为豆书记。这也是最近知道的。不过真的很有道理，尤其是最近这一阵豆书记有点变本加厉了，书记味儿强到了呛人的程度。
比如在老板的智商那个帖子里聊到了创业者的风险偏好，不免联想到军事家的风险偏好，想到了两个极端的例子：山本五十六和林彪。因为数据是更安全的证据，所以就去问了一下AI，结果问豆包立刻先被豆包一通政治教育，我不过是纯粹从军事学和管理学的角度好不好？豆书记的书记味儿真是太呛人了。我记得半个月之前的豆书记还不是这么严重呢。

墙外AI的话，有两个典型可以比较，一个是规模最大资历最深的chatgpt，另一个是被越来越看好的Gemini。
比较发现，在书记味儿比较强的领域，chatgpt也有那么点书记味儿，Gemini基本无色无味。
和AI探讨了一下，因为AI的答案都是从现成语料中学习和训练的结果，所以是否当简中提问时，因为AI会从简中语料出发，而简中语料显然书记味儿是比较重的，结果简中问题的答案就会书记味儿比较重。
chatgpt的回答是：对于简中问题，AI还是会从全球语料出发的，并不限于简中语料，但是最后出答案的时候有一个步骤叫alignment，这个alignment不同的公司有不同的控制。换句话说，AI心里是啥都懂的，但是AI说出来的话要经过公司的内审，而不同公司的内审是不同的，这就是AI不同回答背后的白箱解释。
我觉得还是有道理的，虽然不知真假。chatgpt和微软一样希望进入中国大陆市场，所以它的内审就要有个态度，本来就没戏，态度不好就更没戏了。Gemini则认清了彻底没戏，所以也没必要有好态度。

与书记味儿无关的领域，比如数学，不同AI的比较如何呢？
正好我们家宝宝刚拿了高斯比赛的满分，培训机构说我们这儿从来没有满分，而且你还从来没参加过我们的培训，所以质疑宝宝的成绩。其中最后一道题的确有难度，问了一下各大AI，结果所有AI的结果全不一样。
豆书记的数学是相对较差的，这次依然不负众望。
chatgpt还是原始算法的风格，还是那张逻辑严谨的婆婆嘴，不过也算错了。
Gemini是唯一算对了的，而且算法也是相对来说最好的。经我提醒，它很快找到了更加faster and structural的算法。
当然一道题不能说明什么。一叶知秋而已。

没时间进行全方位的比较。不过我相信有人有时间，静待结果吧。
最后顺便说一下，豆书记可能会用RLHF来给自己的书记味儿打马虎眼，但其实显然是无效的。哪怕用风险偏好来解释都会更合理。

gongqi · 发表于昨天 13:36

又分别让豆书记和chatgpt、Gemini做了3道AMC的数学题。结果如下：
豆书记三题全错。看来数学真是不行。
chatgpt一错两对。而且对的题解法有一题比Gemini更好。
Gemini三题全对。但有一题的解法不如chatgpt。

豆书记和chatgpt都错的那道题，让deepseek也做了一下，它也错了。但它的表现比豆书记要强一点，它发现了自己的解法可能有问题并明确说了出来，几乎就走向正确，可惜最后还是坚持了错误。

秋水小柯 · 发表于昨天 17:27

本帖最后由秋水小柯于 2026-6-6 22:04 编辑

据说deepseek以前同一个问题，用英文输入和中文，答案有时是不一样的。我没有试过，不过我即使用Gemini、GTP或者Claude，Prompt我都会加一句“英文思考，中文输出”，或者英文输出，然后用另一个模型翻译一下。

横槊赋诗 · 发表于昨天 17:28

秋水小柯发表于 2026-6-6 17:27
据说deepseek以前同一个问题，用英文输入和中文，答案有时是不一样的。我没有试过，不过我即使用Gemini、GT ...

你都用英文发问了还多此一举翻译干什么

gongqi · 发表于 4 小时前

秋水小柯发表于 2026-6-6 17:27
据说deepseek以前同一个问题，用英文输入和中文，答案有时是不一样的。我没有试过，不过我即使用Gemini、GT ...

思路肯定是对的。各大模型虽然算法不太一样，这个方法对于prompt语言决定语料范围的那种特别有效。

不过最后输出时都有个alignment的问题。而在做align时，RLHF是必须的，只不过RLHF的具体策略墙内墙外不同，各公司也有不同。
所以加一句直接排斥某种倾向例如书记味在prompt里，可能更有利于RLHF的调整。

当然，墙内AI的话，这些可能都无效，因为就不是RLHF了，而是RLGF了：老百姓喜欢不喜欢无所谓，关键要看官家的态度。

		自动登录	找回密码
密码			注册

[【书香茶座】] 简中语境下跨国AI模型比较：豆书记、chatgpt、Gemini

评分