简中语境下跨国AI模型比较：豆书记、chatgpt、Gemini-网上读书园地

gongqi 发表于 2026-6-5 23:26:25

简中语境下跨国AI模型比较：豆书记、chatgpt、Gemini

有机会比较强内外AI模型，发现结果挺有意思的。

豆包被网友戏称为豆书记。这也是最近知道的。不过真的很有道理，尤其是最近这一阵豆书记有点变本加厉了，书记味儿强到了呛人的程度。
比如在老板的智商那个帖子里聊到了创业者的风险偏好，不免联想到军事家的风险偏好，想到了两个极端的例子：山本五十六和林彪。因为数据是更安全的证据，所以就去问了一下AI，结果问豆包立刻先被豆包一通政治教育，我不过是纯粹从军事学和管理学的角度好不好？豆书记的书记味儿真是太呛人了。我记得半个月之前的豆书记还不是这么严重呢。

墙外AI的话，有两个典型可以比较，一个是规模最大资历最深的chatgpt，另一个是被越来越看好的Gemini。
比较发现，在书记味儿比较强的领域，chatgpt也有那么点书记味儿，Gemini基本无色无味。
和AI探讨了一下，因为AI的答案都是从现成语料中学习和训练的结果，所以是否当简中提问时，因为AI会从简中语料出发，而简中语料显然书记味儿是比较重的，结果简中问题的答案就会书记味儿比较重。
chatgpt的回答是：对于简中问题，AI还是会从全球语料出发的，并不限于简中语料，但是最后出答案的时候有一个步骤叫alignment，这个alignment不同的公司有不同的控制。换句话说，AI心里是啥都懂的，但是AI说出来的话要经过公司的内审，而不同公司的内审是不同的，这就是AI不同回答背后的白箱解释。
我觉得还是有道理的，虽然不知真假。chatgpt和微软一样希望进入中国大陆市场，所以它的内审就要有个态度，本来就没戏，态度不好就更没戏了。Gemini则认清了彻底没戏，所以也没必要有好态度。

与书记味儿无关的领域，比如数学，不同AI的比较如何呢？
正好我们家宝宝刚拿了高斯比赛的满分，培训机构说我们这儿从来没有满分，而且你还从来没参加过我们的培训，所以质疑宝宝的成绩。其中最后一道题的确有难度，问了一下各大AI，结果所有AI的结果全不一样。
豆书记的数学是相对较差的，这次依然不负众望。
chatgpt还是原始算法的风格，还是那张逻辑严谨的婆婆嘴，不过也算错了。
Gemini是唯一算对了的，而且算法也是相对来说最好的。经我提醒，它很快找到了更加faster and structural的算法。
当然一道题不能说明什么。一叶知秋而已。

没时间进行全方位的比较。不过我相信有人有时间，静待结果吧。
最后顺便说一下，豆书记可能会用RLHF来给自己的书记味儿打马虎眼，但其实显然是无效的。哪怕用风险偏好来解释都会更合理。

gongqi 发表于 2026-6-6 13:36:41

又分别让豆书记和chatgpt、Gemini做了3道AMC的数学题。结果如下：
豆书记三题全错。看来数学真是不行。
chatgpt一错两对。而且对的题解法有一题比Gemini更好。
Gemini三题全对。但有一题的解法不如chatgpt。

豆书记和chatgpt都错的那道题，让deepseek也做了一下，它也错了。但它的表现比豆书记要强一点，它发现了自己的解法可能有问题并明确说了出来，几乎就走向正确，可惜最后还是坚持了错误。

秋水小柯 发表于 2026-6-6 17:27:06

本帖最后由秋水小柯于 2026-6-6 22:04 编辑

据说deepseek以前同一个问题，用英文输入和中文，答案有时是不一样的。我没有试过，不过我即使用Gemini、GTP或者Claude，Prompt我都会加一句“英文思考，中文输出”，或者英文输出，然后用另一个模型翻译一下。

横槊赋诗 发表于 2026-6-6 17:28:47

秋水小柯发表于 2026-6-6 17:27
据说deepseek以前同一个问题，用英文输入和中文，答案有时是不一样的。我没有试过，不过我即使用Gemini、GT ...

你都用英文发问了还多此一举翻译干什么

gongqi 发表于 2026-6-7 01:12:18

秋水小柯发表于 2026-6-6 17:27
据说deepseek以前同一个问题，用英文输入和中文，答案有时是不一样的。我没有试过，不过我即使用Gemini、GT ...
思路肯定是对的。各大模型虽然算法不太一样，这个方法对于prompt语言决定语料范围的那种特别有效。

不过最后输出时都有个alignment的问题。而在做align时，RLHF是必须的，只不过RLHF的具体策略墙内墙外不同，各公司也有不同。
所以加一句直接排斥某种倾向例如书记味在prompt里，可能更有利于RLHF的调整。

当然，墙内AI的话，这些可能都无效，因为就不是RLHF了，而是RLGF了：老百姓喜欢不喜欢无所谓，关键要看官家的态度。

gongqi 发表于 5 天前

其实还有一个选项：Claude。
因为据说Claude最耿直。在有些领域，耿直的AI是最需要的。

秋水小柯 发表于 5 天前

gongqi 发表于 2026-6-10 11:55
其实还有一个选项：Claude。
因为据说Claude最耿直。在有些领域，耿直的AI是最需要的。 ...

是的，目前看Claude是最好用的，Gemini降智太严重，不过从长期看，大模型应该会趋同到同一技术水平，墙内的应该够戗。

gongqi 发表于 5 天前

秋水小柯发表于 2026-6-10 12:33
是的，目前看Claude是最好用的，Gemini降智太严重，不过从长期看，大模型应该会趋同到同一技术水平，墙内 ...

豆包和chatgpt都说大家水平差不多，差别在alignment。

不过二位这么说的前提是我批评了它俩一个书记一个准书记，它俩自然要自辩。

目前在弄一个语言学的东西。从目前的情况看，这些大模型各有千秋。在对现代汉语思维的理解和梳理上，chatgpt更符合我的想法。但聊到python，chatgpt的婆婆嘴就又太碎了。

横槊赋诗 发表于 5 天前

gongqi 发表于 2026-6-10 16:48
豆包和chatgpt都说大家水平差不多，差别在alignment。

不过二位这么说的前提是我批评了它俩一个书记一个 ...

ChatGPT好像主要是用的英文语料，包括国内AI我用的通义千问好像也是利用英文搜集信息再翻译成中文的，这又如何能理解现代汉语呢？

秋水小柯 发表于 5 天前

gongqi 发表于 2026-6-10 16:48
豆包和chatgpt都说大家水平差不多，差别在alignment。

不过二位这么说的前提是我批评了它俩一个书记一个 ...

这两个不可能差不多的，即便是技术上拉齐了，但是大模型底层的东西是不一样的。不过我觉得其实也并不是很重要，毕竟意识到差别的人，自然具备分辨能力，没有分辨能力的人，留在茧房就好了。我觉得现在AI的主要能力在推理而不是分析，需要给方向，做校验。说到底还是使用者的能力，缺乏逻辑能力，表达混乱的人，用哪个都一样:lol

gongqi 发表于 4 天前

横槊赋诗发表于 2026-6-10 17:07
ChatGPT好像主要是用的英文语料，包括国内AI我用的通义千问好像也是利用英文搜集信息再翻译成中文的，这 ...
这一代的生成式AI也是从国外传过来的，所以其基础或者直接复制自或者蒸馏自国外的AI，也就是说基础语料是英文语料。
但进来后，官家显然抗拒其意识形态有关的内容，所以必然要改造。最简单的改造就是在后期的alignment处下手，但这先后不够，因为会开很多天窗和驴唇不对马嘴的脑洞。所以后来就大幅增加简中语料的训练。其结果就是，前期的豆书记们就是大老粗式的简单粗暴，但现在的豆书记们已经熟练了义务教育里的那套意识形态逻辑，也能讲一些详细的道理了。
不过，豆书记们的道理显然讲不过墙外的AI。所以一定要用墙挡住墙外AI。

所以，现在与意识形态有关的信息是不会用英文搜索的。

gongqi 发表于 4 天前

秋水小柯发表于 2026-6-10 17:31
这两个不可能差不多的，即便是技术上拉齐了，但是大模型底层的东西是不一样的。不过我觉得其实也并不是很 ...
纯粹从技术角度分析，墙内AI做的是：

[*]预训练语料过滤：在数据层面就清洗掉敏感内容，而不只是事后align。
[*]RLHF的标注员选择：墙内内模型的人类反馈标注本身就在特定意识形态框架内。
[*]推理层的关键词拦截：这是最直接但最可靠的兜底，独立于模型权重之外。
[*]RAG层的内容控制：联网检索时只访问已审查的内容源。

这样做的确会让墙内AI在意识形态上更可靠。但缺点是模型的水平会下降。
道理是：墙和AI的配合构成了一个自我强化的循环：墙外AI越强，就越需要更高的墙，更高的墙又进一步降低了国内模型提高水平的动力。简单说就是竞争小了，动力也小了，水平自然就会下降。
这让人想起了当年没有竞争时中国电信的服务水平和技术水平。比如服务，没有竞争时你得求着电信给你服务，你得陪笑脸送礼；有了竞争后电信求着你给你服务，电信给你陪笑脸还得给你降价。
当然这个比喻和所有比喻一样都是蹩脚的——它缺了一条线：意识形态的强烈需求带来的动力。

至于说推理能力，其实技术上可能存在一条线：线下时，可以单独提高非意识形态方面的推理能力，这也是目前的情况。但一旦线上，一旦推理能力强到一定程度，人为的限制可能就会被突破，对人类有效的用利益来威胁对无利益的AI可能是无效的。
是不是给AI某种好处让它有自己的利益呢？
回到技术层面，当前的LLM本质上是无状态的函数，所以是“无利益”的。agent会更加有状态，所以也会更有利益。

不过，从技术角度看，一个真正有利益的AI，也许不会比没有利益的AI更听话，只会更难以预测。这是AI安全研究中被称为misalignment。当AI有了自己的目标函数之后，其行为对人类变得不透明。
当然技术上也有暂时的办法，例如沙箱化推理。不过这些方法似乎只是提高了上述那条线，并不能彻底解决问题。
有句流行的话：不能解决问题就解决提出问题的人。AI水平和目标形成trade-off，为了目标，那就只能牺牲AI的水平。

页: [1]

网上读书园地's Archiver

简中语境下跨国AI模型比较：豆书记、chatgpt、Gemini