破解大模型「无效并行推理」：Parallel-Probe问世，并行推理效率提升35.8%

mynccs · 发表于 1 小时前

当大模型推理进入 Parallel Thinking 时代，一个关键问题随之出现：

模型在并行推理的过程中，究竟发生了什么？多条推理路径同时展开，看似为模型带来了更强的能力，却也引入了一个长期被忽视的问题——大量计算是否正在被浪费在已经「没有必要继续」的思考上？

为了回答这一问题，来自马里兰大学、圣路易斯华盛顿大学、北卡罗来纳大学教堂山分校等机构的研究团队提出了 Parallel-Probe。不同于直接从算法设计出发，该研究首先通过引入 2D Probing，对 online 并行推理过程中的全局动态性进行了系统性刻画。研究发现，并行推理并非一个「算得越多越好」的过程：全局共识往往在所有分支结束之前就已提前稳定，而少数冗长的长尾路径却持续占据大量计算资源，成为并行推理效率的主要瓶颈。

基于这些关键发现，研究团队进一步提出了一个 training-free 的并行推理控制算法 Parallel-Probe，能够在不牺牲核心准确率的前提下，显著减少无效计算，将推理延迟降低 35.8%，总 token 成本降低 25.8%。

		自动登录	找回密码
密码			注册

[【其它】] 破解大模型「无效并行推理」：Parallel-Probe问世，并行推理效率提升35.8%