mynccs 发表于 昨天 08:09

破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%

当大模型推理进入 Parallel Thinking 时代,一个关键问题随之出现:

模型在并行推理的过程中,究竟发生了什么?多条推理路径同时展开,看似为模型带来了更强的能力,却也引入了一个长期被忽视的问题——大量计算是否正在被浪费在已经「没有必要继续」的思考上?

为了回答这一问题,来自马里兰大学、圣路易斯华盛顿大学、北卡罗来纳大学教堂山分校等机构的研究团队提出了 Parallel-Probe。不同于直接从算法设计出发,该研究首先通过引入 2D Probing,对 online 并行推理过程中的全局动态性进行了系统性刻画。研究发现,并行推理并非一个「算得越多越好」的过程:全局共识往往在所有分支结束之前就已提前稳定,而少数冗长的长尾路径却持续占据大量计算资源,成为并行推理效率的主要瓶颈。

基于这些关键发现,研究团队进一步提出了一个 training-free 的并行推理控制算法 Parallel-Probe,能够在不牺牲核心准确率的前提下,显著减少无效计算,将推理延迟降低 35.8%,总 token 成本降低 25.8%。
页: [1]
查看完整版本: 破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%