ACL 2026 | 中科大&上海AILab揭示强化学习后训练的Scaling Law

mynccs · 发表于昨天 11:22

从 DeepSeek-R1 到 Kimi K2.5，强化学习（RL）后训练已经成为提升大模型推理能力的核心手段。

但一个关键问题始终悬而未决：RL 后训练的 Scaling 行为到底遵循什么规律？能否像预训练 Scaling Law 那样，给定模型参数量、计算预算和数据量，就能定量预测 RL 后训练所能达到的性能？又能否像预训练 Scaling Law 那样，为实践者指明一条清晰的扩展路径？

来自中国科学技术大学和上海人工智能实验室等机构的研究团队给出了系统性的回答。团队在 Qwen2.5 全系列密集模型（0.5B–72B）上开展了大规模 RL 训练实证研究，并在 Llama 3 系列（1B–70B）上完成了跨架构验证，首次全面刻画了大模型强化学习后训练在数学推理任务上的 Scaling 行为，提出了一套能够预测模型学习效率与训练轨迹的幂律公式。

		自动登录	找回密码
密码			注册

[【其它】] ACL 2026 | 中科大&上海AILab揭示强化学习后训练的Scaling Law