找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 11|回复: 0

[【其它】] ACL 2026 | 中科大&上海AILab揭示强化学习后训练的Scaling Law

[复制链接]
发表于 昨天 11:22 来自手机 | 显示全部楼层 |阅读模式
从 DeepSeek-R1 到 Kimi K2.5,强化学习(RL)后训练已经成为提升大模型推理能力的核心手段。

但一个关键问题始终悬而未决:RL 后训练的 Scaling 行为到底遵循什么规律?能否像预训练 Scaling Law 那样,给定模型参数量、计算预算和数据量,就能定量预测 RL 后训练所能达到的性能?又能否像预训练 Scaling Law 那样,为实践者指明一条清晰的扩展路径?

来自中国科学技术大学和上海人工智能实验室等机构的研究团队给出了系统性的回答。团队在 Qwen2.5 全系列密集模型(0.5B–72B)上开展了大规模 RL 训练实证研究,并在 Llama 3 系列(1B–70B)上完成了跨架构验证,首次全面刻画了大模型强化学习后训练在数学推理任务上的 Scaling 行为,提出了一套能够预测模型学习效率与训练轨迹的幂律公式。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2026-5-4 14:07 , Processed in 0.085142 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表