尽管强化学习对于 LLM 已变得至关重要,但该领域缺乏像模型预训练那样成熟的 Scaling Laws 。研究人员通常依赖大规模实验和“炼金术”般的调参,而没有一套科学的方法来预测哪种RL算法或配置能在大规模计算下取得最佳性能。
这篇论文“The Art of Scaling Reinforcement Learning Compute for LLMs ”尝试改变这一点:
arxiv.org/pdf/2510.13786
该研究提出了一个用于分析和预测LLM中强化学习规模化表现的科学框架,并基于此框架开发了一套名为 ScaleRL 的最佳实践方法。基于该方法使研究人员能够通过中等规模的实验,经济高效地预测不同RL算法在大规模计算下的表现。