陈丹琦提出强化学习第三条路强化学习第三条路诞生
结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。
陈丹琦新作来了。
他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。
它要求模型在回答之前生成CoT,然后使用人类偏好训练的奖励模型来评价输出。
支持在基础模型上直接使用,甚至不需要SFT,可以大幅节省后训练成本。
网友觉得,这种方法为通用强化学习设定了一个新基线:谁制定了偏好的定义,谁就是后训练时代的“新得分手”。