[LG]《Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS》C Jin, Y Zhou, Q Zhang, H Peng... [Rutgers University & Nanyang Technological University] (2025)
AIRL-S:革新LLM推理能力的统一框架
• 首次将RL(基于稀疏结果奖励)与基于搜索的Test-Time Scaling(TTS)自然融合,解决了传统方法中样本效率低、训练不稳和奖励模型静态失效等问题。
• 利用Adversarial Inverse Reinforcement Learning(AIRL)结合Group Relative Policy Optimization(GRPO),无需人工标注中间步骤奖励,直接从正确的推理轨迹中学习动态、稠密的Process Reward Model(PRM)。
• 训练出的PRM在推理时既作为RL中的评价者,也作为搜索算法(如Best-of-N采样、Beam Search、MCTS)的启发式指导,显著提升推理链扩展的连贯性与抗奖励作弊能力。
• 在数学、科学推理和代码生成等8个基准测试中,AIRL-S平均提升9%性能,达到甚至匹配GPT-4o表现。PRM跨模型、跨任务泛化能力强,优于所有基于标注数据训练的奖励模型。
• 研究展现奖励函数与搜索启发式的本质联系,证明RL中学习的奖励函数即为最优搜索PRM,提供一种低成本且高效的复杂推理任务解决方案。
详细解读👉 arxiv.org/abs/2508.14313
人工智能大语言模型强化学习搜索算法机器学习自然语言处理