《Post-training 101: A hitchhiker's guide into LLM post-training》
从预训练到指令调优,LLM 后训练全流程解读:
• 预训练阶段以大规模文本和图像数据为基础,目标是学习语言的统计规律,采用“预测下一个token”的任务,知识丰富却难以直接满足用户指令需求。
• 后训练(Fine-tuning)通过更小规模、高质量的指令-响应对数据,校准模型行为,使其更“懂指令”、更有用,常见技术包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。
• SFT阶段核心是用人工或优质模型生成的示范数据教模型“正确回答”,数据质量决定效果,需严密筛选、验证与多样化增强,损失函数为负对数似然,训练时通过批处理与padding保证高效计算。
• RL阶段复杂且高效,基于奖励信号(如人类偏好、AI判分、代码测试等)调整模型策略,主流算法有PPO、GRPO、REINFORCE和DPO,均通过最大化期望奖励并限制与初始模型的KL散度漂移实现稳定训练。
• 奖励信号多元:RLHF用人类偏好训练奖励模型;RLAIF借助AI判官和宪法规则扩展监督;RLVR利用可验证的程序化奖励提升数学和编程能力;过程监督细化到步骤级评分;评分标准化为rubric指导奖励聚合。
• 评估方式多样且互补:自动评估(基于标准答案的准确率或LLM判官评分)快速经济,适合边界明确任务;人工评估(点评分和偏好评测)是主观质量的金标准,特别适合开放式和敏感任务,常用方法有ELO排名和净胜率统计。
• 数据污染是评估中的大忌,会导致模型“背答案”而非真正理解,防范手段包括数据集去重、使用私有测试集及谨慎解读高分。
心得:
1. 后训练的核心不是简单训练,而是数据的精准设计与严苛质量把控,数据即模型。
2. 强化学习阶段的奖励设计是提升模型行为对齐和能力的关键,混合多种奖励类型可显著增强泛化和安全性。
3. 评估体系需结合自动化与人工打分,兼顾效率与深度,方能准确反映模型实际表现。
🔗 tokens-for-thoughts.notion.site/post-training-101
大语言模型 后训练 监督微调 强化学习 模型评估 数据质量