《Post-training101:Ahitchhiker'sguide

《Post-training 101: A hitchhiker's guide into LLM post-training》

从预训练到指令调优，LLM 后训练全流程解读：

• 预训练阶段以大规模文本和图像数据为基础，目标是学习语言的统计规律，采用“预测下一个token”的任务，知识丰富却难以直接满足用户指令需求。

• 后训练（Fine-tuning）通过更小规模、高质量的指令-响应对数据，校准模型行为，使其更“懂指令”、更有用，常见技术包括监督微调（SFT）和基于人类反馈的强化学习（RLHF）。

• SFT阶段核心是用人工或优质模型生成的示范数据教模型“正确回答”，数据质量决定效果，需严密筛选、验证与多样化增强，损失函数为负对数似然，训练时通过批处理与padding保证高效计算。

• RL阶段复杂且高效，基于奖励信号（如人类偏好、AI判分、代码测试等）调整模型策略，主流算法有PPO、GRPO、REINFORCE和DPO，均通过最大化期望奖励并限制与初始模型的KL散度漂移实现稳定训练。

• 奖励信号多元：RLHF用人类偏好训练奖励模型；RLAIF借助AI判官和宪法规则扩展监督；RLVR利用可验证的程序化奖励提升数学和编程能力；过程监督细化到步骤级评分；评分标准化为rubric指导奖励聚合。

• 评估方式多样且互补：自动评估（基于标准答案的准确率或LLM判官评分）快速经济，适合边界明确任务；人工评估（点评分和偏好评测）是主观质量的金标准，特别适合开放式和敏感任务，常用方法有ELO排名和净胜率统计。

• 数据污染是评估中的大忌，会导致模型“背答案”而非真正理解，防范手段包括数据集去重、使用私有测试集及谨慎解读高分。

心得：

1. 后训练的核心不是简单训练，而是数据的精准设计与严苛质量把控，数据即模型。

2. 强化学习阶段的奖励设计是提升模型行为对齐和能力的关键，混合多种奖励类型可显著增强泛化和安全性。

3. 评估体系需结合自动化与人工打分，兼顾效率与深度，方能准确反映模型实际表现。

🔗 tokens-for-thoughts.notion.site/post-training-101

大语言模型后训练监督微调强化学习模型评估数据质量

0 阅读：0