从vibecodingagent到后训练,从零开始的实验科学网页链接这篇

蚁工厂 2026-02-17 17:31:37

从 vibe coding agent 到后训练,从零开始的实验科学网页链接这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。作者详述了使用 verl 框架对7B模型进行监督微调(SFT)和强化学习(RL)训练的经历,指出SFT虽然提升了工具使用能力但损害了推理能力。最终,通过采用GRPO算法并引入NGRPO等技巧解决奖励方差问题,他成功将小模型的表现提升至与 deepseek-chat 相当的水平。文章强调了在缺乏成熟调试工具的情况下,通过实验性探索掌握后训练技术的重要性。

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注