从vibecodingagent到后训练，从零开始的实验科学网页链接这篇

蚁工厂 2026-02-17 17:31:37

从 vibe coding agent 到后训练，从零开始的实验科学网页链接这篇文章记录了作者 Vibe Coding一个投资Agent到利用后训练技术对其进行优化的实验过程。作者详述了使用 verl 框架对7B模型进行监督微调（SFT）和强化学习（RL）训练的经历，指出SFT虽然提升了工具使用能力但损害了推理能力。最终，通过采用GRPO算法并引入NGRPO等技巧解决奖励方差问题，他成功将小模型的表现提升至与 deepseek-chat 相当的水平。文章强调了在缺乏成熟调试工具的情况下，通过实验性探索掌握后训练技术的重要性。

0 阅读：0

感谢大家的关注

作者最新文章

1

课件：高效数据系统介绍 intro-data-system.xiangpeng.

2

今天是腾讯老板马化腾的生日，转发这条……

3

自Chrome 154版本开始“一律使用安全连接”选项将默认开启。

4

还活着的人（79.5 亿）和历史上所有已经死去的人（1090亿）

5

grokipedia.comMusk的grokipedia上线了,目前应该没有中

6

CUDA Kernel 是如何在 GPU 上执行的 -- 视觉化教程制图：dam

7

终极Python学习指南github.com/huangsam/ultimate

8

电子书《Machine Learning Systems》机器学习系统--工程

9

一觉醒来deepseek又反超拿下第一。现在6个大模型分三个级别很明显~deep

10

前端三巨头，Dan Abramov、尤雨溪和Daishi Kato

热门分类

科技TOP

1

雷军明天早上8:00又要做直播！就是刚才，雷军在社交网络上给大家拜早年了，这

2

宇树机器人三上春晚，宇树机器人今后就是春晚界的“赵本山”，今年宇树机器人又会带给

3

华为第二代阔折叠机型曝光华为PuraX2终于要来了，华为这个产品其实挺有意

4

影石年会直接送5套房打工人看完直接破防了！影石Insta360这波年会操

5

ProAir正式发布了：6.1mm厚，155g重，6.3寸屏幕小尺寸天

6

TikTok因应用程序的成瘾功能被指控违反欧盟规定TikTok、周五、被指控违反

7

鸿蒙微信消费者版本邀请内测8.0.15.161.设置-朋友权限新增“添加我的

8

宇树机器人的主要供应链曝光了，果然，制造业是一个大的生态，一荣俱荣。#宇树#

9

刚刚！400万粉丝大V曝光流量收益！流量原来真的可以变现，就在刚刚，拥有400

10

我去小米澎湃OS3深夜上热搜。

科技最新文章

1

春晚机器人让美国网友愤怒了！“为什么美国价值数十亿美元的研究实验室和机器人初创公

2

谁把撒贝宁做成老鼠干了我也是用上春晚同款了？事情是这样的：我看春晚的时候才发现华

3

春晚看主持人手上的手机，太好辨认了，华为MateX7，这场春晚含华量很高。

4

今晚最大赢家——宇树科技春晚

5

荣耀X80配置全曝光，这波直接预定爆款🔥X70已经够能打了，X80直接全

6

听我劝一句！荣耀Magic8系列中Magic8Pro才是YYDS，毕竟这是配置

7

万万没想到[捂脸哭]荣耀GTPro竟然这么坚挺，小弟荣耀WINRT也只能甘拜下

8

荣耀新春系统大更新🔥宠粉拉满！快查有没有你的机型过年还不忘更系统，荣耀也

9

零差评🔥荣耀目前最值得入手的5款手机，按预算闭眼冲！✅荣耀500数字系

10

这就是为什么要支持鸿蒙的原因了！深圳敢为天下先，试点鸿蒙+星闪的技术，在地铁上不