腾讯发布超低成本AI训练法新微调方案120元效果秒杀70000元
只花120元,效果吊打70000元微调!
腾讯提出一种升级大模型智能体的新方法——无训练组相对策略优化Training-Free GRPO。
无需调整任何参数,只要在提示词中学习简短经验,即可实现高性价比提升模型性能。
实验表明,在数学推理和网页搜索任务上,利用无训练GRPO的DeepSeek-V3.1-Terminus模型展现出显著的跨领域性能提升。
与微调32B模型相比,该方法在671B大型模型上所需训练数据更少、成本更低。
腾讯发布超低成本AI训练法新微调方案120元效果秒杀70000元
只花120元,效果吊打70000元微调!
腾讯提出一种升级大模型智能体的新方法——无训练组相对策略优化Training-Free GRPO。
无需调整任何参数,只要在提示词中学习简短经验,即可实现高性价比提升模型性能。
实验表明,在数学推理和网页搜索任务上,利用无训练GRPO的DeepSeek-V3.1-Terminus模型展现出显著的跨领域性能提升。
与微调32B模型相比,该方法在671B大型模型上所需训练数据更少、成本更低。
作者最新文章
热门分类
科技TOP
科技最新文章