罗福莉对MiMo-V2-Flash的介绍:MiMo-V2-Flash 已正式上线。这只是我们 AGI 路线图中的第二步,但我想把一些真正产生决定性效果的工程选择随手记下来。架构:我们最终采用了 Hybrid SWA。它足够简单、足够优雅,而且在内部基准测试中,在长上下文推理上明显优于其他线性注意力(Linear Attention)变体。另外,固定 KV cache 与现有基础设施的兼容性要友好得多。备注:窗口大小 128 是那个“甜点值”(512 反而会拉低性能);sink values 是不可妥协的,千万别省略。MTP(Multi-Token Prediction):这一点在高效 RL 中被严重低估了。除了第一层以外,MTP 实际上只需要极少的微调,就能达到很高的 accept length。使用 3 层 MTP 时,我们在编程任务中看到了 accept length 大于 3,以及约 2.5 倍的速度提升。它基本上解决了小 batch 的 On-Policy RL 中,由长尾样本造成的 GPU 空转问题。这次由于时间节点原因,我们没能把它塞进 RL loop 里,但它在这里几乎是天作之合。我们已经开源了 3-layer MTP,方便大家直接基于它进行开发。使用 MOPD 的后训练:我们采用了 Thinking Machine 提出的 On-Policy Distillation,用来融合多个 RL 模型,效率提升非常夸张。在不到传统 SFT + RL pipeline 的 1/50 计算量下,我们就达到了 teacher 模型的性能。这里已经能清晰看到一条路径:学生模型不断进化,最终反过来成为更强的教师模型,形成自我强化的闭环。致谢:向我的团队致以最高敬意。他们在短短几个月内,把这些想法从零打磨到可上线的生产系统。小米发布最新MiMo大模型小米新模型什么水平
