Dense模型和MoE模型的对比

奔跑的跳跳 2026-02-11 09:51:51
Dense模型和MoE模型一个是全量激活、一个是稀疏激活。 那么同样30B左右大小的参数量,在下面几种情况下应该选择哪种模型呢? 1️⃣处理复杂长文本 2️⃣需要极高并发的较简单任务 3️⃣超长上下文场景 理解 MoE,不能只看它省了什么,更要看它为了这份⾼效牺牲了什么。

0 阅读:0
奔跑的跳跳

奔跑的跳跳

感谢大家的关注