DeepSeekV3.2提出的DSA相比MLA有哪些改进

奔跑的跳跳 2026-02-15 00:58:36
节前DeepSeek上了新模型DeepSeek-V3.2-Exp,延续了节前上新的传统,可以说是卷卷更健康了。 这个新版本最核心的变化,就是引入了DSA(DeepSeek Sparse Attention)稀疏注意力架构。 可以预见,一道全新的面试题即将诞生:“同学,DeepSeek V3.2用的DSA在MLA的基础上做了哪些改进?” 想要回答好这个问题及其追问,不仅要理解DSA是什么,还得清楚它要解决的MLA又是什么。接下来,本文将先回顾MLA的核心思想,再深入解读DeepSeek-V3.2-Exp的原文,这样我们才能知其然,更知其所以然。

0 阅读:0
奔跑的跳跳

奔跑的跳跳

感谢大家的关注