男朋友问我什么是NSA

奔跑的跳跳 2026-02-16 00:09:17
[集美R]我的回答:NSA就是一种可训练的原生稀疏注意力机制,结合了字符压缩、字符选择和滑动窗口策略,并与硬件优化对齐。 [仙女R]在基准测试、长文本任务、推理任务上都取得了比全注意力更优的结果,并且计算速度(解码、前向传播、反向传播)远快于全注意力计算。 deepseek2.18日新发的论文,属实是优化狂魔了。

0 阅读:0
奔跑的跳跳

奔跑的跳跳

感谢大家的关注