DeepSeek如何让N-gram在大模型时代重获新生

奔跑的跳跳 2026-02-11 09:51:50
前段时间,DeepSeek 发布了论文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,提出了 Engram。 N-gram 这种基于马尔可夫假设的统计模型,这个诞生于上世纪 50 年代的老古董,在如今的大模型时代,本以为它会像 LSTM、RNN 一样,因处理不了长程依赖而被时代抛弃。 然而,DeepSeek 却通过 Engram 模块让它焕发了生机,证明了查表在 O(1) 复杂度下的极致魅力:既然有些知识是查字典就能解决的肌肉记忆,为什么还要动用昂贵的神经网络去推导? 本笔记从一下几个部分对原论文进行了解读: 1️⃣溯源:为什么 N-gram 是 LLM 的高效外挂? 2️⃣动机:语言的双重性与计算浪费 3️⃣Engram 架构设计:如何实现大规模哈希检索? 4️⃣实验结果

0 阅读:0
奔跑的跳跳

奔跑的跳跳

感谢大家的关注