DeepSeek如何让N-gram在大模型时代重获新生

奔跑的跳跳 2026-02-11 09:51:50

前段时间，DeepSeek 发布了论文《Conditional Memory via Scalable Lookup：A New Axis of Sparsity for Large Language Models》，提出了 Engram。 N-gram 这种基于马尔可夫假设的统计模型，这个诞生于上世纪 50 年代的老古董，在如今的大模型时代，本以为它会像 LSTM、RNN 一样，因处理不了长程依赖而被时代抛弃。然而，DeepSeek 却通过 Engram 模块让它焕发了生机，证明了查表在 O(1) 复杂度下的极致魅力：既然有些知识是查字典就能解决的肌肉记忆，为什么还要动用昂贵的神经网络去推导？本笔记从一下几个部分对原论文进行了解读： 1️⃣溯源：为什么 N-gram 是 LLM 的高效外挂？ 2️⃣动机：语言的双重性与计算浪费 3️⃣Engram 架构设计：如何实现大规模哈希检索？ 4️⃣实验结果

0 阅读：0

奔跑的跳跳

感谢大家的关注

作者最新文章

1

实测 GLM-5+Claude Code：重构开源项目

2

在AI时代，坚信「人类经验」的不可替代性

3

用 iFlow CLI 挂载 Agent Skills

4

DeepSeek如何让N-gram在大模型时代重获新生

5

GPT-5.2和Gemini 3 Pro随意切？有点东西

6

多模态RAG的终极形态？

7

重构残差连接：DeepSeek mHC 的数学原理

8

GLM-Image全解析：教程、实测与技术架构

9

像写PyTorch原生代码一样，微调72B大模型

10

Dense 模型和 MoE 模型的对比

热门分类

科技TOP

1

雷军明天早上8:00又要做直播！就是刚才，雷军在社交网络上给大家拜早年了，这

2

宇树机器人三上春晚，宇树机器人今后就是春晚界的“赵本山”，今年宇树机器人又会带给

3

华为第二代阔折叠机型曝光华为PuraX2终于要来了，华为这个产品其实挺有意

4

影石年会直接送5套房打工人看完直接破防了！影石Insta360这波年会操

5

ProAir正式发布了：6.1mm厚，155g重，6.3寸屏幕小尺寸天

6

TikTok因应用程序的成瘾功能被指控违反欧盟规定TikTok、周五、被指控违反

7

鸿蒙微信消费者版本邀请内测8.0.15.161.设置-朋友权限新增“添加我的

8

宇树机器人的主要供应链曝光了，果然，制造业是一个大的生态，一荣俱荣。#宇树#

9

刚刚！400万粉丝大V曝光流量收益！流量原来真的可以变现，就在刚刚，拥有400

10

我去小米澎湃OS3深夜上热搜。

科技最新文章

1

荣耀新春系统大更新🔥宠粉拉满！快查有没有你的机型过年还不忘更系统，荣耀也

2

零差评🔥荣耀目前最值得入手的5款手机，按预算闭眼冲！✅荣耀500数字系

3

这就是为什么要支持鸿蒙的原因了！深圳敢为天下先，试点鸿蒙+星闪的技术，在地铁上不

4

果然！荣耀一出手就是“王炸”。轻薄长续航大折叠还得看荣耀，MagicV6可以好

5

华为Mate40用到2026年，真不愧是老钉子户！[笑着哭]升级到鸿蒙

6

基本零差评，目前荣耀最值得入手的五款手机荣耀500，数字系列的最新机型，主打

7

直接杀疯了！雷总这步棋太狠小米把PC行业彻底掀翻！2月12日，小米正式发

8

真是猪队友荣耀X80还没发布，配置全给曝光了今晚谁也别想睡个好觉了，真要这

9

原来谢霆锋是真·荣耀Magic8Pro粉丝，手机壳、手机挂绳都用上了，压根不是

10

影石年会直接送5套房打工人看完直接破防了！影石Insta360这波年会操