今天我们来解读 DeepSeek 在元旦发布的一篇论文 mHC :Manifold-Constrained Hyper-Connections。
这项工作解决了一个一直存在的问题:为了提升大模型性能,字节曾尝试使用比标准残差连接(Residual Connection)更复杂的 Hyper-Connections (HC),但这破坏了恒等映射属性,导致梯度爆炸和训练崩溃。DeepSeek 的解法非常数学化——通过引入 Sinkhorn-Knopp 算法,将连接矩阵投影到 Birkhoff 多面体(双随机矩阵流形)上,从底层原理上保证了训练的稳定性。
本文将深度拆解背后的数学原理与工程落地,目录如下:
1️⃣为什么大模型需要重构残差连接?
2️⃣无约束连接带来的稳定性难题
3️⃣基于流形约束的数学解法
4️⃣算法实现:Sinkhorn-Knopp 迭代与投影
5️⃣实验结果





