[LG]《Design Principles for Sequence Models via Coefficient Dynamics》J Sieber, A Orvieto, M N. Zeilinger, C A Alonso [ETH Zurich & ELLIS Institute Tübingen] (2025)
全面揭示序列模型设计的统一数学框架,梳理核心设计原则,助力模型架构创新。
🔑核心观点:
1️⃣ 统一视角:序列模型输出均可视为对过去value向量的线性组合,系数由自主线性动力系统(受脉冲输入驱动)生成。此框架涵盖Transformer、状态空间模型(SSM)、门控线性RNN等主流架构,且兼容softmax attention。
2️⃣ 设计原则六大核心
- 读出映射ϕ(·)选线性时支持高效递归计算,非线性虽提升输入选择性但计算成本高(Principle 1 & 2)。
- 位置编码本质由演化矩阵At控制,非恒等矩阵At内嵌位置信息,恒等矩阵需显式位置编码(Principle 3)。
- 演化矩阵At结构限制对key的缩放与旋转操作,合理设计可增强模型表达力(Principle 4)。
- 缩放参数bj合理设置(如bj=O(1/√n))保证训练稳定,避免方差爆炸(Principle 5)。
- 归一化因子ηi设计应抑制系数增长,保障数值稳定(Principle 6)。
3️⃣ 理论洞见:
- 线性读出映射利于实现线性时间复杂度。
- 零系数的几何结构影响模型输入选择能力,非线性映射零点集较大,抑制效果更稳健。
- 核函数近似读出映射零点集测度为零,输入选择性较脆弱。
- 多个系数同时置零受限于隐藏状态维度,超出维度限制则需零查询向量。
4️⃣ 实验验证:
- 在MAD基准任务(模糊上下文回忆、选择性复制、噪声上下文回忆等)中,验证各原则对模型性能和训练稳定性的影响。
- 线性映射读出提升计算效率,非线性映射提升输入选择能力。
- 设计非恒等At可替代位置编码完成位置信息表达。
- 归一化因子设计关键应对不稳定演化矩阵。
5️⃣ 统一框架优势:
- 表1详述多种架构的系数动力系统参数对应关系。
- 该视角有助于消除单一任务基准验证的偶然性,推动序列模型设计从经验驱动转向理论驱动。
🌟思考意义:
- 该工作首次通过线性动力系统解析序列模型内核系数的生成机制,揭示软max attention与线性attention、SSM等的本质联系。
- 为未来融合线性与非线性机制、混合模型设计提供理论指导。
- 多层模型及优化动态仍待深入探究,期待后续扩展。
🔗论文链接:arxiv.org/abs/2510.09389
序列模型 Transformer 状态空间模型 机器学习 深度学习 模型设计 理论指南