[CL]《Beyond the Rosetta Stone: Unification Forces in Generalization Dynamics》C Blum, K Filipova, A Yuan, A Ghandeharioun... [Google DeepMind] (2025)
《Beyond the Rosetta Stone: Unification Forces in Generalization Dynamics》深入探讨多语言大模型中的泛化机制及其统一动力学,提出了跨语言知识整合的新视角:
• 研究背景涵盖语言模型在多语种事实性表现上的差异,指出事实知识获取受语言查询影响显著。
• 采用物理学视角解析语言模型的训练动力学,揭示语义发展与模型结构间的数学关系。
• 引入Patchscopes框架,统一检查语言模型隐藏表征,促进对语言知识编码的可解释性理解。
• 强调跨语言一致性的重要性,结合多语种对齐技术提升知识迁移效率,减轻语言偏差。
• 关注模型训练中“shortcut learning”现象,探讨其对泛化能力的影响及规避策略。
• 引用影响函数方法,追踪预训练阶段事实性知识的形成路径,助力分析模型决策依据。
• 探讨多语模型是否在“用英语思考”,揭示底层语义统一过程中的语言区域演化和语义对齐。
本研究不仅深化了多语种语言模型泛化的动力学理解,也为设计更稳健、知识一致的大规模模型提供了理论支撑和分析工具。
详情阅读👉 arxiv.org/abs/2508.11017
多语言模型泛化动力学语言模型跨语言知识迁移模型解释性人工智能