华为新架构秒了Transformer华为砍了Transformer大动脉是时候给

量子位看科技 2025-12-06 06:20:09

华为新架构秒了Transformer华为砍了Transformer大动脉是时候给Transformer的大动脉动刀子了。因为即便它享有当下AI世界基石的地位,但自身问题也是非常明显:一旦遇到复杂的数学题或者需要多步逻辑推理的时候,就开始一本正经地胡说八道了……问题究竟出在了哪里?答案就藏在Transformer的核心机制里——Attention。传统Attention机制本质上像是一种配对比较:每个词只和另一个词直接发生关系,生成一个注意力权重。这种架构虽然擅长捕捉长距离依赖,但在建模复杂、多跳、多点之间的逻辑关系时却显得力不从心了。例如它能轻松理解“A认识B”,但如果要它理解“张三通过李四认识了王五”,即多跳、多点之间的复杂、间接关系,它的脑回路就显得不够深,推理能力的天花板瞬间触顶。现在,这个天花板,被华为诺亚方舟实验室捅破了!因为就在最近,团队祭出了一种全新架构,叫做Nexus,即高阶注意力机制(Higher-Order Attention Mechanism)。它可以说是直接狙击了Attention机制的核心痛点,使用更高阶注意力,就能有效地建模多跳、多点之间的复杂关联。并且从实验结果来看,效果也是有点惊艳在身上的。只要换上Nexus这个新架构,模型在数学和科学等复杂推理任务上的能力,都能立马实现大幅飙升,而且还是参数零增的那种。妙哉,着实妙哉。接下来,就让我们一同来深入了解一下Nexus的精妙一刀。网页链接

0 阅读:13
量子位看科技

量子位看科技

感谢大家的关注