华为新架构秒了Transformer华为砍了Transformer大动脉是时候给

量子位看科技 2025-12-06 06:20:09

华为新架构秒了Transformer华为砍了Transformer大动脉是时候给Transformer的大动脉动刀子了。因为即便它享有当下AI世界基石的地位，但自身问题也是非常明显：一旦遇到复杂的数学题或者需要多步逻辑推理的时候，就开始一本正经地胡说八道了……问题究竟出在了哪里？答案就藏在Transformer的核心机制里——Attention。传统Attention机制本质上像是一种配对比较：每个词只和另一个词直接发生关系，生成一个注意力权重。这种架构虽然擅长捕捉长距离依赖，但在建模复杂、多跳、多点之间的逻辑关系时却显得力不从心了。例如它能轻松理解“A认识B”，但如果要它理解“张三通过李四认识了王五”，即多跳、多点之间的复杂、间接关系，它的脑回路就显得不够深，推理能力的天花板瞬间触顶。现在，这个天花板，被华为诺亚方舟实验室捅破了！因为就在最近，团队祭出了一种全新架构，叫做Nexus，即高阶注意力机制（Higher-Order Attention Mechanism）。它可以说是直接狙击了Attention机制的核心痛点，使用更高阶注意力，就能有效地建模多跳、多点之间的复杂关联。并且从实验结果来看，效果也是有点惊艳在身上的。只要换上Nexus这个新架构，模型在数学和科学等复杂推理任务上的能力，都能立马实现大幅飙升，而且还是参数零增的那种。妙哉，着实妙哉。接下来，就让我们一同来深入了解一下Nexus的精妙一刀。网页链接

0 阅读：13

量子位看科技

感谢大家的关注

作者最新文章

1

英伟达巧用8B模型秒掉GPT5 英伟达端着一个8B小模型对GPT-5说：不好意思

2

：《14岁华人小孩，折个纸成美国天才少年》 14岁华人小孩，折个纸成美国天才少

3

现在，手机都可以帮你自动给智能体“建群”来解决问题了。智能体A2A落地华为新旗

4

：《《三体》“宇宙闪烁”成真！免佩戴裸眼3D屏登Nature》《三体》“宇宙

5

：《知名数学家辞职投身AI创业：老板是00后华人女生》知名数学家辞职投身AI

6

华为新架构秒了Transformer华为砍了Transformer大动脉是时候给

7

谷歌新架构突破Transformer超长上下文瓶颈 Transformer的提出

8

优理奇机器人（UniX AI）近日宣布完成两轮合计3亿元天使++++轮及天使++

9

豆包手机豆包手机助手技术预览版豆包手机助手 “豆包手机”刚发售，火到3万台首批备

10

：《谷歌最强大模型付费上线，在DeepSeek开源后被吐槽太贵》谷歌最强大模

热门分类

科技TOP

1

这台是什么手机？

2

宇树机器人三上春晚，宇树机器人今后就是春晚界的“赵本山”，今年宇树机器人又会带给

3

ProAir正式发布了：6.1mm厚，155g重，6.3寸屏幕小尺寸天

4

鸿蒙6.0老掉牙的Mate60pro时隔3年，你认为这个相机还能撑个几年，我个人

5

华为Mate80ProMax系统更新来了4.41GB大包春节限时水印上线另

6

都说现在内存、存储芯片涨价得厉害，今年新机普遍价格都上调了，怎么我看新发布的一加

7

光芯片是AI时代确定性最高的赛道之一，封装测试占成本一半，光模块采购量在部分年份

8

请颁给华强北：诺贝尔改装奖

9

兄弟们鸿蒙6.0.0.130来了，本次更新内容非常多，快去刷推到你了没有，可以没

10

又一款Air来了，红魔11Air，7.85mm机身，7000mAh电池，骁龙8至

科技最新文章

1

友商直接看呆！千元机里的卷王，说的就是荣耀X70！最新一周国内手机销量榜出

2

【荣耀MagicV6核心配置出炉】今天，有数码博主曝光了荣耀MagicV6的

3

谁能想到，已经发布13年的iPhone5S居然还能在2026年收到苹果的关怀—

4

来了来了！iPhone18Pro的劲爆前瞻！外媒总结的六大升级点，看完感觉手

5

今年最火的那两家机器人，居然没上春晚？我刚看到消息都愣了一下。宇树那条全网刷屏的

6

宇树机器人三上春晚，宇树机器人今后就是春晚界的“赵本山”，今年宇树机器人又会带给

7

马化腾在腾讯年会上演唱《气势如虹》！1月26日，腾讯2026新年晚

8

REDMITurbo5系列发布会主讲人是老魏，卢总最后还给老魏送个了灭霸拳

9

【马化腾透露QQ农场将回归】1月26日，腾讯公司董事会主席兼首席执行官马化腾在2

10

腾讯年会抛出王炸！1月26日马化腾在内部大会上明确表态，希望AI应用“元宝”的1