曙光发布国产原生RDMA,NV有了“对手感”?

前沿科技洞察 2026-03-14 09:38:43

圈里聊国产芯片,总有人爱问:谁最有可能长出下一个英伟达? 以前我答不上来。但看完中科院计算所王展在曙光发布会上的分享,脑子里突然冒出个答案:如果真有这么一家,可能是曙光。 王展的原话是:“在国内找一家跟英伟达基因最像的企业,我个人认为是曙光,而且在产品层面全线对标英伟达。”

这话乍听有点大胆,细想却扎得深。英伟达的GPGPU怎么起来的?不是靠游戏卡一夜爆红,而是2006年CUDA发布后,干了一件“傻事”:往全球高校、科研院所送显卡、开培训班、派工程师驻场。那会儿做GPGPU是赔本赚吆喝,但英伟达硬是在科学计算这块最难啃的地里,用十几年养出了一个生态。两家都是从“给科学家造工具”这个原点出发的。 这个基因很重要。因为科学计算对互联的要求极其苛刻。

曙光呢?从造超算起家,服务的都是什么人?国家气象局、中科院、各大高校——就是那帮最难伺候的科学家。这帮人对底层的挑剔,远超任何商业客户:算分子动力学,动不动海量小包冲击;做气象模拟,全球通信吞吐压力能把网络拖垮。十几年下来,曙光硬是被这帮人“磨”出了一套完整的技术体系。

当然,既然对标英伟达,总得掰扯掰扯硬指标。这次scaleFabric400系列全面对标的可是英伟达的NDR——交换机端口密度比对方高25%,网卡最大QP数支持翻了一倍,单子网互连规模能干到传统IB的2.33倍,意味着什么?意味着别人还在为万卡集群挠头布线,曙光这边已经能撑起11.4万卡。端到端时延0.9微秒、交换时延260纳秒,跟NDR掰手腕完全不虚,部分数据甚至压了一头。更狠的是,链路故障恢复小于1毫秒,郑州那套近万卡集群已经稳定跑了10个月。这些不是拍脑袋的“超越”,而是被科研场景反复打磨后的必然。 更让人在意的是,这是从112G SerDes IP到交换芯片、网卡、驱动全栈自研,不是拿现成方案贴牌。

有人说这不就是国产替代吗?格局小了。这更像是一次“反向输出”:当年我们用英伟达跑科学计算,今天我们要用自研网络跑科学智能。曙光的打法一直没变——在最难啃的领域扎根,用最“守拙”的办法积累,等到风口来时,别人还在找零件,他们已经能端出一套完整的体系。 王展那句话我越想越对:基因这东西,藏不住的。它不是靠砸钱能砸出来,而是靠“熬”出来的。

0 阅读:9
前沿科技洞察

前沿科技洞察

每天更新精彩片段,承蒙您的厚爱