【中国混合键合人工智能加速器或可与英伟达Blackwell GPU匹敌】[顶级半导体专家暗示“完全可控的国产解决方案”](汤姆硬件)据 DigiTimes 报道,中国半导体行业协会副会长、清华大学教授魏少军在一次行业活动上表示,中国开发的由 14nm 逻辑芯片和 18nm DRAM 组成的 AI 加速器,可以与英伟达的 Blackwell 处理器相媲美,后者是台积电采用定制的 4nm 级工艺技术制造的。魏少军在ICC全球CEO峰会上表示,性能效率突破的关键在于采用先进的3D堆叠技术来构建中国产加速器。魏少军此前曾表示,中国在“中国制造2025”计划中设定的目标无法实现,并呼吁中国停止使用英伟达H2O等外国人工智能加速器,转而采用国产解决方案。此次,他描述了一种假设性的“完全可控的国产解决方案”,该方案将采用3D混合键合技术,把14纳米逻辑芯片与18纳米DRAM芯片结合起来。目前没有任何证据表明这种解决方案存在,或者能够利用中国现有技术制造出来,因此,魏少军的这番言论纯属假设。魏表示,这种假想的配置旨在利用过时的技术,达到英伟达“4nm GPU”的性能水平。他认为,这样的方案可以提供120 TFLOPS的性能,但并未透露具体精度。此外,他还声称,该方案的功耗仅为60W左右,因此与英特尔至强CPU相比,能效更高(每瓦2 TFLOPS)。为了更好地理解这个数字,我们不妨看看英伟达的B200处理器:它在1200W的功耗下可提供10,000 NVFP4 TFLOPS的性能,即每瓦8.33 NVFP4 TFLOPS。B300处理器每瓦可提供10.7 NVFP4 TFLOPS的性能,是这款尚未面世的AI加速器所能达到的能效的五倍。旨在显著提升中国研发的假想人工智能加速器性能效率的关键技术包括:3D混合键合(铜-铜键合和氧化物键合),它以小于10微米间距的直接铜互连取代焊球;以及近内存计算。小于10微米间距的混合键合技术可在每平方毫米范围内实现数万至数十万个垂直连接,并可实现微米级信号路径,从而实现高带宽、低延迟互连。3D混合键合设计的最佳范例之一是AMD的3D V-Cache,它在0.05 pJ/bit的I/O能耗下实现了2.5 TB/s的带宽,因此魏教授设想的设计很可能也达到了类似的水平。每个器件2.5 TB/s的带宽远高于HBM3E的性能,因此对于依赖近内存计算概念的AI加速器而言,这可能是一项突破。魏教授还表示,该概念理论上可以扩展到ZetaFLOPS级别的性能,但他并未详细说明何时以及如何才能达到这样的水平。魏先生认为,英伟达的CUDA平台不仅对他设想的替代方案构成关键风险,对非英伟达硬件平台也同样如此。一旦软件、模型和硬件融合到单一的专有平台上,其他处理器的部署就会变得困难。考虑到他设想近内存计算能够显著提升中国人工智能硬件的竞争力,任何不依赖这一概念的替代平台(包括华为昇腾系列或毕人科技的GPU等中国人工智能加速器)都可能被视为问题所在。
