【天风海外】英伟达 GTC 2026 前瞻——LPU与低延迟推理时代开始?
我们此前调研Groq相关产品与客户,认为LPU 将是本次 GTC 最值得关注的新增量与本质变化。若英伟达正式推出 LPX 机架,并明确 GPU + LPU 异构推理路线,意味着公司将在高吞吐训练/推理之外,补齐低延迟(TTOT)、确定性推理能力,进一步完善 AI 基础设施版图。
时间节奏上,美西时间3 月 16 日上午黄仁勋主题演讲,此前表示将超越芯片帕累托极限,我们判断或发布 Rubin 架构、LPX 机架等重磅产品;同日下午 Jonathan Ross 专场演讲,标题为“GPU 爱上 LPU",我们判断 LPU 已进入产品化落地阶段。架构上,LPU 的核心优势在于确定性调度。相较 GPU 的动态调度模式,Groq TSP/LPU 采用 VLIW + dataflow 架构,并通过静态编译在编译阶段确定数据放置和执行路径,更适合低延迟、强实时性的推理任务,如语音交互、Agent 工作流和工业控制。配置上,LPU 采用纯 SRAM 片上存储,单芯片约 220MB,无外部 DRAM,但带宽高达 80TB/s,显著高于 HBM 路线。其特点是“高带宽、低容量”,更适合 decode 和实时推理场景,可有效缓解传统 GPU 的 memory wall 问题。我们认为英伟达的LPU产品或基本延续这一配置,但由三星4nm制造系统层面,LPX 采用 Dragonfly、switchless 互连拓扑,由于单柜或配置256LPU ,对光连接器、高层 PCB、液冷冷板和 QD 快接头的需求明显提升。Enhanced LPX 预计将升级至 256 颗 LPU。并采用液冷方案,已不只是单芯片升级,而是完整机架级平台扩展。27年LPU或进一步升级。
出货量方面,液冷反馈LPU机柜可能26年约 1,000 柜,2027 年增至 6,000–8,000 柜,对应 LPU 芯片出货量分别约 25.6 万颗和 153.6 万–204.8 万颗。若兑现,说明低延迟推理需求正从验证阶段迈向规模部署。供应链上,最受益的方向主要包括四类:1)机柜内RealScale连接器:Dragonfly switchless 拓扑下单 rack 用量高,价值量最大;我们认为单柜价值量或达到3万-5万美元,2)高端 PCB 3)液冷板/快速接头:由于单柜芯片量级大,同步放量。应用上,我们判断OpenAI或成为第一批客户。Codex Spark与Agent to Agent要求的低TTOT场景下,LPU拥有独特价值。长期看,随着先进制程、封装和软件栈升级,LPU 有望从 sidecar 形态逐步走向更深度的异构集成。如GPU Prefill LPU Decode等
天风海外 刘欣/李泽宇