【天风海外】英伟达GTC2026前瞻——LPU与低延迟推理时代开始？我们此

无事正经 2026-03-11 09:43:18

【天风海外】英伟达 GTC 2026 前瞻——LPU与低延迟推理时代开始？

我们此前调研Groq相关产品与客户，认为LPU 将是本次 GTC 最值得关注的新增量与本质变化。若英伟达正式推出 LPX 机架，并明确 GPU + LPU 异构推理路线，意味着公司将在高吞吐训练/推理之外，补齐低延迟（TTOT）、确定性推理能力，进一步完善 AI 基础设施版图。

时间节奏上，美西时间3 月 16 日上午黄仁勋主题演讲，此前表示将超越芯片帕累托极限，我们判断或发布 Rubin 架构、LPX 机架等重磅产品；同日下午 Jonathan Ross 专场演讲，标题为“GPU 爱上 LPU"，我们判断 LPU 已进入产品化落地阶段。架构上，LPU 的核心优势在于确定性调度。相较 GPU 的动态调度模式，Groq TSP/LPU 采用 VLIW + dataflow 架构，并通过静态编译在编译阶段确定数据放置和执行路径，更适合低延迟、强实时性的推理任务，如语音交互、Agent 工作流和工业控制。配置上，LPU 采用纯 SRAM 片上存储，单芯片约 220MB，无外部 DRAM，但带宽高达 80TB/s，显著高于 HBM 路线。其特点是“高带宽、低容量”，更适合 decode 和实时推理场景，可有效缓解传统 GPU 的 memory wall 问题。我们认为英伟达的LPU产品或基本延续这一配置，但由三星4nm制造系统层面，LPX 采用 Dragonfly、switchless 互连拓扑，由于单柜或配置256LPU ，对光连接器、高层 PCB、液冷冷板和 QD 快接头的需求明显提升。Enhanced LPX 预计将升级至 256 颗 LPU。并采用液冷方案，已不只是单芯片升级，而是完整机架级平台扩展。27年LPU或进一步升级。

出货量方面，液冷反馈LPU机柜可能26年约 1,000 柜，2027 年增至 6,000–8,000 柜，对应 LPU 芯片出货量分别约 25.6 万颗和 153.6 万–204.8 万颗。若兑现，说明低延迟推理需求正从验证阶段迈向规模部署。供应链上，最受益的方向主要包括四类：1）机柜内RealScale连接器：Dragonfly switchless 拓扑下单 rack 用量高，价值量最大；我们认为单柜价值量或达到3万-5万美元，2）高端 PCB 3）液冷板/快速接头：由于单柜芯片量级大，同步放量。应用上，我们判断OpenAI或成为第一批客户。Codex Spark与Agent to Agent要求的低TTOT场景下，LPU拥有独特价值。长期看，随着先进制程、封装和软件栈升级，LPU 有望从 sidecar 形态逐步走向更深度的异构集成。如GPU Prefill LPU Decode等

天风海外刘欣/李泽宇

0 阅读：12