谷歌 TPU(张量处理单元)中的 MEMS 并非用于 TPU 芯片本身的计算核心,而是作为其集群组网关键部件 ——OCS(光路交换机) 的核心技术,为大规模 TPU 集群搭建低延迟、高带宽的光网络,以此解决海量 TPU 芯片间数据传输的瓶颈问题,下面从应用原理、核心特性及实际价值等方面展开说明: 核心应用场景与原理 当 TPU 集群规模扩大到数千甚至上万颗芯片时(如谷歌新一代 Ironwood TPU 集群用 9216 个 TPU 芯片组网),传统电交换机的数据传输需经过 “光 - 电 - 交换 - 电 - 光” 的繁琐转换,不仅延迟高,还耗费大量电力。而谷歌选择 MEMS 方案的 OCS 作为 TPU 集群的 “专属网络枢纽”,其核心是硅基芯片上的微米级可动反射镜阵列,通过精准控制每个微镜的偏转角度,直接在光域完成光束路由,实现 “光 - 交换 - 光” 的极简传输。比如 TPU v4、v5 及 Ironwood 等多代 TPU 集群的 Jupiter 数据中心网络架构,均深度集成了这种 MEMS - OCS 设备。 MEMS 在 OCS 中的核心特性 高精度微镜设计:谷歌采用的 MEMS 芯片集成了 176 个微镜,微镜表面还进行了镀金处理,以此最大限度减少光路损耗;且这种 Palomar 类型的 MEMS 设计支持上百个输入输出通道,能适配大规模 TPU 集群的端口扩展需求。 超低延迟与低功耗:相比传统电交换机的微秒级延迟,该 MEMS 方案的光路切换延迟仅 10 - 100 纳秒,同时 400G 端口功耗低于 1W,仅为传统电交换方案的 1/10,完美匹配 AI 训练等高实时性、低功耗需求。 对 TPU 集群的关键价值 提升传输效率与算力利用率:MEMS - OCS 让 TPU 集群的网络吞吐量提升 30%,像新一代 Ironwood 集群用 48 台 OCS 交换机搭建起动态光子网络,让 9216 个 TPU 芯片间的数据传输无卡顿,大幅提升大规模 AI 模型的训练效率。 显著降低成本与故障影响:该技术不仅使集群能耗降低 40%,一年可帮助谷歌节省超 1 亿美元电费;还能将网络故障切换时间从小时级压缩至毫秒级,减少算力中断带来的损失。此外 MEMS 部件在单台 OCS 设备总成本中占比达 30%-40%,其成熟的技术特性也助力谷歌控制 OCS 规模化部署的成本。 相关产业链配套 谷歌的 MEMS - OCS 方案也带动了相关产业链协同,国内不少厂商间接为其供应部件。例如赛微电子作为全球 MEMS 阵列代工龙头,负责提供 MEMS 微镜阵列晶圆;腾景科技供应 OCS 所需的纳米级精度精密光学元件;光库科技则通过并购切入 MEMS - OCS 整机代工领域,为谷歌相关设备提供配套支持。
谷歌TPU(张量处理单元)中的MEMS并非用于TPU芯片本身的计算核心
纯真灵魂
2025-12-02 10:26:15
0
阅读:1