电子:谷歌Ironwood构建AI推理工厂,与Blackwell形成差异化竞争
事件:
2025年4月9日,谷歌在CloudNext大会上正式发布其第七代张量处理单元(TPUv7),代号"Ironwood"。与前代Trillium相比,TPUv7在性能与能效方面提升达两倍,并针对大模型推理任务进行深度优化。
点评:
Ironwood集群跻身全球最快推理平台,专为LLM与MoE优化。Ironwood最多可支持9,216颗TPU芯片组成集群,峰值算力达42.5ExaFLOPS,为当前已知全球最快的AI推理平台之一。TPUv7延续并加强了SparseCore、HBM高带宽内存及芯片间光互联(ICI)设计,专为运行大型语言模型(LLM)与专家混合模型(MoE)优化。
Google通过Ironwood强化AI芯片布局,借推理优势提升云服务吸引力。谷歌推出AI芯片Ironwood,持续加码与NVIDIA等竞争对手的芯片竞赛。但不同于英伟达的对外销售策略,Ironwood仅用于Google内部或通过其云服务对客户开放,未向市场直接销售。我们观察到,无论是大模型训练还是AI加速卡,当前的发展趋势正逐步向推理侧倾斜,Llama4的发布便是典型案例,其核心优化集中在推理性能上。
我们认为,Google正通过“硬件+云服务”的绑定策略在推理领域抢占先机:由于Ironwood无法单独采购,客户必须通过GoogleCloud才能使用其推理能力,这有望显著增强Google云服务的吸引力,并在未来推理需求爆发的背景下带动云业务增长。
TPUv7专注推理,Blackwell专注通用AI加速。尽管TPUv7在推理速度上实现突破,但其定位与NVIDIA于2024年推出的Blackwell架构(如B200、GB200)存在本质差异。TPUv7以推理为核心任务,仅在GoogleCloud内部部署,支持Gemini等大模型的商业化运行;Blackwell架构则提供从FP4到FP64的完整精度支持,兼顾训练与推理,面向通用AI应用,并可广泛部署于AWS、Azure等商用云平台。
TPUv7打造“推理工厂”,Blackwell凭通用性胜出。从算力层面看,TPUv7集群可提供高达42.5ExaFLOPS的峰值推理性能,折算单颗TPU约为4.61PFLOPS;而NVIDIAGB200单卡推理算力达到20PFLOPS(FP4),其NVL72整机架系统最高可实现1.44ExaFLOPS。尽管TPU在总算力上具备一定优势,但NVIDIA在精度灵活性、商业可获得性、以及开发者生态方面处于领先地位,具备更广泛的应用适配性。我们认为,TPUv7(Ironwood)集群更像一座专为推理打造的“AI推理工厂”,在特定场景下效率极高;而Blackwell架构则如一座通用型“高端AI工厂”,既能胜任训练,也擅长推理,适用于更全面的AI部署需求。
风险提示:1)AI需求不及预期;2)地缘政治环境干扰供应链;3)AI数据中心建造放缓
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。