英伟达在聚光灯下狂飙,谷歌却在幕后悄悄造出自己的 AI 基建帝国系统。当别人还在抢 GPU 时,它早已自给自足、闭环生长 —— 闷声干大事,从未如此谷歌。英伟达明修栈道,谷歌暗渡陈仓。当你回头一看,谷歌在 AI 基础设施的优势已经无法阻挡。
这几天,谷歌终于把憋了很久的大招放出来了,CEO 劈柴官宣了自研第七代 TPU Ironwood 正式商用。
这是谷歌第七代 TPU,单颗算力 4614 TFLOPS(FP8 精度),192GB 的 HBM3E 内存,带宽高达 7.37 TB/s。与上一代 TPU v5p 相比峰值性能提升 10 倍!
对于 Google Cloud 客户,Ironwood 根据工作负载需求提供两种尺寸:256 芯片配置和 9216 芯片配置。也就是一个 pod 可以最多塞下 9216 个 TPU,总算力达到了惊人的 42.5 ExaFLOPS。与之相比英伟达目前主推的的 GB300 NVL72 系统只有 0.36 ExaFLOPS。这就是 Anthropic 直接买了 100 万颗 TPU 的根本原因。谷歌才是那个真正低调发财的公司,有人总结 AI 价值链上所有公司涉足的领域。
谷歌是唯一一家,没有之一,全栈人工智能公司:数据 → 算法 → 硬件 → 云服务器。它使用自己的数据来训练自己的算法;这些算法在部署在自己的云上的自己的芯片上运行;然后开发了自己的应用程序。如果说现在谷歌唯一的弱点,那可能就是「苹果」,准确的说,是客户端设备,手机。虽然安卓系统是谷歌的,但是偏偏谷歌没有自己的手机(如果手机也有,谷歌称得上地球上最垄断的公司,也许没有之一。)虽然 Pixel 系列出货量未能排在三星和国产等安卓机前面,但是用过 Pixel 的人都说好。
谷歌 TPU,全称张量处理单元(Tensor Processing UnitT),从早期几代主要作为内部优化工具,到最新的迭代已构成一个成熟且极具竞争力的产品组合。当英伟达在横向扩展(scale-out)加速器市场占据主导地位时,谷歌已经构建了全球唯一一个专为训练和运行前沿模型而设计的、具有高容错性的超大规模系统。2013 年,谷歌面临一个关键时刻。公司意识到,神经网络日益增长的计算需求(尤其是在语音识别领域)可能迫使他们将数据中心的规模翻倍。这一预测使 AI 计算不再是一个机遇,而是对运营支出(OpEx)的生存威胁。尽管谷歌早在 2006 年就考虑过构建专用集成电路(ASIC),但直到 2013 年,这才真正成为一项迫在眉睫的任务。TPU v1 的开发周期之快是前所未有的:从设计、验证、制造到部署至数据中心仅用了 15 个月!TPU v1 于 2015 年在谷歌内部署,并于 2016 年的 Google I/O 大会上公开发布。
TPU v1 的诞生过程极不寻常。它并非一个循序渐进的研发项目,更像是一项紧急的「救火」措施。据报道,谷歌在构建芯片的同时才开始招聘团队,这表明该项目风险极高,但也具有最高优先级。这种「冲刺」塑造了 TPU 的 DNA:实用主义和领域特定优化压倒一切。谷歌为了成功,牺牲了所有与神经网络无关的功能。当 AI 由神经网络组成,TPU 就是 AI 而诞生的。谷歌 TPU v1 是一款「仅限推理」的 ASIC,专为 TensorFlow 框架设计。(另一个深度学习框架就是 Meta 的 PyTorch)它与 CPU 和 GPU 的关键区别在于:TPU 专为高吞吐量的低精度计算(如 8 位整数)而设计。与 CPU(通用处理器)和 GPU(当时主要为图形渲染优化)不同,TPU 彻底摒弃了非必需的硬件,如缓存、乱序执行和纹理映射单元。
该芯片的核心是一个庞大的矩阵乘法单元,拥有 65,536 个(256x256) 8 位 MAC 单元,峰值性能达到每秒 92 万亿次操作(TOPS)。v1 采用了 28nm 工艺,时钟频率为 700MHz,而其热设计功耗(TDP)仅为 40W,远低于同期的 GPU。它被设计为一块 PCIe 卡,可安装在 SATA 硬盘插槽中,以便快速集成到现有服务器。2016 年,DeepMind 的 AlphaGo 击败世界围棋冠军李世石,这一历史性事件的背后正是 TPU v1 在提供算力支持。2017 年发表的一篇具有里程碑意义的论文详细阐述了其性能。在谷歌的生产工作负载(占数据中心 NN 推理需求的 95%)中,TPU v1 的速度比同期的 Intel Haswell CPU 和英伟达 K80 GPU 快 15 至 30 倍。
然而,更关键的指标是能效比(TOPS / Watt),TPU v1 比 CPU 和 GPU 高出 30 至 80 倍。这一数据揭示了谷歌从一开始的战略意图。在超大规模数据中心的环境中,成本不仅由芯片的采购成本(CapEx)决定,更由其运行的电力成本(OpEx)决定。TPU v1 的胜利不仅在于速度,更在于它解决了 AI 计算的总体拥有成本(TCO)问题。TPU v1 验证了 ASIC 的概念,但其「仅限推理」的特性意味着谷歌在模型训练方面仍依赖英伟达。TPU v2 (2017 年推出)标志着谷歌向训练领域的战略转向。关键的架构转变是:从 8 位整数计算转向浮点计算,特别是引入并推广了由 Google Brain 发明的 bfloat16 (bf16)格式。
bfloat16 是一个巧妙的工程妥协:它保留了与 32 位浮点数(FP32)相同的 8 位指数,但将尾数截短至 7 位。这一设计在大幅降低内存占用和带宽需求的同时,保留了训练所需的动态范围,有效防止了梯度消失或爆炸。规格方面,v2 采用 16nm 工艺,搭载 16GB 高带宽内存(HBM)(v1 为 DDR3),内存带宽飙升至 600 GB/s,算力达到 45 TFLOPS。TPU v2 引入了 Pod(集群)概念,但在此之前与之后,GPU 长期以集群 / 超算形态扩展。英伟达随后在 2018 年推出 DGX POD 参考架构,2019 年起推出 DGX SuperPOD 并在 2020–2025 年持续更新(H200/GB200 等版本),这些都属于标准化的 GPU 集群解决方案。
谷歌不再将 TPU 视为独立的加速器,而是设计了 4 芯片模块(180 TFLOPS)。64 个这样的模块被组装成一个 256 芯片的 Pod,总性能达到 11.5 PFLOPS 6。这是 TPU 历史上最重要的时刻之一。谷歌停止了在「芯片竞赛」中追赶,转而开辟了「系统竞赛」的新战场。TPU v3 (2018 年)延续了这一思路。芯片性能提升至 123T-ops,HBM 增加到 32GB。更重要的是,Pod 的规模扩大了 4 倍,达到 1024 个芯片,使每个 Pod 的性能增加了 8 倍。为了应对急剧增加的功率密度,液冷技术被引入并成为 TPU Pod 的标准配置,这使谷歌能够进一步挑战性能极限。
到了第四代,TPU v4 (2021)可以和与 A100 并驾齐驱,实现规模化领先。TPU v4(2021 年)是一次重大飞跃。采用 7nm 工艺,性能提升至 275T-ops(T-ops 是 tera-operations per second 的缩写,表示每秒执行的万亿次操作。)。Pod 规模再次扩大,达到 4096 个芯片。关键改进在于互连:v4 芯片的互连带宽达到了上一代的 10 倍。到 2021 年,TPU 不再只是一个「高 TCO 效益」的选项。它在原始性能上已经可以与英伟达的最佳产品正面竞争。TPU v5 的发布标志着谷歌从单一架构转向成熟、多元化的产品线。v5 有两个版本 TPU v5e(Efficiency)和 TPU v5p(Performance),v5e 针对主流推理、微调和中小型训练负载设计;TPU v5p 是训练谷歌 Gemini 1.0 模型所使用的核心系统。与 TPU v4 相比,TPU v5p 的 FLOPS 提高了 2 倍以上,高带宽内存(HBM)提高了 3 倍 。
TPU v5p 专为性能、灵活性和规模而设计,可以训练大型 LLM 模型 ,速度比上一代 TPU v4 快 2.8 倍。TPU v6,代号 Trillium,于 2024 年 5 月宣布,并于同年 10 月提供预览。v6 性能实现了 918TFLOPS 和 1836TOPS (Int8) 的巨大飞跃。这比 v5e 高出 4.7 倍,比 v5p 高出约 2 倍。规格 32GB HBM,1600 GB/s 带宽。
v6 引入了关键架构:第三代 SparseCore。SparseCore 的引入表明谷歌正在解决 Transformer 模型中的特定瓶颈。SparseCore 是一种专门用于处理嵌入 (embeddings) 的加速器。嵌入在排名和推荐模型中普遍存在,并且对传统的 MXU 来说计算效率低下。Trillium 是一款专为训练 Transformer 和 MoE(Mixture of Experts)模型而打造的芯片。谷歌的 Gemini 2.0 是在 Trillium (v6) 上训练的。
谷歌 CEO 劈柴明确表示:「TPU 为 Gemini 2.0 的训练和推理提供了 100% 的动力」。TPU v7,代号 Ironwood,于 2025 年 4 月发布。Ironwood 是首款专为推理而设计的 TPU,而 Trillium 则是训练冠军。
在战略和资本层面,这反映了一种钟摆策略。谷歌使用 v6 (Trillium) 来构建前沿模型 (CapEx 投入),现在发布 v7 (Ironwood) 来规模化服务这些模型 (OpEx 消耗)。Ironwood 旨在优化推理的 TCO。(毕竟我们人类已经进入 AI 推理时代)Ironwood 达到 4614 TFLOPS (FP8),比 Trillium 的 Int8 性能高出 2.5 倍以上。能效比是 Trillium 的 2 倍。
Ironwood 将在未来几周年内全面上市。市场对 Ironwood 的早期反响极为热烈。比如,谷歌列出了一些已经下订单的企业,Anthropic、Lightricks、essential AI。

除了 TPU,谷歌还造了自己的第一颗通用处理器 Axion。用谷歌自己的话:构建和运维现代应用既需要高度专业化的加速器,也离不开强大高效的通用计算能力。
基于这颗 CPU,谷歌还发布了最新的 Axion 虚拟机,N4A。基于 Arm 架构的全新 Axion 实例现已开放预览。与当前同代基于 x86 架构的虚拟机相比,N4A 可提供高达 2 倍的价格性能优势。除了虚拟机,还推出了裸金属实例,C4A。C4A 裸金属实例(即将进入预览阶段)是谷歌首款基于 Arm 架构的裸金属实例,为专用工作负载提供专属物理服务器,适用于 Android 开发、汽车车载系统、严格许可要求的软件、规模化测试农场或运行复杂模拟等场景。谷歌的云服务在 2025 年 3 季度处于世界第 3,前面是亚马逊和微软。
正如文章开头所说,谷歌是现在 AI 领域唯一一家全栈技术公司,数据、算法、模型、云服务、CPU、GPU,需要什么就自己造什么。
虽然在很多时候,谷歌没有排在第一,但是在任何领域,谷歌都榜上有名。也许这才是真正的闷声发大财。
2025 年 10 月,Anthropic 宣布扩大合作,获得高达 100 万个 TPU 芯片的使用权。该协议价值数百亿美元,并将在 2026 年提供超过 1 吉瓦 (Gigawatt) 的计算容量。虽然全球的聚光灯几乎都照在英伟达身上,但在聚光之外,谷歌的 AI 基础设施版图已经悄然成形,甚至形成了自己独立的「气候系统」。谷歌给自己这套系统起了个名字:AI Hypercomputer。
英伟达是舞台中央的光芒,谷歌则隐藏在大幕之后。当所有 AI 公司都在抢购 H 系列 GPU 时,谷歌早已在自己的 TPU 集群上完成了自我造血循环 —— 训练、部署、推理、优化,全都在自己的系统内部完成。谷歌 AI 基金(Google AI Infrastructure Fund) 便是在这种体系下自然诞生的产物。它不仅是投资基金,更像是一个生态基金池,用以扶持所有基于谷歌云与 TPU 生态的 AI 公司。
Anthropic、Cohere、Character.AI、Essential AI……这些名字在外界看来是独立的创业公司,但它们在算力与模型底座上,都深度绑定谷歌的 TPU 集群与 Gemini 模型家族。换句话说,谷歌的 AI 基金并非简单的「投资人」,而是用资本作为粘合剂,将算力、云服务与生态绑定在一起。当这些公司成长、融资、甚至上市时,谷歌都在背后分得红利。这就是谷歌真正的护城河:不是某一代 TPU 芯片的领先;也不是 Gemini 模型的参数量;(Gemini 3 马上要发布了)而是一个可自我进化、自我繁殖的 AI 生态系统。在未来的几年中,当市场仍在讨论 GPU 的供需、算力的溢价、芯片的带宽时,谷歌的 TPU 与 AI 基金正以稳健的方式持续扩张。它的节奏不快,但势能深厚,气候已成。参考资料:本文来自微信公众号:新智元(ID:AI_era)
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,蓝鸢梦想所有文章均包含本声明。
