
TPU,真的不比GPU差
01
TPU的诞生背景与历史
谷歌张量处理单元(TPU)的诞生,并非源于某项芯片制造技术的意外突破,而是基于对数学模型和运营物流的深刻洞察。
大约在2013年,谷歌的领导团队包括Jeff Dean、Jonathan Ross(Groq公司的现任CEO)以及Google Brain团队,得出了一个令他们震惊的预测。
他们计算后发现, ,公司就必须将其全球数据中心容量翻倍,才能满足由此产生的巨大计算负载需求。
当时,谷歌主要依赖标准的CPU和GPU来执行这些计算任务。尽管这些通用芯片功能强大,但对于深度学习所需的特定重度负载——即大规模矩阵乘法——其处理效率却非常低下。如果继续采用现有硬件进行大规模扩展,无论是从财务成本还是运营角度来看,都将是一场灾难性的噩梦。
这一紧迫需求催生了一个新的项目。谷歌做出了一项对于软件公司而言极为罕见的决定:着手打造自己的定制芯片。其目标是创建一款专为单一任务设计的ASIC(专用集成电路),来高效运行Tensor Flow神经网络。
几个关键时间节点:
2013~2014:谷歌招募了一支能力超强的团队,并且也有着很好的运气,所以该项目进展得极其迅速。团队仅用15个月的时间就完成了从设计概念到在数据中心实际部署芯片的全部流程——这对于硬件工程项目而言,是一个极其罕见的短周期。
2015:在世人广泛知道TPU的存在之前,它们就已经开始为谷歌最受欢迎的一系列产品提供强大的计算支撑。它们在默默地为谷歌地图、谷歌翻译等服务提供服务。
2016:直到2016年,谷歌才在I/O大会上正式发布了TPU。
可以说,解决“数据中心容量翻倍”这一紧迫问题,正是TPU存在的根本原因。它并非为游戏娱乐或视频渲染等通用目的而设计,而是为了帮助谷歌解决彼时实打实的AI问题而出现的。
正因如此,谷歌十多年来一直在尝试解决高昂的AI推理成本问题。这也是TPU至今在众多ASIC项目中脱颖而出的主要原因之一。
02
TPU和GPU的核心差异
要理解它们的区别,最好回顾每种芯片最初的设计宗旨。GPU(图形处理器)是一种“通用型”并行处理器,而TPU(张量处理单元)则是一种“领域专用型”架构。
GPU最初是为图形处理而设计的。它们精于并行处理,这使其非常适合AI负载。然而,正因为它们被设计用来处理从视频游戏纹理到科学模拟等各种任务,所以不可避免地带有“架构包袱”。它们将大量的能耗和芯片面积耗费在了缓存、分支预测和独立线程管理等复杂的通用任务上。
而TPU则彻底去除了所有的架构包袱。它没有⽤于光栅化或纹理映射的硬件。相反,它使⽤了⼀种被称作Systolic Array的独特架构。
而这正是TPU的关键差异化所在。在标准的CPU或GPU中,芯片在每一次计算时都需要在内存与计算单元之间来回传输数据。这种持续的数据交换会形成一个瓶颈(即冯·诺依曼瓶颈)。
但在TPU中,数据流经芯片的方式如同血液流过心脏一般:它仅加载一次数据(即权重),并通过一个大规模的乘法器阵列来传递输入数据,这让数据可以直接传递至阵列中的下一个计算单元,全程无需写回内存。
这极大减少了对HBM的读写次数。因此,TPU可以专注于实际计算,而非耗费在等待数据传输上。
此外,谷歌最新的TPU设计(Ironwood)优化了Sparse Core、提升了HBM的容量和带宽,让其可以更好地完成大模型训练与推理。
而在规模扩展(Scale-out)方面,谷歌采用了光电路交换(OCS)及其3D环形拓扑网络,该方案与NVIDIA的Infini Band和Spectrum-X以太网形成竞争。
核心区别在于:OCS消除了电交换机和光-电-光转换,这使其在成本和功耗方面极为高效。但也正因如此,OCS不如另两种方案灵活。因此,谷歌的整个技术栈再次体现了高度的专业化,它极其专注于当前的任务,但无法提供通用型GPU方案那样的灵活性。
03
TPU与GPU的性能比较与市场分析
在明确了TPU与GPU的差异后,接下来我们看看实际数据。由于谷歌并未主动公开这些数据,获取性能细节颇为困难。但根据对大量前谷歌员工、客户和竞争对手(包括AMD、NVIDIA等)的采访分析,大多数人都认为,TPU更具成本效益,并且每瓦性能更好。
一位谷歌员工是这么说的:“如果应用场景恰当,TPU相比GPU能够提供远超预期的每美元性能表现。它们所需的能源消耗更低,产生的热量也更少。更重要的是,它们具备更高的能源效率和更小的环境污染,这使得TPU成为理想的解决方案。”
“相比GPU,TPU的使用案例确实有所局限,通用性不强。但对于特定的应用,它们能够带来高达1.4倍的性能提升。对于那些在GPU和TPU之间权衡选择的客户而言,这是一笔相当可观的成本节约。”
一位前谷歌部门主管也就TPU相较于GPU能显著降低成本的事情发表了评论:“TPUv6的效率比GPU高出60%至65%,而用前几代产品进行比较也有40%至45%的提升。”
许多专家还提及了TPU在速度上的优势。一位前谷歌高管表示,在训练动态模型(如类似搜索的工作负载)方面,TPU比GPU快5倍。
此外,一位同时使用NVIDIAGPU和谷歌TPU的客户在一次访谈中,也阐述了TPU的长期经济效益:“在价格与性价比方面,TPU一定是能为你带来更高的价值回报的那个。只要你确定代码能在TPU上运行,那么坚持使用TPU就是更好的。”
“我们发现,对于已在TPU上运行的工作负载,未来收益会更高,因为随着谷歌推出更新一代的TPU,旧型号的价格会大幅跳水。”
“举个例子,我记得v4刚问世时,v2的定价很快降到了极低,与任何一款NVIDIAGPU相比,使用它几乎相当于免费。”
“而且,谷歌也提供了可靠的长期技术支持,他们会一直维持旧型号TPU的运维,这使它们变得十分廉价。如果你对模型训练的即时性没有硬性要求,愿意接受‘等待一周’的时间成本(即使训练任务本身只用三天),你的总成本可以因此降低五分之一。”
此外,另一位AMD员工也承认专用集成电路(ASIC)带来的效益:“根据我在FPGA领域积累的经验以及行业普遍观察到的趋势,我认为ASIC完全能够实现与GPU相比尺寸缩小30%、功耗降低约50%的目的。”
我们也从一位曾在谷歌芯片部门工作的前员工那里获得了性能对比数据:“当我查看已公开的数据时,与NVIDIA产品相比,TPU的性能提升幅度非常大。根据具体的应用场景不同,这一提升幅度从25%—30%不等,甚至在某些情况下接近翻倍。”
他进一步总结了其本质原因:“这本质上就是为完美执行单一任务而设计的极致定制化架构,与通用型设计之间的根本区别。”
而在硬件之外,其实TPU的真正核心优势并非硬件本身,而是体现在其软件生态系统以及谷歌对这一系统的深度优化上。
许多人担忧,像TPU这样的英伟达“竞争者”都面临着同一个难题:如何追赶英伟达飞速的发展脚步。本月,一位前谷歌云员工直接回应了这种担忧,他认为TPU的改进速度实际上快于英伟达:“TPU新一代产品在‘每美元性能’上的提升幅度,比英伟达的产品迭代带来的提升要显著得多。”
谷歌在HotChips2025活动上发布的最新数据也证实了这一观点:谷歌声称,TPUv7相较于TPUv6e(Trillium),在“每瓦性能”上提升了100%。
即使是英伟达的坚定支持者,也不敢轻易小觑TPU,因为连黄仁勋本人也对谷歌TPU给予极高评价。他在与BradGerstner的播客中提到,在ASIC领域中,谷歌的TPU是一个“特例”。
几个月前,《华尔街日报》的一篇报道也侧面印证了TPU的影响力:在科技媒体The Information报道OpenAI已开始租用谷歌TPU来运行ChatGPT后,黄仁勋立即致电Altman求证此事,并暗示愿意重启(与OpenAI的)投资谈判。
值得玩味的是,随后英伟达官方X账号发布了一张文章截图,其中OpenAI否认了使用谷歌自研芯片的计划。至少可以断言,英伟达正对TPU保持着高度的警惕与密切的关注。
那么,在看到这些令人印象深刻的数据后,人们不禁要问:既然TPU如此出色,为何没有更多的客户使用它呢?
04
推广TPU的最大难题
在于生态系统与多云限制
当前TPU普及面临的主要问题是生态系统。NVIDIA的CUDA已经深深烙印在大多数AI工程师的思维中,这是因为他们从大学阶段就开始学习和使用CUDA。
谷歌虽然在内部为TPU开发了成熟的生态,但直到最近才开始对外开放。TPU采用的是JAX和TensorFlow组合,而行业主流是CUDA和PyTorch(尽管TPU现在也开始支持PyTorch)。谷歌正努力提高其生态系统的兼容性和可转换性,但这涉及库(Libraries)和整个生态的构建,是需要数年时间才能完善的长期工程。
不过,一旦到了“推理”环节,尤其是Reasoning Inference,CUDA的重要性就会大幅下降。因此,TPU在推理市场扩大市场份额的机会要远高于训练市场(尽管TPU在训练方面表现同样出色,Gemini3.0就是最好的证明)。
此外,多云环境也是TPU普及的又一个巨大障碍。
众所周知,AI工作负载与数据存储位置紧密关联,跨云传输数据会产生高昂的成本(即出口流量费)。目前,NVIDIAGPU可在所有三大超大规模云服务商(AWS、Azure、GCP)上获取;然而,TPU却仅限于谷歌云平台提供。这种单一性极大地限制了多云客户对TPU的选择。
一位同时使用TPU和GPU的客户对此有精辟的解释:“目前,NVIDIA最大的优势在于可及性——在我工作过的三家公司都是如此。所有公司和客户的数据几乎都存储在AWS、谷歌云或Azure这三大主流云平台之一,而这三家云都提供NVIDIAGPU。”
“有时数据量很大,并且存储在特定的云中。这种情况下,将工作负载运行在数据所在的云平台会便宜得多。将数据从一个云迁出涉及高昂的出口流量费用(EgressCost)。”
“如果你使用的是NVIDIA/CUDA工作负载,我们可以直接在Azure上申请一台配备相同GPU的虚拟机,无需任何代码改动,即可运行。”
“但如果完全依赖TPU,一旦谷歌单方面决定‘现在必须多付10倍费用’,我们就会陷入困境。因为届时我们将不得不重写所有的代码。这正是大家害怕过度依赖TPU的唯一原因。而亚马逊的Trainium和Inferentia芯片也存在同样的风险。”
其实,谷歌内部对这些问题心知肚明,因此,关于是将TPU保留为谷歌的内部资产以深化GCP的护城河,还是对外开放销售,一直是内部持续争论的话题。
许多前谷歌员工认为,谷歌迟早会向外部提供TPU,也许是通过一些新生云平台,而非与微软和亚马逊这两大主要竞争对手直接合作。开放生态系统、提供广泛的技术支持,使其更具通用性,是实现这一战略的第一步。
一位前谷歌员工还透露,谷歌去年才组建了一支更侧重销售的团队来推广TPU,这表明大力推销TPU并不是一项持续多年的策略,而是组织内部一个相对较新的动态。
请注意,本文编译自文末载明的原始链接,不代表深毒商业立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
- END-
