Equinix硅谷数据中心参观(1)互联网核心枢纽
Equinix SV11实战:承载NVIDIA DGX B200 SuperPOD集群
深入探索SV11,这座数据中心主要设计用于承载最新AI系统与超大规模集群。这意味着它必须具备支撑整柜GPU所需的强大电力与散热能力。NVIDIA在此部署了我们称之为“那个”NVIDIA DGX B200 SuperPOD的集群——正是它远程驱动着许多全球GTC技术演示:当黄仁勋在台上演讲时,您看到的云端演示大多由这个集群实时运行。虽然鲜少有机会目睹实体系统,但我们确实常在舞台上见证它的输出成果。

Equinix SV11 NVIDIA DGX B200 SuperPOD
该SuperPOD由八组NVIDIA GB200 NVL72机柜及相关配套硬件构成,是NVIDIA生态系统中实现集群扩展的基础层级。

NVIDIA DGX B200 SuperPOD 网络
NVIDIA拥有庞大的GPU集群用于产品研发与支持。而这个集群的特殊性在于其特定部署在Equinix硅谷园区——凭借与众多运营商的广泛互联以及园区内聚集的大量大型机构,该集群也被用于与合作伙伴及客户进行概念验证工作。由于许多机构都在园区内拥有资源,我们之前展示的那些光纤线路正是为这个SuperPOD提供连接的关键基础设施。

NVIDIA DGX SuperPOD与NetApp存储系统在Equinix SV11的部署
同时,Equinix也是NVIDIA SuperPOD全球部署合作伙伴,因此这个硅谷安装项目让NVIDIA能在将该SuperPOD复制到其他客户站点和Equinix全球数据中心之前,在此进行验证。

NVIDIA DGX B200 SuperPOD散热系统
由于NVIDIA DGX B200 SuperPOD需要液冷散热,这对NVIDIA选择托管方案而言至关重要。作为SuperPOD设计的一部分,NVIDIA采用高密度布局以实现服务器间短距离铜缆连接,从而避免使用光缆及额外光模块带来的功耗损失。因此,当几个机柜的功耗可能高达1兆瓦时,液冷系统就成为必要配置。

Equinix SV11 中 NVIDIA DGX SuperPOD NVLink 背板后视图
总体而言,液冷是更高效的散热方案。由于水(及其他液体)相比空气具有更高的热容密度,NVIDIA(及Equinix)在冷却系统上消耗的电力得以降低。

Equinix SV11 中 NVIDIA DGX B200 SuperPOD 供电与网络架构概览
我们邀请了NVIDIA DGX系统副总裁Charlie Boyle。他是我最乐于交流的人士之一,因为他不仅阐述系统构成,更会解析其背后的设计逻辑。

Equinix SV11 中 NVIDIA DGX SuperPOD通道
例如,在上方的照片中,Charlie解释了为何该集群的液冷系统采用软管而非焊接管道。

Equinix SV11 中 NVIDIA DGX SuperPOD冷热液循环系统
他告诉我,对于熟练技工而言,单次完成焊接管道的精确弯曲并非难题,但要为大规模AI集群制作数千个完美弯管则几乎不可能实现。

Equinix SV11 中 NVIDIA DGX B200 SuperPOD光网络
人们常讨论GPU,但真正将单个GPU模块转化为推动当今AI浪潮的大型集群的关键,其实是互联技术。
我知道大家都喜欢看光纤布线,这里是SuperPOD的后视图。

Equinix SV11 中 NVIDIA DGX SuperPOD光纤线缆布局
由于该SuperPOD用于概念验证工作,NVIDIA在此部署了多家存储供应商的设备。

Equinix SV11 中 NVIDIA DGX SuperPOD NetApp存储系统
我们在此发现了NetApp和DDN的存储设备。

Equinix SV11 中 NVIDIA DGX SuperPOD DDN存储设备
人们常常忽略的是,尽管焦点集中在GPU计算刀片和互联技术上,但AI集群旁通常还部署着传统计算节点,并配备大量网络设备。

Equinix SV11 中 NVIDIA DGX SuperPOD通用计算节点正面
当穿行于SuperPOD与SV1楼层之间时,一个明显区别是:整个集群采用协同设计以满足特定需求,同时实现了更高的密度。这与SV1运行设备的密度形成鲜明对比。
Equinix SV11: 散热系统
Equinix如何满足NVIDIA及其他AI客户对散热与电力输送的需求?对于风冷组件的散热(即使液冷系统也需大量风冷辅助),Equinix采用热通道/冷通道封闭系统。简而言之,机柜的进风面(前部)与排风面(后部)被物理隔离,各自形成独立隔间。实际操作中,这意味着热通道被专门密封,而数据中心其余区域则作为冷通道发挥作用。

Equinix SV11热通道封闭系统
通过这种设计,冷空气充盈数据中心地面空间,最终被设备吸入并加热。产生的热空气随后被抽离热通道,经冷却后再次循环利用。
当然,这也需要设置通道门,以便员工和其他用户能进入冷热通道,在服务器的相应端进行操作。

Equinix SV11热通道密封门
热空气从热通道被抽送至数据中心墙壁上的热交换器。这些热交换器类似传统暖通空调系统,通过盘管和翅片吸收热量以冷却空气。热量被转移到冷却回路,最终由建筑顶部的冷水机组排出。

Equinix SV11热交换器装置
冷水机组最终将热量与外部空气进行交换。

Equinix SV11数据中心冷水机组
液冷设备的热交换过程也大致相同。机柜配备独立的液冷循环回路,冷却液通过CDU(冷却液分配单元)在柜内循环流动。
随后,机柜回路中温度升高的冷却液将热量传递给设施级冷却回路,最终由屋顶的冷水机组进行散热处理。

Equinix SV11 中 NVIDIA DGX GB200 SuperPOD通道末端CDU液冷回路
我们曾听闻一些非技术性说法称冷却水直接进入AI服务器后被排放到环境中。实际上在数据中心液冷系统中,设计上几乎总是包含不同回路与热交换环节。如果您家中有空调或分体式空调,数据中心冷却系统运用了许多相同原理。鉴于数据中心和AI是当前热点话题,我们特意再次说明这一点。
Equinix SV11:电力输送与发电系统
为所有这些服务器供电的是一个多层次的电力输送与发电系统。在最高层级,市电以21,600伏特电压接入。

Equinix SV10市电接入系统
这些电力必须降压至480伏特才能在整个数据中心内分配。

Equinix SV10市电转换系统
在电力接入与数据中心楼层之间,还配备了冗余系统和切换装置,用于在不同电源之间切换以及应对可能发生的组件故障。

Equinix SV10 电力切换系统
即便如此,输送到数据中心的480伏特电力仍需进一步降压才能适配单个机柜。PDU(电源分配单元)会将其降至415伏或240伏,再由机柜上的设备根据需要转换为直流电。

Equinix SV11 楼层配电系统
由于所有这些变压器及其产生的热量,甚至连PDU(电源分配单元)都需要特殊的散热处理。PDU产生的热量被导入顶置式罩壳,防止其扩散到数据中心的地板空间。
Equinix并非仅依赖外部市电。该公司还具备本地发电能力,既可在日常运营中辅助供电,也能在市电中断时作为备用电源。

Equinix SV11 发电场区
除了用于短期供电的UPS(不间断电源)外,柴油发电机可在市电中断时提供中期电力支持。

Equinix SV11 发电机组阵列
Equinix还安装了多组太阳能电池阵列,以利用加利福尼亚充足的日照进行发电。

Equinix SV10 园区太阳能电池板阵列
最后,该公司还部署了Bloom Energy的天然气燃料电池进行补充发电。与传统燃气轮机等燃烧系统相比,燃料电池能以更高效率和更低噪音实现天然气发电,同时显著减少氮氧化物等二次污染物排放。

Equinix SV11燃料电池发电系统
Equinix目前在其硅谷园区安装了6.4兆瓦的发电容量,并正在建造另一座塔楼以部署更多燃料电池。

Equinix Bloom Energy燃料电池塔楼在建工程
燃料电池低矮的外形与低噪音特性使其能够紧邻数据中心部署,从而最大限度地减少传输损耗。

Equinix硅谷园区燃料电池与数据中心相邻布局
Equinix已签署协议探索未来数据中心的核能应用,因为电力已成为人工智能发展的主要制约因素。

Equinix硅谷园区屋顶太阳能电池板
不过在此园区,除市电外的主要替代能源是太阳能与燃料电池。
写在最后
当我向Equinix提出这个构想时,目标很明确:我想展示传统互联数据中心的面貌。作为长期生活在硅谷的人,Equinix SV1一直是人们经常谈论的地方——若想实现高密度互联,这里确实是“那个”必选之地。SV1的独特之处在于它承载着深厚历史底蕴与二十五年前的设计理念,经过改造后既能在现代环境中运行,又延续着传统服务的生命线。

Equinix 汇聚200家运营商的光纤网络枢纽
如今,我们正处于人工智能数据中心蓬勃发展的时代。这些现代数据中心在电力和冷却方面采用了截然不同的方案。我认为,通过幕后探访运行NVIDIA GTC技术演示的DGX SuperPOD(我们曾亲临现场体验这些演示),是展示这种差异的绝佳方式。这清晰地说明了为何SV1与SV11的设计几乎完全不同——它们诞生于两个不同的时代,并真正服务于两种不同的应用场景。

Equinix SV11底层数据大厅
这可能是我们今年的最后一篇探访文章与视频,但请期待明年更精彩的探访内容——我们将呈现更多深度探访视频。
此外,我要特别感谢Equinix和NVIDIA团队成员的鼎力支持,没有他们的协助我们无法完成这样的深度报道——毕竟通常不允许在数据中心(尤其是客户机柜区域)进行拍摄。同时衷心感谢我们团队的Joe、Sam、George、Ryan和Virginia让此次探访成为现实。人们常常忽略制作这类探访内容需要付出的巨大努力。如果您正在阅读本文并希望参与其中,这个领域正在快速发展,是建立职业生涯的绝佳方向。如果说SV1中那些ISDN、T1和DS3线路给了我们什么启示,那就是这些基础设施需要得到长期的技术支持。
需要说明的是,本均来自于https://www.servethehome.com/,笔者进行了翻译以及对部分内容进行了调整和增补,以便于更多初级阶位的硬件爱好者与硬件售前工程师和销售们学习与了解数据中心25年的变更。
