云计算和AI一哥再携手，亚马逊云科技与英伟达共攀云上AI算力新高峰

作者|小葳

出品|智能进化论公众号：AImatters

GTC 2024不仅带来震撼业界的AI算力“新核弹”，更引发了云计算与AI产业的进一步融合。

3月20日，亚马逊云科技和英伟达宣布，英伟达新一代Blackwell GPU平台即将登陆亚马逊云科技。亚马逊云科技将提供NVIDIA GB200 Grace Blackwell 超级芯片和 B100 Tensor Core GPU，帮助客户更快、更大规模、更低成本地构建和运行万亿参数大模型。

英伟达与亚马逊云科技，一个是全球AI算力的领头羊，一个多年稳坐云计算行业头把交椅。双方再度强强联合，将加速生成式AI前沿技术发展。前者不断迭代为生成式AI而生的强大处理器，后者则致力于让最先进的AI算力在云端触手可得。

「智能进化论」认为，此次双方合作亮点可以从四个方面解读：

1 更大规模的模型：让数万亿参数大模型在云端可用

英伟达Blackwell GPU在亚马逊云科技上的应用，将加速生成式 AI 前沿技术发展，并提升万亿参数大语言模型在云端的推理加速。

在大模型研发领域，万亿级参数规模代表了业界最前沿的水平。业界有消息称，GPT4的模型参数是1.8万亿。英伟达此次发布的Blackwell 架构GPU，目标就直指万亿参数大模型。

Blackwell B200是目前最强大的AI芯片，FP4性能高达20 petaflops，是上一代卡皇H100的5倍。

Blackwell GB200超级芯片是将2个Blackwell GPU和1个Grace CPU结合在一起，性能更加强大。与H100相比，Blackwell GB200对于大模型推理工作负载可实现30倍的性能提升，同时将成本和能耗降低25倍。

GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中，通过第五代 NVIDIA NVLink™ 互连。其可实现720 petaflops的AI训练性能，或是1,440 petaflops（1.4 exaflops）的推理性能。一个GB200 NVL72机柜可以训练27万亿参数的AI模型。

GB200 同过去架构的 AI 芯片性能对比

很快，上述这些AI算力“核弹”就能在亚马逊云科技上使用了。

客户将能在亚马逊云科技上使用基于NVIDIA GB200 Grace Blackwell超级芯片和B100 Tensor Core GPUs的基础设施，从而在云上构建和运行数万亿参数的大语言模型。

客户还可以通过 NVIDIA DGX™ Cloud 获得GB200的超强性能。NVIDIA DGX™ Cloud是亚马逊云科技与英伟达共同开发的AI平台，提供了构建和部署大模型所需的专用基础设施和软件。

亚马逊云科技还将提供配置GB200 NVL72的英伟达Blackwell平台。通过亚马逊云科技强大的EFA网络连接、高级虚拟化的Amazon Nitro系统和Amazon EC2 UltraClusters超大规模集群等技术支持，客户能够在亚马逊云科技上扩展至数千个GB200 超级芯片。

2 更广泛的算力底座：云端运行英伟达GPU的最佳选择

在Gartner发布的云基础设施和平台服务魔力象限中，亚马逊云科技已经连续12年位居领导者象限。提供更广泛的云上算力基础设施一直是亚马逊云科技的优势之一。

在生成式AI时代，通过与英伟达的深度合作，亚马逊云科技依然保持着这一领先优势。

“通过 AWS 与 NVIDIA 工程师的共同努力，我们将持续创新，使亚马逊云科技成为每一个想要在云端运行 NVIDIA GPU 用户的最佳选择。”对于此次合作，亚马逊总裁兼首席执行官 Andy Jassy 这样表示。

实际上，亚马逊云科技与英伟达的合作已有13年之久。从推出第一个亚马逊云科技上的GPU云实例至今，提供更广泛的英伟达GPU解决方案，一直是亚马逊云科技践行的目标。

比如，此前亚马逊云科技基于英伟达H100芯片推出了Amazon EC2 P5实例，客户能够在云上将其P5实例扩展到超过2万个英伟达H100 GPU。

此次合作，亚马逊云科技计划提供配备新 B100 GPUs 的 Amazon EC2 实例，并支持在 Amazon EC2 UltraClusters 中部署以加速超大规模生成式 AI 的训练和推理。

3 更安全的AI：加密技术强强联合，护航云上大模型安全

大模型的安全问题一直是很多企业应用生成式AI的核心顾虑之一。此前，三星、摩根大通、花旗集团等知名企业出于数据泄露风险考量，纷纷加入禁用ChatGPT的行列。

此次合作，亚马逊云科技与英伟达将生成式AI安全又向前推进一步。

首先，Amazon Nitro 系统和 NVIDIA GB200 的结合将能够阻止未授权个体访问模型权重。模型权重的安全对保护客户的知识产权、防止模型被篡改以及维护模型的完整性至关重要。

GB200 支持对 GPU 之间 NVLink 连接进行物理加密，以及对 Grace CPU 到 Blackwell GPU 的数据传输进行加密，同时亚马逊云科技EFA (Elastic Fabric Adapter)也能够对服务器之间的分布式训练和推理过程的数据进行加密。同时，受益于Amazon Nitro系统，GB200系统能够将CPU和GPU的输入/输出功能卸载至专门的硬件中，全程保护代码和数据在处理过程中的安全。

其次，通过Amazon Nitro Enclaves 和 Amazon KMS，亚马逊云科技为客户在Amazon EC2 上使用 GB200创建了可信执行环境。从 GB200 实例内部可以加载安全区（Enclave），并且可以直接与 GB200 超级芯片通信，保护客户实例中的数据安全。

亚马逊云科技首席执行官Adam Selipsky认为：“英伟达下一代Grace Blackwell处理器是生成式AI和GPU计算的标志性事件。当结合亚马逊云科技强大的Elastic Fabric Adapter网络、Amazon EC2 UltraClusters的超规模集群功能，以及Amazon Nitro高级虚拟化系统及其安全功能时，我们就能够使客户更快、更大规模且更安全地构建和运行具有数万亿参数的大型语言模型。”

4 更前沿的探索：20,736颗GB200芯片，Ceiba项目支撑英伟达前沿创新

2023年11月底的re:Invent2023全球大会上，亚马逊云科技与英伟达宣布了一项重磅计划——Ceiba项目。Ceiba是双方合作建造的世界上最快的 AI 超级计算机之一，专为英伟达自身的研究和开发而设计，并独家托管在亚马逊云科技上。

短短4个月后，在Blackwell的加持下，Ceiba项目迎来重大升级，将搭载20,736颗GB200 超级芯片，计算性能从65exaflops提升至414 exaflops，提升了6倍多。

据悉，英伟达将基于Ceiba项目推进大语言模型、图形（图像/视频/3D 生成）与仿真、数字生物学、机器人技术、自动驾驶汽车、NVIDIA Earth-2 气候预测等领域的 AI 技术，推动更多领域的生成式 AI 创新。

NVIDIA Earth-2 气候数字孪生云平台

现在的英伟达已经不仅仅是一家芯片公司，几乎涉足了所有热门的科技领域。可以说，Ceiba项目承载了英伟达最前沿的技术探索，也许下一个“核弹”级创新就来自Ceiba项目。将自家研发底座托管在亚马逊云科技上，再次证明了双方合作的战略深度与前瞻性。

英伟达创始人兼首席执行官黄仁勋表示：“人工智能正在以前所未有的速度推动突破，导致新的应用、商业模式和跨行业的创新。我们与亚马逊云科技的合作正在加速新的生成式AI能力的发展，并为客户提供前所未有的计算能力，以推动可能性的边界。”

结语

生成式 AI 有望彻底改变它所触及的每一个行业。

对于任何一家想要在生成式AI时代进行一番创新的企业，顶尖的AI算力和云计算厂商已经在云端提供了最前沿的AI基础设施。

为生成式 AI 时代而生的算力和云服务已就绪，将成为千行百业AI创新的最佳平台。

文中图片来自摄图网

END

本文为「智能进化论」原创作品，

云计算和AI一哥再携手，亚马逊云科技与英伟达共攀云上AI算力新高峰

相关阅读

智能进化论

智能进化论

举报文章问题

举报评论问题

用户登录×