编者按:
互联网的创世神话,源于一个互联互通的梦想。从蒂姆·伯纳斯-李爵士构建万维网的初衷,到TCP/IP协议成为全球信息高速公路的基石,“连接”始终是互联网的灵魂。然而,当我们审视当下中国如火如荼的AI算力基础设施建设时,却看到一幅与这一初心相悖的图景:一个个由科技巨头构建的“超节点”智算中心拔地而起,它们虽然在技术上宣称支持“异构”,但在生态上却各自为营。
算力——这种新时代的“石油”资源,并未如预期般汇成奔涌的江河,反而有沦为一座座孤立的“堰塞湖”之险。
“巴别塔”困境
互联网的本质是消灭孤岛。美国国防高级研究计划局(DARPA)在最初设计ARPANET时,其核心目标就是实现不同计算机之间的资源共享与通信。这一精神遗产被后来的互联网全盘继承,并成就了其今日的辉煌。在AI算力领域,这一理念的延伸便是“算力网络”或“算力互联网”,旨在将分布各地的计算资源像电网一样进行统一调度、按需分配,让用户能够透明地、无感知地使用来自任何地方的算力。
然而,理想很丰满,现实却很骨感。随着“东数西算”工程的深入推进,以及大模型训练对算力需求的爆炸式增长,随着超节点产品不断涌入,其智算中心的建设也进入高峰期,但问题在于,这些节点之间,存在着深刻的生态隔阂。
一个最常被提及的误解是:“既然它们都开源了协议,为什么还不能互通?” 事实上,这正是“小院高墙”策略的精妙之处。开源,在这里并非为了打破壁垒,而是为了更高效地筑墙。
远古时期,人类试图共建“巴别塔”以凝聚力量,却因上帝变乱语言而陷入沟通困境,最终工程夭折。这个典故揭示了“巴别塔困境”的核心:即便目标一致,缺乏有效沟通的协作终将崩塌。
当前,中国算力领域正面临同样的困境。在“东数西算”国家工程推动下,各大科技巨头纷纷构建智算“超节点”,但各自为营的技术路线与生态壁垒,却让全国算力互联的“通天塔”蓝图遭遇现实挑战。
比如,某厂商部分代码的开源,好比特斯拉公开其充电桩的接口协议。任何第三方都可以依据此协议生产充电枪,但这并不意味着你的比亚迪汽车就能在特斯拉充电桩上获得峰值功率的充电体验,更不意味着特斯拉汽车会因此更好地去使用蔚来的充电网络。事实上,性能的极致发挥,严重依赖于厂商闭源的“核心资产”。这种深度绑定,使得一个为其优化的应用,难以在其他硬件上复现相同效率。
某互联大厂智算中心的特定计算平台与其自研芯片及深度学习框架深度耦合,其框架的技术文档中大量展示了二者的联合优化案例,这类优化在提升自身生态内性能的同时,也无形中构建了技术壁垒;另一平台则通过产品化的云服务(如弹性计算、文件存储等)对外输出其核心技术能力,会提供标准的 API 和 SDK 方便用户调用,同时积极参与并贡献至 Kubernetes 等开源社区,确保自身云服务能与这些生态良好集成,其策略偏向 “黑盒化” 与 “服务化”,不限制用户使用的硬件或框架,而是将自身强大的调度与网络能力封装成稳定可靠的云服务供用户使用,用户无需了解实现细节,仅需享受服务成果,这种模式的 “开放” 主要体现在对标准接口的支持,而非代码公开。
另外,生态兼容要求异构芯片在软件栈(驱动、框架、库)、协议标准(通信、调度、安全)及开发工具链层面实现无缝协作。例如,NVIDIA GPU生态通过CUDA、NCCL、NVLink等组件构建了完整技术栈,开发者可跨代际GPU无缝迁移模型;而国内超节点生态尚未形成类似标准,各厂商协议并不完全兼容。
某智算中心测试显示,A超节点调度B厂商GPU时,因协议转换导致通信延迟增加42%,任务启动时间延长3倍。这种性能损耗源于协议栈差异。
国内超节点厂商为构建技术壁垒,普遍采用封闭协议。即使开放部分规范,但核心组件推理框架仍需深度适配自研芯片;这种“硬件开放、软件封闭”的模式,导致第三方芯片需重写驱动层代码,开发成本激增。
另外,生态兼容要求开发工具链(如模型转换工具、调试器)支持跨芯片优化。当前,国内超节点厂商的工具链普遍割裂。
这种策略的最终结果,就是会形成了多个繁荣的“开源孤岛”。每个岛都通过开源和优秀的技术吸引了大量居民,岛内道路宽阔,交通发达。但岛与岛之间,却没有建造标准化的桥梁和轮渡。开源,降低了进入每个“小院”的门槛,却提高了在不同“小院”之间迁移的成本。
“小院高墙”之殇
这种生态隔绝带来的负面影响是深远且多方面的。
首先,是算力资源的巨大浪费与调度失灵。根据中国信息通信研究院发布的《云计算发展白皮书(2023年)》,企业在上云和使用多元算力时,最大的挑战之一就是“异构资源管理和调度复杂”。当一家AI创业公司需要紧急调用大规模算力时,它会痛苦地发现,基于A生态开发的应用无法高效运行在B集群上,反之亦然。用户不得不为不同的算力来源进行重复的适配和开发,这极大地增加了时间成本和资金成本。这种生态壁垒使得跨厂商、跨地域的算力协同调度几乎成为空谈,大量算力在“忙闲不均”中空转,无法在全局层面实现最优配置。
其次,是对开发者的绑架与创新的阻滞。开发者本应专注于算法和模型本身的创新,但现在却不得不耗费大量精力去学习和适配不同的底层硬件生态。他们的创造力和技术选型自由被生态锁链所束缚。一个健康的市场应该是算力服务商竞相为开发者提供更优的体验和价格,而在“小院高墙”下,关系在一定程度上被颠倒了——开发者为了追求极致性能,不得不委身于某一生态,削弱了其议价能力和技术灵活性。
最后,这与“全国一体化算力体系”的国家战略相悖。“东数西算”工程的宏大愿景,是要通过构建国家级的算力枢纽和数据中心集群,实现全国算力资源的规模化、集约化发展。而当下各自为政的“小院高墙”,恰恰是这一愿景实现道路上最大的绊脚石。它使得算力资源无法像电力一样,被“西电东送”般高效、无损地调度到需求地,阻碍了全国统一算力大市场的形成。
结 语
要破解“小院高墙”的困局,不能指望企业的自发自觉,因为基于商业利益的生态战略有其内在合理性。我们必须从更高维度进行顶层设计和产业协同,在鼓励底层技术创新的同时,大力推动中间层的标准化和开放性,构建一个能够穿透生态壁垒的、中立的算力调度体系。
互联网的故事,本是一个从分裂走向连接的故事。我们今日面临的“超节点”生态割据,是技术爆发期不可避免的阵痛,本质是智能时代厂商们话语权的争夺,但绝不是我们拥抱的未来。
当算力成为新时代的“石油”,企业更需在自立自强与开放协作间找到平衡点——既筑牢“小院”的安全底线,又打通“高墙”的互联通道。唯有如此,方能在全球智能革命中占据制高点。
