【大屏时代】首页 > 3D快报内容详情

当单一数据中心难以支撑AI:全球联接打造“超算新星”,跨区域分布式训练呼之欲出

2025-01-27 12:30:19 229 大屏时代

随着大模型与生成式 AI 的火速崛起,庞大的算力需求正给单一数据中心的承载能力带来前所未有的压力。当“在一栋楼里容纳无限 GPU”变得不可行,业界正萌生出全新思路——通过高速网络将多个数据中心互联,形成分布式超级计算架构。这样一来,不仅能源分配与冷却问题有望得到缓解,更可能打开全球性跨数据中心合作的新篇章。

1682524466351.jpg

01 爆发式AI需要“超大规模”数据中心

过去两年间,大规模生成式 AI 模型在研发和商业应用上呈现爆发趋势,训练规模迅速增长。与之相伴的是对 GPU 等加速器的“巨量需求”。但能为海量算力所“塞满”的单体数据中心并不多见——高昂的建设投资、用电量瓶颈以及对配电、散热等物理条件的苛刻要求,都让“盲目扩建”成为一个高风险的命题。

  • 能耗焦虑:在顶尖超算集群中,提供海量 GPU、CPU 一旦超过设计容量,就会遇到电力供给与热排放的严峻瓶颈。
  • 硬件故障率:集群规模越大,出现故障的概率也随之攀升。
  • 成长速度:有分析称,AI 模型参数每年可增长 4-5 倍,但 GPU 性能的提升速度却难以同等倍数跟进。

由此看来,在单一“巨型”数据中心里继续“堆算力”的方式,正遭遇愈发明显的天花板。

02 分布式思路崛起:连通“多中心”形成新超级计算机

面对这种困境,业界开始在“多数据中心互联”的道路上寻求突破。Dell’Oro 分析师 Sameh BoujelbeneNvidia Mellanox 网络营销高级副总裁 Gilad Shainer 等业内人士均指出,分布式架构将成为应对 AI 算力极限的必然趋势。

1. HPC领域早有先例

在高性能计算(HPC)中,大型工作负载分配给数千个节点早已是常态。而当下的 AI 训练,与超级计算有着本质的相似——都是需要极高的带宽和超低延迟。此时,如果能利用高速互连网络跨越多个地理位置,将这些节点组合为一个“虚拟超级数据中心”,就能在一定程度上消解单一数据中心规模受限的问题。

2. MetroX和高速互连技术

Nvidia(及其收购的 Mellanox)此前曾推出过 MetroX 产品线,通过密集波分复用(DWDM)等方式实现数十公里范围内的数据中心互连。虽然该产品更多地面向灾备(DR)与高可用场景,但如今 AI 训练需求上涨,让人们看到了在更远距离(几百甚至上千公里)互联数据中心的可行性。

3. 硬件、光纤与软件栈协同

未来,运营商网络的光纤和设备供应商的光学技术若能达到更高带宽、支持低损耗传输,中继器和放大器的布设也更智能化,就可能为千公里级数据中心互通提供稳定基础。

  • 中空光纤等新技术有望减少光信号在传输过程中的中继需求;
  • 智能网状网络能通过软件层调整和自动路由,避免因流量瓶颈或设备故障造成的“塌方式”宕机。

03 技术挑战:延迟、带宽与调度之难

尽管思路清晰,但跨地域的数据中心“联合训练”依然面临诸多现实挑战:

  1. 延迟瓶颈在光纤中的光速大约是每公里 4.9 微秒(往返则近 10 微秒),也就是说,当距离达上千公里,往返延迟就可能接近 10 毫秒,尚未算入协议和处理损耗。对于需要高度同步的 AI 训练来说,延迟会导致 GPU 节点无法同步更新,出现空转或等待数据。
  2. 带宽需求数据中心内部常见的每节点 400Gbps × 8 通道连接,相当于 3.2Tbps 的总带宽;若要跨数据中心维持类似规模通信,需要消耗海量光纤波长和设备资源。当把多个数据中心连在一起时,PB 级别带宽或许才能避免成为瓶颈。
  3. 调度和容错作业在分布式系统中运行,需要考虑不同代际的 GPU 性能差异、硬件故障率陡增的问题,以及如何在不同物理集群间做负载均衡。如果集群越大,故障点越多,训练越长,就越可能在中途出现崩溃,需要完善的自适应路由与跨节点容错机制。

04 未来展望:技术与商业双重驱动

1. “边界拉伸”只是时间问题

当单一数据中心扩建受限,AI 模型规模仍持续暴涨,分布式或跨数据中心的方案几乎不可避免。即使未必每个企业都需要如此“疯狂”的算力,头部云厂商与超算机构也将因此率先尝试。

2. 更高层次的调度与优化

要真正让跨数据中心的训练取得理想效率,需要对训练策略做全面调整。在规划工作负载的分配时,应尽量让数据在同一物理区域内完成大部分计算,只在必要时进行汇总,以“分而治之”的方式缓解带宽和延迟压力。

3. 政策与能源考量

跨地域布设“超级数据中心联盟”也涉及到不同地区的电价、基础设施、网络法规、环保和安全审查等复杂议题。区域层面的资源协调、政策开放与合作将成为关键。

大模型与生成式 AI 的崛起,既带来了算法、硬件层面的竞逐,也正引发对数据中心宏观形态的再思考。当单体集群的空间、电力、热负荷难以再扩张下去,跨地域互联形成“虚拟超算数据中心”的构想便应运而生。
尽管现存技术挑战不小,但在云服务商、高性能计算厂商和网络设备商的共同努力下,跨数据中心的分布式 AI 训练极有可能走上主流舞台。届时,我们或许会看到一个充满创新与机遇的新局面:无论距离远近,只要能被一条光纤或无线高速互联所牵连,分散在全球各地的“算力孤岛”都将被糅合为统一的“巨型大脑”——继续驱动着AI模型规模的爆发式成长。


相关文章

AI普惠时代来临:国产芯片万卡集群与DeepSeek模型掀起的革命性变革

算力狂潮再度席卷:DeepSeek与百度如何点燃AI新竞赛?

产业互联网平台如何加速中小企业数字化转型:政策支持与创新路径

阿里云PolarDB双冠加冕:中国数据库首破TPC-C双项世界纪录

英伟达首度坦承“华为威胁论”:万字年报藏AI芯片争霸密码,中美科技冷战催生双极格局

北京人工智能公共算力平台扩容突破 10000P,打造国内领先超大规模智算集群

相关标签: 数据中心 AI GPU 带宽 训练 算力 光纤 延迟 互联 分布式