NVIDIA 与 OpenAI 联合发布 MRC 协议,提升 AI 超算集群效率

NVIDIA、OpenAI 及微软等联合发布并开源了多路径可靠连接(Multipath Reliable Connection, MRC)协议。这是一种新型 RDMA 传输协议,专为大规模 AI 训练集群设计,旨在解决千卡乃至万卡 GPU 集群中网络拥塞和故障导致的核心瓶颈。

MRC 解决什么问题

大规模 AI 训练中,GPU 集群通过网络进行密集的数据交换。当集群规模从几千卡扩展到几十万卡时,两个问题变得尤为突出:

  • 网络拥塞:数据流量集中在少数路径上,造成拥堵,GPU 被迫等待数据传输完成
  • 链路故障:一条链路出现问题,整个训练任务可能被迫中断,大量 GPU 空闲等待恢复

传统网络协议在设计之初并未考虑 AI 训练这种"全节点同时高带宽通信"的场景。

MRC 的核心技术

MRC 采用数据包喷射(packet spraying)技术,将流量在多条路径间并发传输,避免单路径拥塞。同时具备微秒级故障重路由能力——当某条链路发生故障时,数据包可以在微秒级时间内自动切换到其他路径,训练任务几乎无感知。

OpenAI 网络负责人 Mark Handley 表示,MRC 本质上解决了 AI 基础设施网络层的两个核心问题:拥塞和故障。随着 GPU 集群规模增长,这些问题会呈指数级恶化。

实际部署

MRC 已在 NVIDIA Spectrum-X 平台及 Blackwell 架构中应用。目前正支撑以下集群运行:

  • 微软 Fairwater 超级计算机
  • 甲骨文 OCI Abilene 集群(位于得克萨斯州)
  • 已用于多个 OpenAI 模型训练,包括 GPT-5.5

OpenAI 工作负载负责人 Greg Steinbrecher 表示,传统大规模训练任务是一个"故障放大器"——一处出问题,连锁反应迫使整个训练停摆,GPU 只能空转。MRC 解决了这个问题,让 OpenAI 能够"更快地推进整个研究管线"。

开放标准化

MRC 规范通过 OCP(Open Compute Project) 以开放许可发布。NVIDIA 和 OpenAI 均强调,此举旨在减少行业碎片化——各家公司各自实现私有协议的市场格局不利于整个行业发展。

Steinbrecher 指出:"行业中多家公司都有自己的内部协议实现,这种市场碎片化对网络产业不利。你希望所有人的力量都朝一个方向推进,这样所有人都能更快前进。"

MRC 的标准化也将加速 Stargate 等 AI 基础设施项目的建设。

来源:NVIDIA Blog · The Deep View

相关推荐