NVIDIA 与 OpenAI 联合发布 MRC 协议，提升 AI 超算集群效率

NVIDIA、OpenAI 及微软等联合发布并开源了多路径可靠连接（Multipath Reliable Connection, MRC）协议。这是一种新型 RDMA 传输协议，专为大规模 AI 训练集群设计，旨在解决千卡乃至万卡 GPU 集群中网络拥塞和故障导致的核心瓶颈。

MRC 解决什么问题

大规模 AI 训练中，GPU 集群通过网络进行密集的数据交换。当集群规模从几千卡扩展到几十万卡时，两个问题变得尤为突出：

传统网络协议在设计之初并未考虑 AI 训练这种"全节点同时高带宽通信"的场景。

MRC 采用数据包喷射（packet spraying）技术，将流量在多条路径间并发传输，避免单路径拥塞。同时具备微秒级故障重路由能力——当某条链路发生故障时，数据包可以在微秒级时间内自动切换到其他路径，训练任务几乎无感知。

OpenAI 网络负责人 Mark Handley 表示，MRC 本质上解决了 AI 基础设施网络层的两个核心问题：拥塞和故障。随着 GPU 集群规模增长，这些问题会呈指数级恶化。

MRC 已在 NVIDIA Spectrum-X 平台及 Blackwell 架构中应用。目前正支撑以下集群运行：

OpenAI 工作负载负责人 Greg Steinbrecher 表示，传统大规模训练任务是一个"故障放大器"——一处出问题，连锁反应迫使整个训练停摆，GPU 只能空转。MRC 解决了这个问题，让 OpenAI 能够"更快地推进整个研究管线"。

MRC 规范通过 OCP（Open Compute Project） 以开放许可发布。NVIDIA 和 OpenAI 均强调，此举旨在减少行业碎片化——各家公司各自实现私有协议的市场格局不利于整个行业发展。

Steinbrecher 指出："行业中多家公司都有自己的内部协议实现，这种市场碎片化对网络产业不利。你希望所有人的力量都朝一个方向推进，这样所有人都能更快前进。"

MRC 的标准化也将加速 Stargate 等 AI 基础设施项目的建设。

来源：NVIDIA Blog · The Deep View