NVIDIA 与 OpenAI 联合发布 MRC 协议,提升 AI 超算集群效率
NVIDIA、OpenAI 及微软等联合发布并开源了多路径可靠连接(Multipath Reliable Connection, MRC)协议。这是一种新型 RDMA 传输协议,专为大规模 AI 训练集群设计,旨在解决千卡乃至万卡 GPU 集群中网络拥塞和故障导致的核心瓶颈。
MRC 解决什么问题
大规模 AI 训练中,GPU 集群通过网络进行密集的数据交换。当集群规模从几千卡扩展到几十万卡时,两个问题变得尤为突出:
- 网络拥塞:数据流量集中在少数路径上,造成拥堵,GPU 被迫等待数据传输完成
- 链路故障:一条链路出现问题,整个训练任务可能被迫中断,大量 GPU 空闲等待恢复
传统网络协议在设计之初并未考虑 AI 训练这种"全节点同时高带宽通信"的场景。
MRC 的核心技术
MRC 采用数据包喷射(packet spraying)技术,将流量在多条路径间并发传输,避免单路径拥塞。同时具备微秒级故障重路由能力——当某条链路发生故障时,数据包可以在微秒级时间内自动切换到其他路径,训练任务几乎无感知。
OpenAI 网络负责人 Mark Handley 表示,MRC 本质上解决了 AI 基础设施网络层的两个核心问题:拥塞和故障。随着 GPU 集群规模增长,这些问题会呈指数级恶化。
实际部署
MRC 已在 NVIDIA Spectrum-X 平台及 Blackwell 架构中应用。目前正支撑以下集群运行:
- 微软 Fairwater 超级计算机
- 甲骨文 OCI Abilene 集群(位于得克萨斯州)
- 已用于多个 OpenAI 模型训练,包括 GPT-5.5
OpenAI 工作负载负责人 Greg Steinbrecher 表示,传统大规模训练任务是一个"故障放大器"——一处出问题,连锁反应迫使整个训练停摆,GPU 只能空转。MRC 解决了这个问题,让 OpenAI 能够"更快地推进整个研究管线"。
开放标准化
MRC 规范通过 OCP(Open Compute Project) 以开放许可发布。NVIDIA 和 OpenAI 均强调,此举旨在减少行业碎片化——各家公司各自实现私有协议的市场格局不利于整个行业发展。
Steinbrecher 指出:"行业中多家公司都有自己的内部协议实现,这种市场碎片化对网络产业不利。你希望所有人的力量都朝一个方向推进,这样所有人都能更快前进。"
MRC 的标准化也将加速 Stargate 等 AI 基础设施项目的建设。
来源:NVIDIA Blog · The Deep View
- OpenAI 发布 GPT-5.4 mini 与 nano:小模型加速冲刺3/17/2026
- OpenAI 收购 Astral:Python 工具链收编加速3/19/2026
- ChatGPT App 的模型切换入口,突然变得很难找3/17/2026
- DLSS 5 引发的争议:老黄说批评者完全错误3/19/2026
- 八家科技巨头签署反诈骗协议,平台反诈开始从单案协作走向跨平台联防3/16/2026
- OpenAI 将推出网络安全专用模型 GPT-5.5-Cyber,仅限受信任防御者使用5/1/2026
- OpenAI 开始给内部编码代理配“监工”,数千万轨迹里未见最高风险失调3/21/2026
- OpenAI 向美加大学生提供 100 美元 Codex 积分3/21/2026
- 微软发布三款自研AI模型:从语音转写到图像生成,覆盖企业AI最核心场景4/2/2026
- 三家美国 AI 巨头罕见联手,共享情报应对'对抗性蒸馏'4/7/2026
- OpenAI 想让 AI 聊天机器人进 Google 搜索选择页,动了什么心思3/23/2026
- Sam Altman 的诚信困局:《纽约客》长篇调查揭开了什么4/7/2026
- OpenAI发布超级智能时代政策提案:对自动化征税、建全民分红基金4/6/2026
- 英伟达发布全球首个开源量子 AI 模型家族 Ising,用 AI 打造量子计算机的「操作系统」4/15/2026
- 当员工消耗的 token 数开始进绩效3/23/2026
- ChatGPT 广告测试放量了,但 OpenAI 还是没打算快跑3/21/2026
- OpenAI 澄清:ChatGPT 广告暂未全球推广3/16/2026
- OpenAI 推出 GPT-5.4-Cyber 网络安全专版,向认证防御者分级开放4/15/2026
- OpenAI 推出 Codex 按量计费席位,ChatGPT Business 年费降至 $204/3/2026
- 英伟达 NTC 纹理压缩:显存降 85%,画质近乎无损4/5/2026
- OpenAI发布GPT-5.5:从对话模型向智能体演进,Terminal-Bench 82.7%4/23/2026
- ChatGPT 新增 Library,上传过的文件终于更好找了3/24/2026
- Cloudflare 发布 Agent Cloud:GPT-5.4 驱动百万级 AI 智能体部署4/13/2026
- OpenAI Codex 重大更新:AI 智能体进入全流程开发时代4/17/2026
- OpenAI 拟停用 Sora:独立应用上线约 6 个月,API 与迪士尼合作同步收尾3/25/2026
- OpenAI 推出 GPT-5.5 生物安全漏洞赏金计划4/26/2026
- OpenAI 三名高管同日离职,科研和边缘产品线持续收缩4/18/2026
- OpenAI 推出 100 美元档 ChatGPT Pro:5 倍 Plus 额度,限时 10 倍 Codex4/10/2026
- OpenAI 推出 Codex Labs,联手埃森哲等咨询巨头加速企业级部署4/21/2026
- OpenAI 被指更换 GPT-5.4 Pro 底层模型,响应速度提升近 3 倍4/19/2026