OpenAI联合多家巨头发布MRC协议破解万卡集群网络瓶颈

OpenAI联合多家巨头发布MRC协议破解万卡集群网络瓶颈

随着人工智能大模型对算力需求的指数级增长,数据中心内部的“交通拥堵”已成为制约性能的关键瓶颈。传统网络架构在处理海量数据并发时,极易因链路故障或设备宕机导致传输延迟和抖动。为突破这一限制,OpenAI联合AMD、博通(Broadcom)、英特尔(Intel)、微软(Microsoft)及英伟达(Nvidia)等科技巨头,在开放计算项目(OCP)框架下共同制定了专为超大规模GPU集群设计的网络协议——MRC(Multipath Reliable Connection,多路径可靠连接)。该协议旨在优化包含超过10万张GPU的训练集群内部流量调度,通过同时利用数百条网络路径而非依赖少数易拥堵的主干道,实现负载均衡与高可用性。

打破传统单一路径限制

OpenAI在官方博客中指出,网络拥塞、链路及外设故障是造成数据传输延迟和抖动的主要原因。随着集群规模的扩大,单一节点的故障可能导致整个训练任务中断,迫使系统从检查点重启或阻塞数秒以重新计算路由,这种停机成本极其高昂。MRC协议的核心创新在于其拓扑结构设计:它不再将每个800Gb/s的网络接口视为单一链路,而是将其拆分为多个较小的并行链路。例如,一个接口可连接至8个不同的交换机,构建8个独立的100Gb/s并行网络平面,而非单一的800Gb/s网络。

这种架构变革对集群结构产生深远影响。传统800Gb/s交换机若需连接同等规模的网络,可能需要三到四层交换层级;而采用MRC逻辑后,仅需两层交换机即可完全连接约13.1万张GPU。MRC协议打破了传统网络中数据包必须沿单一顺序路径传输的假设,将同一传输的数据包分散至数百条不同路径上,从而极大提升了网络的吞吐能力和容错率。

基于SRv6的智能路由与拥塞控制

MRC协议在技术实现上融合了多项前沿成果。它扩展了RDMA over Converged Ethernet v2(RoCE v2)标准,支持GPU与CPU间的硬件加速远程内存访问,并借鉴英伟达的技术实现了自适应路由和拥塞控制。同时,MRC依托超以太网联盟(UEC)开发的基于SRv6(Segment Routing over IPv6,IPv6段路由)的组网技术,以支撑大规模AI网络。

与传统动态路由协议(如BGP)不同,MRC利用SRv6让发送方通过IPv6地址直接指定数据包的网络路径。交换机在转发时识别自身标识并移除,揭示下一跳交换机的标识,随后查询预先配置好的静态路由表确定下一目的地。这种机制不仅简化了路由计算,还提高了故障切换的速度。当检测到某条路径拥塞或丢包时,MRC会立即停止使用该路径并重传数据包,同时发送测试包验证链路恢复情况。此外,针对队列满导致的丢包问题,MRC采用“数据包修剪”技术,将小包放入高优先级队列而非直接丢弃,进一步保障了传输的可靠性。

从实验室走向大规模生产

目前,MRC协议已在实际生产环境中得到验证。OpenAI表示,该协议已用于其训练GPT和Codex等大语言模型的集群中。英伟达确认MRC与其Spectrum-X以太网交换机兼容。微软在威斯康星州的Fairwater AI数据中心以及甲骨文(Oracle)位于德克萨斯州阿比林的数据中心(属于Stargate项目的一部分)也已部署该协议。这一合作标志着AI基础设施从硬件堆砌向软件定义网络优化的重要转变,为未来更大规模的算力集群奠定了网络基础。

中国企业在构建自主可控的大模型算力底座时,可借鉴MRC协议中“多路径冗余”与“静态路由优化”的设计思路。在国产AI芯片生态尚处成长期的背景下,通过软件层面的网络调度创新来弥补硬件互联带宽的潜在不足,是提升集群整体训练效率、降低故障成本的有效路径。关注此类底层网络协议的演进,有助于中国企业在下一代算力基础设施竞争中抢占先机。

供应商

查看商铺
公司
南京中颉网络科技有限公司
电话
13161887788
手机
13161887788
经理
季祥柱
地址
南京市鼓楼区建宁路308-7号

相关资讯

更多