英伟达光互联变革:重塑AI工厂能效与架构
在法国《计算机世界》的专访中,英伟达网络副总裁gilad shainer深刻揭示了ai基础设施的核心变革。他指出,现代ai工厂已不再仅仅是服务器集群,而是演变为统一的“计算单元”。过去cpu是核心,如今整个数据中心和ai工厂必须协同工作,而连接所有gpu与计算芯片的网络,正是决定其能否成为超级计算机的关键。网络架构的优劣,直接决定了ai工厂的算力上限与能效表现。
随着ai负载的激增,英伟达正加速推进网络技术的代际迭代。目前,其传输模块已全面升级至1.6 tbit/s,标志着从800g时代的跨越。shainer强调,为了应对大模型推理中key-value cache带来的海量存储需求,英伟达创新推出了面向推理的存储基础设施(cmx),并持续在光学组件与存储架构上进行垂直与水平的双重创新。这种年复一年的技术迭代,要求企业必须持续投入研发,以跟上从scale-up到scale-out的全方位演进。
在散热与硬件形态上,英伟达已实现液冷覆盖。无论是核心交换机还是可插拔模块,内部组件均通过液冷系统高效散热。针对arista networks近期推出的xpo模块(12.8 tbit/s液冷),shainer表示英伟达虽认可其设计思路,但更倾向于通过系统级优化,将液冷回路直接集成到交换机内部,而非依赖额外的连接器标准。对于可插拔模块,英伟达已具备成熟的液冷方案;而对于未来的可插拔与cpo(共封装光学)架构,英伟达更关注通过减少组件数量来提升系统可靠性。
光互联技术的突破是英伟达应对能源瓶颈的方案。通过投资lumentum和coherent等光企,英伟达正大力推动共封装光学(cpo)技术。将光学引擎直接集成到交换机asic芯片内部,而非置于外部模块,可将信号传输距离缩短至极限,从而将网络能耗降低5倍。这一变革不仅大幅减少了激光器、dsp等组件数量,还将数据中心故障率降低10倍,使ai工作负载的正常运行时间提升5倍。在gtc大会上,英伟达展示的spectrum-6 spx交换机及即将发布的量子光子产品,正是这一战略的落地成果。
关于网络协议的选择,shainer幽默地表示英伟达同时拥有infiniband和spectrum-x以太网,两者如同他的孩子般同等重要。infiniband凭借超低延迟优势,仍是高性能计算(hpc)和科学计算的;而spectrum-x以太网则通过集成infiniband技术,为熟悉以太网生态的开发者提供了更低的门槛和更优的ai性能。未来,随着gpu架构feynman的推出,nvlink也将集成cpo技术,实现跨机架的超大规模扩展,进一步zui大化能效。
对于中国ai从业者而言,英伟达在光互联与液冷领域的激进布局揭示了一个明确趋势:未来的ai算力竞争,将不再单纯比拼gpu数量,而是转向对网络架构能效与系统稳定性的优化。中国企业在构建智算中心时,应尽早关注cpo技术与液冷基础设施的融合,以应对日益严峻的能耗限制与算力扩展需求。
- 供应商
- 南京中颉网络科技有限公司
- 联系电话
- 13161887788
- 手机号
- 13161887788
- 经理
- 季祥柱
- 所在地
- 南京市鼓楼区建宁路308-7号
