发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

AI基建新战场:OpenAI与智谱双线突围,网络架构成效率竞争关键

2026-05-22来源:快讯编辑:瑞雪

当全球AI算力竞争进入新阶段,网络架构正成为决定超大规模集群效率的关键变量。OpenAI与英伟达等五家科技巨头联合发布的MRC传输协议,以及中国智谱联合清华大学、驭驯网络推出的ZCube网络架构,标志着AI基础设施从"堆卡竞赛"转向"系统效率优化"的转折点。

在训练规模突破十万卡级后,AI集群面临新的技术挑战。以ChatGPT为例,其每周9亿活跃用户产生的推理请求,需要集群内数千块GPU高频交换中间数据。传统Clos架构下,负责"理解问题"与"生成回答"的GPU通过KV Cache跨节点通信时,极易出现局部链路拥塞——就像城市交通中,少数主干道承载过量车流,而周边道路却闲置,导致整体通行效率低下。智谱技术团队通过实验证实,在相同GPU配置下,仅将网络带宽从100Gbps提升至200Gbps,推理吞吐量即可提升19%,首Token延迟降低22%,印证了网络已成为制约算力释放的核心瓶颈。

针对PD分离推理场景的结构性拥塞,ZCube架构通过"扁平化"设计实现突破。该方案摒弃传统金字塔式层级结构,将底层交换机分为两组全互联,并采用混合接入方式使每块GPU同时连接两组交换机。这种设计使任意两GPU间通信仅需经过两台交换机,路径长度缩短50%以上。实测数据显示,在千卡级GLM-5.1推理集群中,ZCube使GPU平均吞吐提升15%,首Token延迟的99分位值降低40.6%,同时将交换机与光模块成本削减三分之一。按万卡规模估算,仅硬件采购即可节省2.1亿至6.4亿元。

与ZCube侧重推理场景不同,OpenAI的MRC协议聚焦训练网络的效率优化。该协议通过多路径并发传输和智能路由技术,在现有多平面两层以太网结构上实现微秒级故障绕行,有效解决大规模GPU同步训练时的尾部延迟问题。目前,MRC已部署于OpenAI最大规模的英伟达GB200超算集群,并用于训练多个前沿模型,其协议规范通过Open Compute Project向全行业开放。

两种技术路径的差异,折射出中美AI产业的不同资源约束。当OpenAI依托英伟达等全产业链伙伴进行协议层优化时,中国AI企业正通过产学研协同探索架构创新。智谱的实践显示,ZCube不依赖特定GPU生态,在华为昇腾、寒武纪等国产芯片与英伟达混合部署的集群中同样有效。这种"硬件解耦"特性,使网络优化成为提升多元算力组合效率的通用解决方案。

值得关注的是,ZCube的落地并非简单技术替换,而是涉及物理层改造的系统工程。驭驯网络开发的自动化工具链,覆盖机房布局设计、连线校验、配置生成等全流程,将原本需要数月的集群改造周期压缩至两周内完成。这种工程化能力,标志着网络架构优化已从学术研究转化为可规模化部署的生产技术。

随着全球AI集群规模突破十万卡门槛,系统效率正在取代单一硬件性能成为竞争焦点。无论是MRC的协议创新还是ZCube的架构重构,都指向一个共同趋势:在GPU供给受限的背景下,通过优化数据流动路径释放现有算力潜力,正在成为AI基础设施演进的新方向。这场由网络架构引发的变革,或将重新定义超大规模AI系统的技术标准与成本结构。

从传统到智能:校园洗衣服务借物联网之力开启高校后勤新篇章
这种将专业标准与用户参与相结合的模式,为校园公共卫生管理提供了新思路。定制化方案解决了场景适配难题,标准化体系保障了服务品质,物联网技术提升了运营效率,而服务育人理念则赋予了后勤工作更高的价值定位。帕信科技在…

2026-05-22

智慧用电新选择:ARCM300装置,集多能于一身守护用电安全
智慧用电在线监控装置是针对0.4kV以下的TT、TN系统设计的智能电力装置,具有单、三相交流电测量、四象限电能计量、谐波分析、开关量输入、继电器输出功能,以及RS485通讯或GPRS无线通讯功能,通过对配电…

2026-05-22

精密压铸新标杆:东莞茗铸以视觉高速压铸机引领行业技术革新
在光通讯与新能源汽车电子的赛道上,一家成立仅七年的企业用自主研发的视觉高速压铸机,悄然改写着高端制造的剧本。惠州基地的视觉高速压铸机产线,采用模块化设计便于快速适配不同行业需求;而东莞本部的汽车电子车间,则保…

2026-05-22

荣耀跨界摩托车赛事与机器人领域:营销加速下底盘与方向如何平衡?
签张雪、冠名WSBK,你当然可以说它是体育营销的老剧本,但稍微往深想一层,这手棋算的其实是另一笔账:谁在看摩托车赛事? 如果是在早前的荣耀,面对张雪机车这种热点,常规动作会是先论证“跟手机有什么关系”,等论…

2026-05-22