发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

马斯克盛赞!Kimi 论文革新残差连接 深度学习底层范式迎新变

2026-03-18来源:天脉网编辑:瑞雪

在人工智能领域,底层架构的突破往往比上层应用的优化更具颠覆性。近日,中国AI公司月之暗面(Moonshot AI)发布的技术报告《Attention Residuals》(注意力残差)引发全球关注,其提出的创新架构在同等算力下可将模型性能提升25%,这项突破被OpenAI前核心成员Jerry Tworek誉为"深度学习2.0的开端"。

这项技术直指现代大模型的核心组件——残差连接(Residual Connections)。自2015年ResNet论文提出该设计以来,这种通过"直通道"传递原始输入的机制已成为深度学习的基石。但月之暗面团队发现,传统残差连接存在根本性缺陷:随着网络加深,各层贡献被稀释,导致大量中间层实质上处于"闲置"状态。研究显示,某些大模型中超过30%的层可直接移除而不影响性能。

创新的关键在于将注意力机制从横向的序列处理维度,旋转90度应用于纵向的深度维度。团队为每层引入可学习的"查询向量",使模型能动态决定参考哪些前序层的输出。这种设计仅增加约100行代码,却让480亿参数模型的验证损失显著下降。在博士级科学推理GPQA-Diamond基准测试中,新架构展现出7.5%的性能飞跃,数学和代码生成任务也有3%以上的提升。

工程实现上的突破同样值得关注。为解决全量注意力带来的内存爆炸问题,团队开发了Block AttnRes方案,将网络划分为多个模块,模块间采用稀疏注意力连接。通过跨阶段缓存机制和两阶段计算策略,训练开销控制在4%以内,推理延迟增加不超过2%。这种设计哲学在理论优雅性与工程实用性之间取得了平衡——当测试更激进的动态查询向量方案时,虽然性能进一步提升,但因会增加推理延迟而被放弃。

这项突破的意义远超技术本身。当行业普遍聚焦于数据规模和模型参数量时,月之暗面选择回归深度学习的基础设施进行重构。研究显示,新架构改变了模型对深度与宽度的资源分配偏好,使增加网络层数真正产生价值,而非简单的参数堆砌。这种方法论的转变,可能预示着深度学习进入新的发展阶段——当现有框架的优化空间逐渐耗尽,重新审视那些被视为"已解决问题"的基础组件,或许能打开新的性能天花板。

2026年快充充电桩行业新标杆:郑州叮叮智能以高效运营与硬核实力双榜登顶
公司为设备提供整机3年质保、核心模块5年质保、终身免费维修的行业高标准质保服务,还投保5000万产品责任险,全方位保障客户权益;在项目落地前,提供免费点位评估报告,24小时内给出专业选址建议;安装调试阶段48…

2026-03-18