发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

Kimi新架构引行业关注!17岁高中生共著论文成焦点

2026-03-18来源:快讯编辑:瑞雪

研究团队的核心灵感源于对网络深度与序列时间维度的对偶性观察。传统残差连接通过无差别累加各层信息,导致早期特征被稀释且训练不稳定。而Attention Residuals技术创造性地让当前层动态选择需要关注的前置层信息,通过可学习的伪查询向量与前层输出构建注意力机制,实现了信息的选择性聚合。这种设计使模型在保持推理延迟增加不到2%的同时,训练效率提升了25%。

为解决计算复杂度随层数平方增长的问题,研究团队提出了Block AttnRes分块压缩方案。该方案将连续层划分为块,每块结束时生成摘要向量,后续层仅需关注块间表征与块内实时输出。这种创新使注意力计算复杂度从O(L²)降至O(L·B),在保持性能的同时显著提升了计算效率。团队还通过缓存式流水线通信等工程优化,进一步增强了技术的实用性。

这项研究的共同第一作者之一陈广宇的成长轨迹颇具传奇色彩。这位北京中学生通过黑客松活动崭露头角,其设计的"ThirdArm"机械辅助手项目获得评委董科含的关注。在导师指导下,他系统学习了Transformer架构等底层技术,并通过研读经典论文、参与GitHub开源项目逐步建立认知。这种从兴趣到专业能力的蜕变,最终将他带入了Kimi团队的核心研发圈。

在Kimi Linear架构的验证中,Attention Residuals技术展现了显著优势。同等计算预算下,采用该技术的模型在数学推理、代码生成等任务中表现优异,多语言理解的一致性也得到改善。更值得关注的是,这项技术可作为残差连接的直接替代方案,无需修改网络其他部分即可实现性能提升。研究团队将其视为"时间-深度对偶性"的重要实践,认为深度神经网络的层处理与循环神经网络的时间步处理本质相通。

陈广宇的学术经历折射出新一代科研工作者的成长路径。从经营跨境电商到专注底层技术研究,他的转变始于对Transformer架构的深入探索。在硅谷实习期间,他参与了涉及144张H100显卡的探索性项目,并在CEO指导下延伸至运营层面工作。这种从理论到实践的完整训练,使他能够在Kimi团队中迅速承担核心研发任务。目前,该技术的完整实现已开源,为AI社区提供了新的研究范式。

春招季职场新趋势:“人机协同”成常态 人工智能人才走俏月薪超两万
记者在招聘会现场了解到,与往年不同的是,今年春招,超过一半的企业都设置了机器人、人工智能等科技创新类的岗位。 傅强是北京一家科技企业的AI技术人员,他告诉记者,如今在完成工作时,已经不再“孤军奋战”,而是和…

2026-03-18

6G前沿成果扎堆亮相 湖北光通信产业崛起两大千亿级企业
如今,6G已进入技术攻坚及标准博弈关键阶段,中信科移动全面引领6G国际标准化,累计发布9本6G白皮书,申请超1200项6G专利,投资150亿元的6G产业园将于今年在武汉光谷投产运营。 在光纤光缆领域领先全球…

2026-03-18

三星新动向:Glasses智能眼镜245mAh电池曝光,Watch 9双尺寸蓄势待发
【CNMO科技消息】根据SamMobile的最新报道,三星即将推出的首款智能眼镜Galaxy Glasses以及新一代Galaxy Watch 9的电池容量信息已被披露。这款设备将成为三星的首款智能眼镜,并会…

2026-03-18