牛津大学揭秘大型语言模型“深度诅咒”，层归一化缩放技术成破解关键-产业经济-发现者网

在人工智能领域，一项由牛津大学刘世伟教授领衔的国际合作研究近日引起了广泛关注。该研究联合了西湖大学、埃默里大学、大连理工大学及萨里大学等多家顶尖学府，其突破性成果已于2025年7月发表于人工智能领域的权威期刊上。论文题为《大型语言模型中的深度困境》，感兴趣的读者可访问arXiv:2502.05795v2获取全文。

该研究深入探讨了当前最先进的大型语言模型（例如ChatGPT、Claude等）在训练过程中的一个奇特现象：模型层次越深，后续层级的重要性反而越小。为了形象地说明这一问题，研究团队将其比喻为一座智慧大楼，其中每一层本应各司其职，共同为最终智能输出贡献力量。然而，他们惊人地发现，大楼的上半部分“工匠”几乎在消极怠工，即便移除这些层级，模型的整体表现也几乎不受影响。

为了验证这一现象的普遍性，研究团队选取了当前流行的多个大型语言模型家族作为测试对象，包括Llama、Mistral、DeepSeek和Qwen系列。他们巧妙地设计了一系列实验，通过逐一移除模型的不同层级，观察并记录模型性能的变化。实验结果令人震惊：移除深层的多个层级后，模型的表现几乎未受影响，甚至在某些情况下略有提升；相反，移除浅层的任何一层都会导致模型性能显著下降。

研究团队将这一奇特现象命名为“深度困境”。这一名称形象地揭示了当前大型语言模型训练中的一个根本矛盾：尽管我们投入了大量计算资源来训练更深的模型，期望获得更强的能力，但实际上，越深的层级对模型的贡献越小，仿佛被某种无形的困境所束缚。

为了深入理解这一现象，研究团队进一步分析了层与层之间表示的相似性。他们利用角度距离这一数学工具来测量不同层级的输出相似性。结果表明，在深层网络中，相邻层级的输出几乎完全相同，这意味着这些层级只是在重复前面层级的工作，没有产生任何新的有用信息。

研究团队还对比了两种不同的网络架构设计：现代大型语言模型普遍采用的“前置层归一化”（Pre-LN）与较早模型使用的“后置层归一化”（Post-LN）。通过对比实验，他们发现采用Pre-LN的模型更容易出现深度困境现象，而采用Post-LN的模型则表现出相反的趋势：深层比浅层更重要。这一发现为理解深度困境的根源提供了重要线索。

为了揭示深度困境的理论根源，研究团队深入探讨了Pre-LN架构的工作原理。他们发现，在Pre-LN架构中，随着网络层数的增加，输出的方差会呈指数级增长。这种增长导致深层网络的梯度趋近于单位矩阵，使得这些层级几乎变成了“透明层”，没有进行任何有意义的转换。为了直观理解这一概念，研究团队用烹饪过程进行了类比：如果后续步骤只是简单的“保温”操作，那么无论进行多少步骤，最终的味道都不会有太大变化。

面对这一棘手问题，研究团队提出了一个简洁而有效的解决方案：层归一化缩放（LNS）。这一方法的核心思想是通过给每一层的输出乘以一个与层深度相关的缩放因子来控制方差的增长。缩放因子等于当前层深度的平方根的倒数，即1/√l，其中l为层的索引。这种设计确保了每一层都能发挥其应有的作用，避免了深层网络的“偷懒”现象。

为了验证LNS的有效性，研究团队进行了大规模的实验验证。实验涵盖了从小型模型到大型模型的各种规模，结果显示LNS在所有测试规模上都显著优于传统的归一化方法。特别是在工业级别的训练规模下，LNS仍然表现出显著的性能提升。

研究团队还进行了下游任务的微调实验。他们使用Commonsense170K数据集在八个不同的推理任务上测试了经过LNS预训练的模型。结果显示，使用LNS预训练的模型在微调后的表现也明显优于传统方法。这表明LNS不仅改善了预训练效果，还增强了模型的通用学习能力。

为了深入理解LNS的工作机制，研究团队还进行了详细的分析实验。他们验证了LNS确实能够有效控制输出方差，并分析了LNS对层间表示多样性的影响。实验结果表明，LNS成功地让每一层都发挥了应有的作用，提高了模型的整体性能。

LNS的实现既简单又巧妙。它不需要引入额外的可学习参数或调整任何超参数，只需在每个层归一化操作的输出后乘以相应的缩放因子即可。这种设计既保持了Pre-LN的训练稳定性优势，又解决了深层网络效果不佳的问题。

值得注意的是，研究团队还发现LNS与某些初始化策略可能存在冲突。他们建议在使用LNS时移除缩放初始化以获得最佳性能提升。研究团队还将LNS应用到视觉Transformer中进行了初步探索，发现LNS的具体实现可能需要根据不同的模型架构和任务进行调整。

这项研究的实际应用价值巨大。当前训练大型语言模型需要消耗大量计算资源和能源，而深度困境意味着其中相当一部分投资实际上是浪费的。LNS的引入能够提高训练效率和最终性能，降低计算成本。

对于工业界来说，这意味着在相同的计算预算下可以获得更好的模型性能，或者在保持性能不变的情况下显著降低计算成本。考虑到大型语言模型的训练成本高昂，这种效率提升的经济价值不言而喻。

对于研究界来说，这项工作开启了重新审视现有架构设计的新视角。它表明，即使是被广泛采用的设计选择也可能存在根本性缺陷，需要更深入的理论分析来发现和解决。研究团队的工作为未来模型架构的设计提供了重要指导，强调了在追求更深、更大的模型时，必须仔细考虑深度对模型行为的影响。

企业禁用无线网卡攻略：三种方法详解，第二种助企业高效管控风险

对于中大型企业或对数据安全要求高的单位，域智盾终端安全管理系统提供了更智能、更彻底、更可追溯的无线网卡管控方案。在Windows专业版或企业环境中，IT人员可以用系统自带的组策略（Group Policy…

2025-11-15

蓝牙耳机被他人连接别慌！三招轻松夺回“控制权”

当发现耳机被别人连接时，最直接的解决方法是重置连接。操作很简单：先打开你的手机蓝牙设置，找到已配对的耳机名称，选择“忽略此设备”或“取消配对”。最后，在手机蓝牙列表中找到你的耳机并重新点击连接即可。这个操作…

2025-11-15

Gartner发布2026十大技术趋势：AI主导变革，从“大而全”迈向“精而实”

近日，商业与技术洞察公司Gartner发布了2026年十大战略技术趋势：AI超级计算平台、多智能体系统、特定领域语言模型、AI安全平台、AI原生开发平台、机密计算、物理AI、前置式主动网络安全、数字溯源，以及…

2025-11-14

工业通信新选择：环网交换机如何以冗余设计保障现场数据稳定传输

每个交换机上有两个用于组环的端口（网口），交换机之间通过手拉手形式构成了环形的网络拓扑。我们设计的千兆工业交换机整体设计采用“凹陷”网口设计，外观上和普通交换机大有差别，将网线水晶头能够有力的支撑保护住。 …

2025-11-14

安科瑞ASCB3-80m智能微断：全参量监测+远程操控，筑牢低压配电安全防线

智能微型断路器配合智能网关使用，对用电线路的关键电气参数，如电压、电流、功率、温度、漏电、能耗等进行实时监测，具有远程操控、异常预警、事故跳闸告警、电能计量统计、故障定位等功能。ASCB3-80m 系列智能…

2025-11-14

技嘉B860M冰雕主板深度评测：千元价位与酷睿Ultra的完美搭档

XMP AI Boost的DDR5-8200 CL40挡位也能够顺利开启，再叠加上高带宽、低延迟功能的性能加成之后，内存性能继续得到提升，但写入性能基本上是到顶了，主要是受限于B860芯片组主板无法调整CP…

2025-11-14

杭州上城第三批50个“人工智能+”场景发布涵盖多领域促发展

杭州市上城区近日举办了一场聚焦“人工智能+”机会场景的发布会，同时举行了场景供需对接活动。会上，50个具有高价值的创新应用场景集中亮相，覆盖社会治理、金融服务、民生服务、城市管理、智能建造、文化旅游、时尚消费等多个领域，展现了人工智能技术在城市发展中的深度融合与创新应用。

2025-11-14

中关村房山园科技对接会：昆虫机器人等“硬核”成果亮相，助力新质生产力

11月12日，中关村“火花”活动之北京理工大学专场对接会暨中关村房山园新质生产力发布厅科技成果转化对接活动在中关村新兴产业前沿技术研究院举行，极限搜救昆虫机器人、通信感知超宽带收发芯片等一批来自北京理工大学、…

2025-11-14

谷歌AI新动作与苹果不谋而合

在人工智能技术飞速发展的当下，苹果公司在AI领域的表现始终是行业关注的焦点。近期有观点认为，这家科技巨头在生成式AI浪潮中显得步伐迟缓，但深入分析后会发现，苹果正在隐私保护与技术创新之间走出一条独特的道路。

2025-11-13

昕锐CL系列激光测距模块：定制化驱动低空经济场景变革新引擎

结语：定制化，是技术普惠的终极路径当测距模块从“标准化商品”进化为“场景化服务”，昕锐CL系列不仅解决了无人机与吊舱的“精准降本”难题，更重新定义了技术与需求的关系：技术突破的价值，不在于参数的堆砌，而在于…

2025-11-13