发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

翁荔最新长文深度剖析:AI行业奉为圭臬的缩放定律,应用需谨慎

2026-06-29来源:快讯编辑:瑞雪

前OpenAI安全研究副总裁、Thinking Machines Lab联合创始人翁荔(Lilian Weng)在个人技术博客Lil'Log上发表了题为《Scaling Laws, Carefully》的长文,对深度学习领域的核心经验规律——缩放定律进行了系统性梳理。这篇约两万字的文章不仅回顾了缩放定律的发展历程,更以审慎态度指出其在实际应用中存在的潜在陷阱,引发行业广泛关注。

缩放定律的核心发现是:模型规模(参数量N)、数据集规模(Token数D)和计算量(FLOPs,C)的增加会导致训练损失按幂律持续下降,在log-log坐标系中表现为近似直线。这一规律使研究者能够通过小规模实验拟合曲线,进而预测大规模模型的资源需求,成为大模型预训练阶段的关键规划工具。翁荔将缩放定律的发展分为三个阶段:1992年Amari等人利用贝叶斯框架推导出学习曲线的理论奠基;2017年Hestness等人在机器翻译、图像分类等任务中验证泛化误差与数据规模的幂律关系;2020年Kaplan等人首次系统建立语言模型的缩放定律,提出"优先扩大模型规模"的最优缩放关系。

2022年Hoffmann等人发表的Chinchilla论文对Kaplan的结论提出修正。通过固定模型变数据、IsoFLOP分析和参数化拟合三种方法,他们发现模型规模与训练数据应近似同比例增长。实验显示,在相同计算预算下,70B参数、1.4T Token的Chinchilla模型性能全面超过280B参数、300B Token的Gopher模型。这一结果揭示了当时大语言模型普遍存在"训练不足"的问题。翁荔指出,两篇论文看似矛盾,实则源于实验规模差异和参数统计口径不同——Kaplan排除了Token embedding参数,而Chinchilla采用全部参数。2024年Pearce和Song的研究证明,将嵌入层参数纳入计算后,两条缩放曲线可实现统一。

随着高质量训练数据逐渐逼近上限,"数据墙"问题日益凸显。翁荔重点介绍了两项应对研究:2023年Muennighoff等人提出将训练Token拆分为唯一Token数和重复次数,发现重复数据收益呈指数衰减;2026年Lovelace等人则在缩放公式中加入过拟合惩罚项,揭示模型规模越大对重复数据越敏感。这些研究为数据受限条件下的缩放定律提供了新方向,但其理论机制仍待完善。

文章通过Besiroglu等人2024年对Chinchilla方法的复现工作,揭示了缩放定律对实现细节的敏感性。原论文采用L-BFGS-B优化器进行参数拟合,但因目标函数数值尺度过小导致优化提前停止;公开数据仅保留两位有效数字也增加了拟合误差。这些细节最终导致最优模型规模与数据配比的预测出现偏移。翁荔在文中嵌入交互式模拟工具,展示损失精度、噪声水平等参数如何影响缩放曲线和资源预测结果。

当前,缩放定律已成为指导行业资源规划的核心工具。OpenAI、Anthropic等前沿实验室依赖其预测下一代模型的训练成本、参数规模和数据需求。一个Frontier Model的训练成本往往高达数十亿美元,缩放定律的预测能力直接关系到资源配置效率和模型路线合理性。翁荔强调,缩放定律的可靠性取决于对模型参数定义、损失函数拟合、实验规模区间和训练数据假设的充分理解。她通过系统分析不同研究间的分歧与修正,提醒行业在应用缩放定律时需谨慎评估其适用范围和局限性。

AI助力解锁千年古卷之谜:机器学习让被火山灰掩埋的赫库兰尼姆智慧重现
这是目前已完成完整虚拟展开的赫库兰尼姆卷轴中最古老的一卷,探讨了伦理、艺术和人类行为。 在这次成果突破后,维苏威挑战赛设立了一个新奖项:任何个人或团队,只要能在未来一年内完整解读一份赫库兰尼姆维苏威古卷轴,即…

2026-06-29

OpenAI携手Broadcom推出Jalapeno芯片 专为数据中心大语言模型推理量身定制
作为ChatGPT和Codex等产品的背后推手,该公司致力于掌控其模型与产品所依赖的完整技术栈,从而降低对英伟达等外部供应商的依赖,并通过垂直整合在性能或效率上获得潜在优势。 A:根据OpenAI和Broad…

2026-06-28

党彦宝亮相2026夏季达沃斯,畅谈材料创新与AI赋能煤基材料新未来
党彦宝讲到,材料是引领时代变革和推动社会发展的重要支撑,要从市场、科研、成本三个维度系统发力,才能全方位重塑产业发展底座。绿色化研发往往伴随成本上升的现实挑战,实现科研创新与成本可控的有机平衡,是必须破解的…

2026-06-28

共启AI Token新生态:中国电信国际伙伴大会聚力,共绘全球智能新蓝图
本次大会标志着OneGrowth全球合作计划完成了从生态搭建到细分赛道深耕的战略进阶,中国电信将持续发挥云网融合、跨境广覆盖的独特优势,秉持“共创、共享、共治、共赢”核心合作理念,筑算力根基、拓云网骨干、创…

2026-06-28