发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

AlphaGo核心负责人戴维·席尔瓦创业:绕开大模型,以强化学习叩响超级智能之门

2026-02-21来源:快讯编辑:瑞雪

前谷歌DeepMind首席科学家、AlphaGo项目核心负责人戴维·席尔瓦(David Silver)近日宣布在伦敦创立人工智能公司"Ineffable Intelligence",并启动规模达10亿美元的种子轮融资。这一融资规模与OpenAI前首席科学家伊利亚·苏茨克维(Ilya Sutskever)2024年创立Safe Superintelligence(SSI)时持平,标志着AI领域新一轮技术路线竞争的开启。

与当前主流的大语言模型(LLM)技术路径不同,席尔瓦提出要"回归强化学习本质"。他主张构建完全自主的智能系统,通过与环境交互积累经验,而非依赖人类标注的文本数据。这一理念源于其2025年4月与导师查理·萨顿(Charlie Sutton)联合发表的论文《欢迎来到经验时代》,论文强调智能体应通过持续试错实现自我进化。

作为强化学习领域的标志性人物,席尔瓦的学术影响力显著。其论文被引用超28万次,2019年获得的ACM计算奖印证了他在该领域的技术权威性。更引人注目的是,他主导开发的AlphaGo、AlphaZero和MuZero等系统,已验证强化学习在规则明确环境中的突破性潜力——AlphaZero仅用三天自我对弈就超越人类千年围棋经验,MuZero更在完全不知规则的情况下掌握多类游戏策略。

技术路线的分歧正在重塑AI产业格局。当前主流模型如GPT系列和Gemini系列,均采用"预训练+微调"范式,通过海量文本数据学习语言规律。但席尔瓦指出,这种路径存在根本性局限:AI的能力上限被人类标注数据的质量和数量所束缚。他特别批评了依赖人类反馈强化学习(RLHF)的后训练方式,认为这导致模型认知水平无法超越人类评估员。

Ineffable Intelligence的愿景是打造"持续学习的超级智能"。知情人士透露,该公司计划开发能通过模拟环境自我博弈的系统,从基础原理推导问题解决方案。这种技术路线在AlphaGo与李世石对决中已现端倪——第37手看似违背所有已知定式,实则是AI通过计算发现的人类未知规律,这种"不可言说"的智慧正是公司名称的由来。

资本市场对席尔瓦的押注反映了对"后大模型时代"的技术期待。接近交易的投资人表示,10亿美元融资主要基于两点:席尔瓦在DeepMind期间证明的技术转化能力,以及强化学习在复杂决策场景中的潜在突破。但质疑声同样存在:现实世界存在规则模糊、反馈稀疏等挑战,强化学习在此类环境中的有效性尚未得到充分验证。

AI领域正经历路线分化。除席尔瓦外,参与AlphaGo项目的部分科学家近期创立了Reflection AI,meta则在杨立昆带领下重组"超级智能实验室"探索新架构。这种局面被行业观察家比作2010年代深度学习爆发前的技术探索期——当时主流方法尚未收敛,不同学派在竞争中推动技术跃迁。

目前,Ineffable Intelligence已在伦敦组建核心团队,并启动全球强化学习专家的招募计划。尽管尚未公布产品路线图,但该公司对算力资源的巨额投入,预示其可能构建超大规模的数字孪生系统进行AI训练。这场由技术理念差异引发的产业变革,或将重新定义通用人工智能(AGI)的发展路径。

苹果卫星手机壳来袭!iPhone户外远洋也能畅连,开启天地一体通信新篇
这款专为iPhone 16系列与iPhone 17系列打造的外置卫星通信配件,并非简单的应急求救工具,而是实现了全场景卫星通话、卫星短信以及低速卫星上网功能,真正让iPhone在没有地面基站覆盖的沙漠、高原、…

2026-02-20

我国科学家攻克“带宽鸿沟” 6G与光通信融合系统刷新传输速率纪录
我国科学家近日在光通信和6G领域取得突破性进展,在国际上率先实现光纤通信和无线通信系统间的跨网络融合,自主研发的“光纤—无线一体化融合通信系统”的数据传输速率刷新纪录。王兴军表示, 新系统在6G基站、无线…

2026-02-20