AlphaGo核心负责人戴维·席尔瓦创业：绕开大模型，以强化学习叩响超级智能之门-汽车出行-发现者网

前谷歌DeepMind首席科学家、AlphaGo项目核心负责人戴维·席尔瓦（David Silver）近日宣布在伦敦创立人工智能公司"Ineffable Intelligence"，并启动规模达10亿美元的种子轮融资。这一融资规模与OpenAI前首席科学家伊利亚·苏茨克维（Ilya Sutskever）2024年创立Safe Superintelligence（SSI）时持平，标志着AI领域新一轮技术路线竞争的开启。

与当前主流的大语言模型（LLM）技术路径不同，席尔瓦提出要"回归强化学习本质"。他主张构建完全自主的智能系统，通过与环境交互积累经验，而非依赖人类标注的文本数据。这一理念源于其2025年4月与导师查理·萨顿（Charlie Sutton）联合发表的论文《欢迎来到经验时代》，论文强调智能体应通过持续试错实现自我进化。

作为强化学习领域的标志性人物，席尔瓦的学术影响力显著。其论文被引用超28万次，2019年获得的ACM计算奖印证了他在该领域的技术权威性。更引人注目的是，他主导开发的AlphaGo、AlphaZero和MuZero等系统，已验证强化学习在规则明确环境中的突破性潜力——AlphaZero仅用三天自我对弈就超越人类千年围棋经验，MuZero更在完全不知规则的情况下掌握多类游戏策略。

技术路线的分歧正在重塑AI产业格局。当前主流模型如GPT系列和Gemini系列，均采用"预训练+微调"范式，通过海量文本数据学习语言规律。但席尔瓦指出，这种路径存在根本性局限：AI的能力上限被人类标注数据的质量和数量所束缚。他特别批评了依赖人类反馈强化学习（RLHF）的后训练方式，认为这导致模型认知水平无法超越人类评估员。

Ineffable Intelligence的愿景是打造"持续学习的超级智能"。知情人士透露，该公司计划开发能通过模拟环境自我博弈的系统，从基础原理推导问题解决方案。这种技术路线在AlphaGo与李世石对决中已现端倪——第37手看似违背所有已知定式，实则是AI通过计算发现的人类未知规律，这种"不可言说"的智慧正是公司名称的由来。

资本市场对席尔瓦的押注反映了对"后大模型时代"的技术期待。接近交易的投资人表示，10亿美元融资主要基于两点：席尔瓦在DeepMind期间证明的技术转化能力，以及强化学习在复杂决策场景中的潜在突破。但质疑声同样存在：现实世界存在规则模糊、反馈稀疏等挑战，强化学习在此类环境中的有效性尚未得到充分验证。

AI领域正经历路线分化。除席尔瓦外，参与AlphaGo项目的部分科学家近期创立了Reflection AI，meta则在杨立昆带领下重组"超级智能实验室"探索新架构。这种局面被行业观察家比作2010年代深度学习爆发前的技术探索期——当时主流方法尚未收敛，不同学派在竞争中推动技术跃迁。

目前，Ineffable Intelligence已在伦敦组建核心团队，并启动全球强化学习专家的招募计划。尽管尚未公布产品路线图，但该公司对算力资源的巨额投入，预示其可能构建超大规模的数字孪生系统进行AI训练。这场由技术理念差异引发的产业变革，或将重新定义通用人工智能（AGI）的发展路径。