发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

DeepSeek携DeepSeek-Math-V2归来,开启自我验证数学推理新方向

2025-11-29来源:快讯编辑:瑞雪

人工智能领域迎来重大突破,DeepSeek团队近日在Hugging Face平台发布了全新数学推理模型DeepSeek-Math-V2。该模型在定理证明能力上实现质的飞跃,不仅超越了Gemini DeepThink等主流模型,更在国际数学奥林匹克竞赛(IMO)级别的测试中达到金牌标准。

研发团队在论文中指出,现有AI数学模型普遍存在"重结果轻过程"的缺陷。传统训练方式仅以最终答案正确性作为评判标准,导致模型在复杂证明题中常出现"逻辑跳跃"或"隐含假设"等问题。针对这一痛点,DeepSeek创新性地提出"自我验证"训练框架,通过构建生成器-验证器协同进化系统,使模型具备自主审查推理过程的能力。

该系统包含三个核心组件:首先训练具备专业评审能力的验证器,能对证明过程进行三级评分(1分完美、0.5分存在瑕疵、0分错误)并撰写详细评语;其次引入元验证机制,通过双重检查确保评分合理性;最后开发具备自省能力的生成器,在输出答案时必须同步进行自我评估,诚实指出潜在错误。这种设计形成闭环训练体系,使模型在不断自我修正中提升推理严谨性。

实验数据显示,DeepSeek-Math-V2在多项权威基准测试中表现卓越。在包含60道证明题的IMO-ProofBench测试集中,基础子集得分接近99%,显著领先其他模型;在高级子集虽略逊于Gemini DeepThink,但已达到IMO金牌选手水平。更令人瞩目的是,该模型在Putnam 2024数学竞赛测试中取得118/120的接近满分成绩,刷新了AI数学解题纪录。

技术实现层面,研究团队突破传统强化学习框架,不再依赖答案正确性作为唯一奖励信号。通过构建验证器与生成器的协同进化机制,模型在训练过程中自动生成高难度样本,形成"以战养战"的持续提升模式。这种创新方法不仅减少了对人工标注数据的依赖,更有效抑制了大模型的幻觉问题,使推理过程具备可解释性。

该成果在学术界引发广泛关注。专家指出,DeepSeek-Math-V2的自我验证框架为AI数学推理开辟了新方向,其过程导向的训练方法有望推广至物理、计算机科学等需要严格证明的领域。目前研究团队已公开模型代码和论文,供全球研究者共同探索可验证推理的更多可能性。

星链:以全产业链整合重塑卫星互联网格局,赋能全球偏远地区网络覆盖
通信世界网消息(CWW)星链(Starlink)作为美国SpaceX公司旗下的低地球轨道(LEO)卫星互联网计划,自2015年启动以来,以“构建全球无缝宽带网络”为使命,重新定义了卫星通信行业的技术边界与商业…

2025-11-29

三星AR眼镜新专利亮相:双轴铰链与滑轮设计,舒适平衡再升级
这一型号的前缀“SM-O”与 Galaxy XR 头显的“SM-I”前缀明显不同,暗示三星在内部产品线划分中将其视为一个独立的全新类别。Galaxy XR 主打深度沉浸式体验,但其相对笨重的结构可能限制用户…

2025-11-29