发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

DeepSeek-Prover-V2数学推理新突破,88.9%通过率引领AI新标杆!

2025-05-01来源:ITBEAR编辑:瑞雪

近日,AI 开源社区 Hugging Face 迎来了一项新成果,深度求索(DeepSeek)团队发布了名为 DeepSeek-Prover-V2-671B 的大型语言模型。与此同时,该团队还在 GitHub 等平台分享了相关论文,详细介绍了这一新模型的特性和成就。

DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源模型,其基础是 DeepSeek-V3-0324。为了生成训练所需的初始数据,团队采用了递归定理证明管道的方法。这一创新使得模型在处理复杂数学问题时,能够展现出更高的精确度和效率。

DeepSeek 团队推出了两个版本的模型:DeepSeek-Prover-V2-671B 和 DeepSeek-Prover-V2-7B。前者结合了 V3 基础大模型的优点,后者则是一个增强模型。团队还发布了 DeepSeek-ProverBench 数据集,为评估模型性能提供了有力工具。

DeepSeek-Prover-V2-671B 的架构与 DeepSeek V3-0324 相同,但其应用场景却大相径庭。这款模型并非用于常规对话或推理,而是专注于形式化定理证明,专门增强了数学能力。为了实现这一目标,团队采用了复杂的策略。

首先,他们引导 DeepSeek-V3 模型将复杂的数学定理分解为一系列子目标。这一步骤整合了非形式化与形式化数学推理,使得模型能够在 Lean 4 平台上逐步完成形式化证明。接着,团队利用一个较小的 7B 参数模型来处理这些子目标的证明搜索,从而大大减轻了计算负担。

在训练过程中,团队精心筛选了一批难题,这些难题虽然 7B 模型无法直接解决,但其子目标已被证明。通过整合这些子目标的证明,团队形成了完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成了丰富的合成数据。这些数据为模型的微调提供了坚实的基础。

随后,团队利用强化学习进一步提升模型的能力。他们以二元反馈(正确或错误)作为奖励机制,通过不断的试错和优化,使得 DeepSeek-Prover-V2-671B 在神经定理证明领域取得了显著进展。在 MiniF2F-test 数据集上,该模型的通过率达到了 88.9%,在 PutnamBench 数据集中也成功解决了 49 个问题。

为了推动模型在多样化场景下的测试与应用,DeepSeek 团队还发布了 ProverBench 基准数据集。该数据集包含了 325 个形式化数学问题,其中 15 个问题源自近期的 AIME 竞赛,涉及数论与代数等高中竞赛难度的内容。其余 310 个问题则涵盖了线性代数、微积分、概率等多个领域,为高中竞赛和本科数学提供了全面的评估标准。

厨房科技解读:格力电器以跨界技术创新完成降维打击!
10月23日,郑州黄河文化公园的炎黄二帝巨塑前,《将进酒》的剑舞刚落,另一处演示台的黄河水正通过格力净水机逐渐变清。当“黄河家宴”上三代同堂共饮净化水的那一刻,格力已然将厨房电器从功能性的硬件,重塑为维系

2025-11-13

《缔造者放逐之地》更新卡顿?三招助你快速解决更新难题
《缔造者放逐之地》作为一款深受欢迎的沙盒创造游戏,玩家在更新时常会遇到“正在更新服务”或“卡更新服务”的问题,导致无法正常进入游戏。这类问题通常与网络环境、系统缓存或文件完整性有关,下面提供三个实用的解决方…

2025-10-23

口碑佳选AI智能音箱厂盘点:深圳市道格拉斯科技凭实力与认证脱颖而出
一般来说,价格较低的产品可能在功能和音质上相对较弱,而价格较高的产品则往往具备更强大的性能和更丰富的功能。在市场上,道格拉斯科技的 AI智能音箱以其新款私模、多功能设计和高性价比受到了消费者的广泛好评。在 …

2025-10-23

LHDC-RAW重磅登场,以零压缩技术还原声音本真魅力
该等级蓝牙音频编解码支持24bit/96kH的高解析音频传输,可提供无压缩的Bit-Perfect串流,让发烧级玩家可以听到最原始、最纯净的好声音。 根据不同应用场景的音频传输需求,盛微先进将LHDC标准分级…

2025-10-23

技术驱动变革:2025年工业企业数据治理路径与社会责任平衡探索
文件内容主要围绕技术发展与应用展开讨论,强调在当前背景下,技术创新已成为推动社会进步的重要动力。 文中还涉及多个技术领域,包括人工智能、大数据分析、云计算等,并探讨了这些技术在实际场景中的应用价值与潜在问题…

2025-10-22

CTIS2025展会上kikaGo亮绝活:AI模块让传统蓝牙设备秒变同声传译神器
当用户在面临会议记录、多语种翻译、通话同声传译以及直播时,只要将AI模块插入手机接口,耳机就能摇身一变,成为现在海外市场上非常受欢迎的AI无线耳机。 为此,kikaGo团队自研了一款寄生式音频芯片,它能将通话…

2025-10-22

手机定位功能别闲置!提前注册账号,输入手机号就能知对方位置
就在慌乱中,她猛地想起我之前跟她提过一嘴的手机定位功能。很多时候,我们的家人在首次设置手机时就已经自动注册过了,你只要知道对方的账号就可以了。 所以,手机其实一直都自带定位功能,只是很多人怕麻烦从来没用过而已…

2025-10-22

iPhone 17系列销售火热,中国市场偏好不同,苹果将推eSIM快速转换功能
国内开通 iPhone Air 的 eSIM 功能需前往线下营业厅办理,但这一流程似乎并未影响消费者对这款超薄设计新机型的热情。国行iPhone Air 用户在首次线下开通 eSIM 后,未来更换设备时可直…

2025-10-21

2025中国移动全球伙伴大会广州启幕,Newline获誉并展示AI+视联网多元场景实践
日前,2025中国移动全球合作伙伴大会在广州隆重召开,大会以 “碳硅共生 合创 AI + 时代”为主题,汇聚全球通信、科技、产业领域领军力量,共探 AI 与实体经济深度融合路径。 作为中国移动重要生态伙伴,…

2025-10-21

Steam注册验证难题全攻略:从人机验证卡壳到邮箱错误,高效解决方案来了
二、分场景解决具体验证问题(一)卡在人机验证1. 优化浏览器环境:以 Chrome 为例,点击右上角三点→“更多工具→清除浏览数据”,勾选“Cookie 和缓存文件” 并清除;关闭广告拦截、油猴等插件,或…

2025-10-20