网易首页 > 网易号 > 正文 申请入驻

DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆

0
分享至

IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。

IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三折甩卖没人要!曾经的中产鞋王,如今成了智商税代名词

三折甩卖没人要!曾经的中产鞋王,如今成了智商税代名词

青眼财经
2025-12-31 18:55:30
2026养老金还要涨?官方释放信号!不按工龄涨了?有个误区要知道

2026养老金还要涨?官方释放信号!不按工龄涨了?有个误区要知道

猫叔东山再起
2026-01-14 10:15:03
伴郎破坏婚礼后续:新娘发声,男子正脸被扒,新郎做法令人失望

伴郎破坏婚礼后续:新娘发声,男子正脸被扒,新郎做法令人失望

青梅侃史啊
2026-01-13 08:53:07
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
董路:邝兆镭在西班牙拿不到参赛证,将回国加盟深圳新鹏城

董路:邝兆镭在西班牙拿不到参赛证,将回国加盟深圳新鹏城

懂球帝
2026-01-14 09:25:40
北京这一夜:王楚钦引全场尖叫,被金晨的嘴吓到,巩俐生图赢麻了

北京这一夜:王楚钦引全场尖叫,被金晨的嘴吓到,巩俐生图赢麻了

娱乐圈笔娱君
2026-01-14 11:26:56
伊朗军队司令:伊朗作战能力较以伊冲突前明显增强

伊朗军队司令:伊朗作战能力较以伊冲突前明显增强

财联社
2026-01-13 22:38:42
破案了!终于搞明白,李亚鹏的嫣然天使儿童医院为什么开不下去了

破案了!终于搞明白,李亚鹏的嫣然天使儿童医院为什么开不下去了

乐悠悠娱乐
2026-01-14 10:42:33
试驾特斯拉Model Y L:乘坐体验有明显槽点,硬核驾控超然脱俗

试驾特斯拉Model Y L:乘坐体验有明显槽点,硬核驾控超然脱俗

驾仕派
2026-01-14 12:14:33
远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

晓艾故事汇
2025-01-09 22:01:49
大结局要来?俄军终于想明白,炸军工厂不如炸电厂,基辅陷入黑暗

大结局要来?俄军终于想明白,炸军工厂不如炸电厂,基辅陷入黑暗

科普100克克
2026-01-14 17:20:27
忘本早有预兆!闫学晶和前夫离婚真相被曝:出名后看上大款,飘了

忘本早有预兆!闫学晶和前夫离婚真相被曝:出名后看上大款,飘了

削桐作琴
2026-01-13 19:11:21
明抢5000万桶石油后,特朗普转头才发现:中国连一桶都不肯买了

明抢5000万桶石油后,特朗普转头才发现:中国连一桶都不肯买了

井普椿的独白
2026-01-14 21:03:07
1950年,无锡一位带8个娃的母亲走投无路,给毛主席写了封信:我是您恩师的儿媳妇

1950年,无锡一位带8个娃的母亲走投无路,给毛主席写了封信:我是您恩师的儿媳妇

清风鉴史
2026-01-04 23:43:12
A股:市场下跌原因找到了,受两方面影响,也是利好,明天如何走?

A股:市场下跌原因找到了,受两方面影响,也是利好,明天如何走?

深析古今
2026-01-14 17:05:36
英超最强双子星诞生!利物浦2亿欧组合爆发,未来十年争冠无忧

英超最强双子星诞生!利物浦2亿欧组合爆发,未来十年争冠无忧

锐评利物浦
2026-01-13 23:40:37
去了北京才发现:没人穿大衣、皮草,满大街都是“海淀风3件套”

去了北京才发现:没人穿大衣、皮草,满大街都是“海淀风3件套”

小虎新车推荐员
2026-01-13 11:24:22
青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

学申论的谈妹
2026-01-14 13:07:56
32国联盟已经增兵,军舰2路进逼中国,中方74岁老将出马,以1对多

32国联盟已经增兵,军舰2路进逼中国,中方74岁老将出马,以1对多

井普椿的独白
2026-01-14 20:47:35
青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

Mr王的饭后茶
2026-01-13 21:03:08
2026-01-14 21:36:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
324557文章数 606879关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

国企领导超83%赃款来自境外:钱藏在10个国家和地区

头条要闻

国企领导超83%赃款来自境外:钱藏在10个国家和地区

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

涉嫌垄断!市场监管总局对携程立案调查

汽车要闻

曝Model Y或降到20万以内!

态度原创

教育
时尚
旅游
公开课
军事航空

教育要闻

多图直击:北京各小学让孩子在“乐”中“考”出未来素养

比变老更可怕的是不会穿!中年女人掌握4个技巧,优雅不费力

旅游要闻

横沔公园成新晋网红打卡点,浦东5座新公园新年齐亮相

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美再发安全警告 敦促美公民立即离开伊朗

无障碍浏览 进入关怀版