网易首页 > 网易号 > 正文 申请入驻

刚刚!DeepSeek-Prover-V2 技术细节公布,附论文

0
分享至

大家好,我是 Ai 学习的老章

DeepSeek 一贯的作风,先敲不作声放出模型文件,随后才公布技术细节。

1 小时前,DeepSeek 在其 GitHub 账号放出了部分技术文档和论文

1. 引言:形式化推理的挑战与 DeepSeek 的方案

DeepSeek-Prover-V2 是一个开源的大型语言模型,专为 Lean 4 形式化定理证明而设计。该模型的初始化数据是通过 DeepSeek-V3 驱动的递归定理证明流程收集而来。其冷启动训练过程始于提示 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为思维链过程,结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非形式化和形式化数学推理整合到一个统一的模型中。

DeepSeek-Prover-V2 正是为了应对这一挑战而生,其核心创新在于:

  • 结合非形式化与形式化推理:利用强大的基础模型 (DeepSeek-V3) 进行初始的非形式化推理(如生成证明思路、分解问题),然后将其与严谨的形式化证明步骤相结合。

  • 强化学习优化:通过强化学习,特别是利用子目标分解的策略,进一步提升模型在形式化证明构建中的能力。

2. 核心技术:递归证明搜索与强化学习

DeepSeek-Prover-V2 的训练过程独具特色,主要包含两个阶段:

a) 冷启动数据合成 (Synthesize Cold-Start Reasoning Data)

  • 递归证明流水线:团队开发了一个简洁有效的递归定理证明流水线。首先,利用 DeepSeek-V3 将复杂的定理分解为高级别的证明草图(Proof Sketches)和一系列子目标(Subgoals)。

  • 子目标证明:为了降低计算成本,使用一个较小的 7B 参数模型来处理每个子目标的证明搜索。

  • 数据合成:当一个复杂问题的所有子目标都被解决后,将完整的、逐步的形式化证明(由子目标证明组合而成)与 DeepSeek-V3 生成的相应思维链(Chain-of-Thought, CoT,包含高级证明思路和引理分解)配对,形成用于模型初始训练的“冷启动”推理数据。这一过程巧妙地将非形式化的解题思路与形式化的证明步骤融为一体。

b) 基于合成数据的强化学习 (Reinforcement Learning with Synthetic Cold-Start Data)

  • 筛选挑战性问题:选取一部分对于 7B 模型来说端到端无法解决、但其所有分解子目标都已被成功证明的难题。

  • 数据增强:将这些难题的完整形式化证明(由子目标证明拼接而成)附加到 DeepSeek-V3 对应的 CoT 后面,生成更丰富的训练数据。

  • 强化学习微调:在冷启动数据上进行初步微调后,采用强化学习进一步优化模型。奖励信号主要采用二元反馈(证明正确或错误),目标是增强模型连接非形式化推理和形式化证明构建的能力。

3. 模型与性能

DeepSeek-Prover-V2 发布了两个尺寸的模型:

  • DeepSeek-Prover-V2-7B:基于 DeepSeek-Prover-V1.5-Base 构建,上下文长度扩展至 32K tokens。

  • DeepSeek-Prover-V2-671B:基于 DeepSeek-V3-Base 训练。

性能方面,DeepSeek-Prover-V2-671B表现出色,达到了当前神经定理证明领域的 SOTA (State-of-the-Art) 水平:

  • MiniF2F-test数据集上达到88.9%的通过率。

  • 解决了PutnamBench数据集中 658 个问题中的49个。

团队还公开了模型在 miniF2F 数据集上生成的证明,可供下载研究:minif2f-solutions.zip[1]

模型文件:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

为了更全面地评估模型在不同难度数学问题上的能力,团队还推出了ProverBench基准测试集,包含 325 个问题:

  • 15 个 AIME 问题:来自近两年的美国数学邀请赛 (AIME 24, 25) 的数论和代数题目,代表了真实的高中竞赛水平挑战。

  • 310 个教科书/教程问题:来自精选的教科书案例和教育教程,提供了多样化且具有教学意义的形式化数学问题。

ProverBench 旨在覆盖从高中竞赛到本科水平的数学问题,为形式化推理模型的评估提供了更丰富的视角。

ProverBench 数据集地址:https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench[2]

5. 如何开始使用 DeepSeek-Prover-V2

用户可以直接通过 Hugging Face 的transformers库来使用 DeepSeek-Prover-V2 进行推理。

  • 模型下载:

    • 7B 模型: https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B [3]

    • 671B 模型: https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B [4]

  • 架构说明:DeepSeek-Prover-V2-671B 与 DeepSeek-V3 共享相同架构,详细信息可参考 Hugging Face 上的 DeepSeek-V3 文档 [5] 。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

参考资料

minif2f-solutions.zip: https://github.com/deepseek-ai/DeepSeek-Prover-V2/raw/master/minif2f-solutions.zip

https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench: https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B: https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B: https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

[5]

Hugging Face 上的 DeepSeek-V3 文档: https://github.com/huggingface/transformers/blob/main/docs/source/en/model_doc/deepseek_v3.md

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联合国会场突发尖锐交锋!以外长当众嘲讽俄大使:我差点笑出声

联合国会场突发尖锐交锋!以外长当众嘲讽俄大使:我差点笑出声

老马拉车莫少装
2026-02-20 05:38:21
河南籍任鲁豫晒春晚主持人台本,配文“最后一本留个纪念”引网友猜测是否是其最后一届春晚,至今已主持11届,被称为“春晚定海神针”

河南籍任鲁豫晒春晚主持人台本,配文“最后一本留个纪念”引网友猜测是否是其最后一届春晚,至今已主持11届,被称为“春晚定海神针”

极目新闻
2026-02-21 10:07:05
64岁河北农妇治病欠下巨款,儿女取出红本求助政府,直接惊动军委

64岁河北农妇治病欠下巨款,儿女取出红本求助政府,直接惊动军委

叹为观止易
2026-02-20 13:41:10
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
难顶,广州多家设计院开始只发基本工资!

难顶,广州多家设计院开始只发基本工资!

黯泉
2026-02-20 21:18:12
霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

余們搞笑段子
2026-02-11 11:32:09
第一集就要打码,这部新剧太炸裂了

第一集就要打码,这部新剧太炸裂了

天天美剧吧
2026-02-20 17:58:59
泽连斯基的日常:凌晨3点开工、靠黑咖啡硬撑!战争让他容貌巨变

泽连斯基的日常:凌晨3点开工、靠黑咖啡硬撑!战争让他容貌巨变

老马拉车莫少装
2026-02-21 00:16:58
听说这届年轻人流行“断亲”过年……

听说这届年轻人流行“断亲”过年……

农民日报
2026-02-20 15:07:48
4分1篮板1盖帽!杨瀚森新年首秀一言难尽,扣篮不中&4罚0中很罕见

4分1篮板1盖帽!杨瀚森新年首秀一言难尽,扣篮不中&4罚0中很罕见

球盲姐
2026-02-21 13:55:10
爱泼斯坦在巴黎的帝国,全靠这个女人一手打造?

爱泼斯坦在巴黎的帝国,全靠这个女人一手打造?

新欧洲
2026-02-20 20:12:38
太可恶!我们给予加拿大公民免签待遇,加拿大却建议谨慎前往中国

太可恶!我们给予加拿大公民免签待遇,加拿大却建议谨慎前往中国

我心纵横天地间
2026-02-20 23:06:09
特朗普:将在常规关税基础上对全球商品加征10%关税

特朗普:将在常规关税基础上对全球商品加征10%关税

财联社
2026-02-21 02:58:06
中美被爆黄海对峙,不到24小时,特朗普发声:中国阵容太强大了

中美被爆黄海对峙,不到24小时,特朗普发声:中国阵容太强大了

现代小青青慕慕
2026-02-21 10:25:25
自己在家养发半年:头发越来越多,白的越来越少,我做对了3件事

自己在家养发半年:头发越来越多,白的越来越少,我做对了3件事

君笙的拂兮
2026-01-28 16:47:18
第30胜!希罗复出24分热火31分大胜老鹰 杰伦16+16+11

第30胜!希罗复出24分热火31分大胜老鹰 杰伦16+16+11

醉卧浮生
2026-02-21 10:46:55
仅看人均GDP就判定台湾生活水平高于大陆?问题没那么简单

仅看人均GDP就判定台湾生活水平高于大陆?问题没那么简单

观察者网
2026-02-21 08:27:48
《夜王》在香港卖疯了?看完全片,我敢说:黄子华拍出春节档黑马

《夜王》在香港卖疯了?看完全片,我敢说:黄子华拍出春节档黑马

小丸子的娱乐圈
2026-02-20 21:06:29
美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

美媒感慨:若不是中国还在反抗特朗普,几乎全世界都向他投降了

时尚的弄潮
2026-02-21 05:34:26
场均19+10!前火箭队主力中锋发声:愿重返联盟!申京曾是他替补

场均19+10!前火箭队主力中锋发声:愿重返联盟!申京曾是他替补

熊哥爱篮球
2026-02-21 12:28:36
2026-02-21 14:28:49
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3248文章数 11088关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

夫妇捡到装20多个红包帆布袋:4个孩子7万多的压岁钱

头条要闻

夫妇捡到装20多个红包帆布袋:4个孩子7万多的压岁钱

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

游戏
亲子
教育
房产
公开课

老任意外泄露重磅消息!《DOOM黑暗时代》或登NS2

亲子要闻

假期怎么玩才能不惹爸妈生气?

教育要闻

一个教师的2026年“不做清单”

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版