网易首页 > 网易号 > 正文 申请入驻

藏师傅代理一图帮了解 DeepSeek 新模型!

0
分享至

Deepseek 放出了 DeepSeek-Prover-V2 的详细论文

藏师傅做了 DeepSeek-Prover-V2 一图流帮你了解这个模型

详细总结分析一下:

Prover-V2 是一个专为 Lean 4 形式化定理证明设计的开源大型语言模型。
其核心目标是利用强化学习进行子目标分解,从而提升形式化数学推理能力。

核心方法与创新:

1️⃣递归定理证明流水线:
利用通用的 DeepSeek-V3 模型将复杂问题分解为一系列子目标
DeepSeek-V3 同时生成自然语言的证明草图 和对应的 Lean 4 形式化语句框架。

2️⃣子目标解决与合成 :
使用一个较小的 7B 参数的 Prover 模型递归地解决由 DeepSeek-V3 分解出的子目标。
将已解决的子目标证明组合起来,构建原始复杂问题的完整形式化证明。

3️⃣冷启动数据生成:
将 DeepSeek-V3 生成的链式思考过程与最终合成的完整形式化证明配对。
这种方法生成了高质量的、结合了非形式化推理和形式化证明的初始训练数据。

4️⃣强化学习:
在冷启动数据微调的基础上,使用 GRPO 算法进行强化学习。
奖励机制:主要使用二元奖励(证明正确为 1,错误为 0)。在早期训练中加入一致性奖励,鼓励模型生成的证明结构与 CoT 中的子目标分解保持一致。

5️⃣课程学习:
利用分解出的子目标生成不同难度的定理,逐步增加训练任务的难度,引导模型学习。

模型与训练:

主要模型: DeepSeek-Prover-V2-671B (6710亿参数)
小型模型: DeepSeek-Prover-V2-7B (70亿参数,通过蒸馏 671B 模型的 RL 数据得到)
基础模型: DeepSeek-V3 (用于初始分解和 CoT)
训练流程:
第一阶段 (非 CoT 模式): 使用专家迭代 (Expert Iteration) 和课程学习训练非 CoT 模型,侧重于快速生成简洁的 Lean 代码,同时通过子目标分解解决难题并收集数据。
第二阶段 (CoT 模式): 使用合成的冷启动 CoT 数据进行监督微调 ,然后进行强化学习,重点提升模型的推理过程和最终证明能力。

项目地址:github.com/deepseek-ai/DeepSeek-Prover-V2



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
经济学家宋清辉:现在不是牛市,散户谨慎入市

经济学家宋清辉:现在不是牛市,散户谨慎入市

宋清辉
2025-09-19 15:03:42
已经没人敢跟他拼价格了!开“穷鬼超市”,湖南老板一年卖500亿

已经没人敢跟他拼价格了!开“穷鬼超市”,湖南老板一年卖500亿

毒sir财经
2025-09-18 16:21:12
费内巴切主席回击穆里尼奥:他说出这样的话简直自降身价

费内巴切主席回击穆里尼奥:他说出这样的话简直自降身价

雷速体育
2025-09-19 16:01:11
女子破庙避雨,见两黑蛇缠绵不休,她一把扯掉自己红肚兜

女子破庙避雨,见两黑蛇缠绵不休,她一把扯掉自己红肚兜

梦飞故事会
2024-08-03 21:13:29
内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

平祥生活日志
2025-09-19 15:09:27
老罗为什么突然闭嘴了

老罗为什么突然闭嘴了

燕梳楼频道
2025-09-16 15:52:21
为何很多割让外国的土地都被收回,唯独被俄国抢走的土地要不回来

为何很多割让外国的土地都被收回,唯独被俄国抢走的土地要不回来

芳芳历史烩
2025-09-18 08:27:19
不吃不喝飞行11天,跨越13560公里,比轰炸机还能飞!

不吃不喝飞行11天,跨越13560公里,比轰炸机还能飞!

百态人间
2025-08-14 11:49:52
湖南省高速公路集团原副总经理王辉扬被开除党籍

湖南省高速公路集团原副总经理王辉扬被开除党籍

界面新闻
2025-09-19 10:01:45
676分上北大考古系的钟芳蓉,有新消息!

676分上北大考古系的钟芳蓉,有新消息!

极目新闻
2025-09-19 13:53:49
波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

深度报
2025-09-18 22:47:16
罢战之后:罗永浩的IP,东渡了日本

罢战之后:罗永浩的IP,东渡了日本

木蹊说
2025-09-18 18:39:26
全是预制菜的萨莉亚,为什么没人骂?网友:不敢骂,骂倒闭了、

全是预制菜的萨莉亚,为什么没人骂?网友:不敢骂,骂倒闭了、

狐狸先森讲升学规划
2025-09-17 21:25:02
反击开始了?罗永浩陈年旧瓜被搬上台面,网友担忧他受到威胁了…

反击开始了?罗永浩陈年旧瓜被搬上台面,网友担忧他受到威胁了…

明月杂谈
2025-09-18 19:42:05
这辈子你最闹心的经历是啥?网友:自认心灵纯洁的朋友一定要慎看

这辈子你最闹心的经历是啥?网友:自认心灵纯洁的朋友一定要慎看

解读热点事件
2025-09-18 00:15:06
狼来了!比亚迪超级电摩上市,续航260km,极速百公里

狼来了!比亚迪超级电摩上市,续航260km,极速百公里

电动车小辣椒
2025-09-17 07:03:30
夫妻虐待导盲犬后续:身份被扒工作要黄,官方怒斥,基地已收回

夫妻虐待导盲犬后续:身份被扒工作要黄,官方怒斥,基地已收回

梦史
2025-09-18 09:34:46
上海学生餐里的秘密:一顿饭15块,到底谁在发财?

上海学生餐里的秘密:一顿饭15块,到底谁在发财?

洞见报告
2025-09-19 09:14:38
刘震云:世界上有3件事最愚蠢:一是把钱借出去,等别人主动还...

刘震云:世界上有3件事最愚蠢:一是把钱借出去,等别人主动还...

清风拂心
2025-08-21 17:15:06
起底西贝供应商:同款冷冻西兰花和海鲈鱼还卖给了谁?

起底西贝供应商:同款冷冻西兰花和海鲈鱼还卖给了谁?

界面新闻
2025-09-18 20:58:56
2025-09-19 17:15:00
歸藏的AI工具箱 incentive-icons
歸藏的AI工具箱
关注人工智能、LLM 、 AI 图像视频和设计
182文章数 30关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

55岁农妇"辱骂"法官被罚10万 涉事法院:撤销罚款决定

头条要闻

55岁农妇"辱骂"法官被罚10万 涉事法院:撤销罚款决定

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

美联储降息落地 对市场有何影响

汽车要闻

零跑D19定档10月16日,旗舰SUV全球首秀

态度原创

艺术
游戏
数码
手机
时尚

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

《街头篮球》首届SVIP线上联赛火爆来袭 艾迪&艾薇动作赏析

数码要闻

九州风神冰立方 620 G2 上市,可选晴雪 / 暗夜 / 数显 黑金刚

手机要闻

苹果线下店展出iPhone 17 Pro真机:已满身划痕!铝合金机身被吐槽质感差

今秋这件“瘦瘦衫”必穿!巨in巨洋气,上身瘦十斤!

无障碍浏览 进入关怀版