![]()
↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新
DeepSeek王者归来!刚刚发布了DeepSeekMath-V2
在IMO 2025和 CMO(中国数学奥林匹克) 2024 中,DeepSeekMath-V2均达到了金牌水平。
在 Putnam(普特南数学竞赛。地位:北美地区「美国和加拿大」最顶尖、最负盛名的大学本科生数学竞赛) 2024 竞赛中,更是随着测试时计算量(test-time compute)的扩展,拿下了 118/120 的几近满分成绩。
这一成果表明,自验证数学推理(Self-Verifiable Mathematical Reasoning)是一条可行的研究路径
核心要点如下
为什么需要自验证?
过去一年,大语言模型通过基于最终答案正确性的强化学习,在AIME和HMMT等定量推理竞赛中取得了长足进步,甚至达到饱和
但这种方法面临根本性局限:
答案对 推理对:追求更高的答案准确率,并不能解决推理过程中的核心问题。
非数值任务失效:许多数学任务(如定理证明)需要严谨的逐步推导,而非简单的数值答案,无法应用基于最终答案的奖励机制
为了突破深度推理的极限,验证数学推理的全面性和严谨性至关重要。
特别是对于没有已知解决方案的开放性问题,自验证是扩展测试时计算量(scaling test-time compute)的关键
DeepSeekMath-V2 是怎么做的?
DeepSeek团队通过以下步骤实现自验证数学推理:
1.训练验证器:训练一个准确且忠实的大模型验证器(Verifier),专门用于定理证明。
2.训练生成器:将上述验证器作为奖励模型(Reward Model)来训练证明生成器
3.自我纠错:激励生成器在最终定稿前,主动识别并解决自身证明中的问题
4.动态进化:为了在生成器变强时保持“生成-验证”的差距,通过扩展验证计算来自动标注难以验证的新证明,生成训练数据以进一步提升验证器
评测结果
DeepSeekMath-V2在IMO-ProofBench(由DeepThink IMO-Gold背后的谷歌DeepMind团队开发)展现了强大的定理证明能力:
IMO 2025:达到金牌水平
CMO 2024:达到金牌水平。
Putnam 2024:取得118/120的超高分
![]()
![]()
快速上手
DeepSeekMath-V2建立在 DeepSeek-V3.2-Exp-Base 之上。
如需推理支持,可参考 DeepSeek-V3.2-Exp 的 GitHub 仓库
参考:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2-v2-towards-self-verifiable-mathematical-reasoning
--end--
最后记得⭐️我,这对我非常重要,每天都在更新:
欢迎点赞转发推荐评论,别忘了关注我
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.