网易首页 > 网易号 > 正文 申请入驻

普林斯顿团队发布开源数学定理证明模型:32B性能大幅超越前代

0
分享至

近日,由普林斯顿大学牵头,联合清华大学、北京大学、上海交通大学、斯坦福大学,以及英伟达、亚马逊、Meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。

该项目的 32B 旗舰模型在多个自动数学定理证明的主要基准测试上均大幅超过之前的最先进开源模型 DeepSeek-Prover-V2-671B;而 8B 小尺寸模型在特定基准上,性能表现与 DeepSeek-Prover-V2-671B 持平,展示了其在效率和能力上的新突破。

  • 项目主页
  • http://blog.goedel-prover.com
  • HuggingFace 模型下载
  • https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B

主要成果

MiniF2F性能新高:其 32B 旗舰模型在 MiniF2F 测试中,Pass@32 (每道测试题目尝试 32 次;pass 数越小,计算开销越小)的正确率相较于之前的 SOTA 模型 DeepSeek-Prover-V2-671B 提升了 8.0%。

小而强:8B 参数模型的性能表现与之前 671B 参数的 SOTA 模型持平。

登顶PutnamBench:在极具挑战性的 PutnamBench (普特南数学竞赛基准)上,该模型排名第一。

项目简介

Goedel-Prover-V2 立足于形式化推理,即以精确、无歧义的形式语言(Formal Language)来进行数学推理,完整数学定理证明,整个推理和证明过程可被机器自动验证。目前,最主流的形式化证明语言Lean已经被广泛的数学家群体接受。

Goedel-Prover-V2 的开发流程基于标准的专家迭代(expert iteration)与强化学习,并引入了三项关键创新:

  • 分层式数据合成(Scaffolded data synthesis):通过自动合成难度渐进递增的证明任务来训练模型,让模型能够循序渐进地处理更复杂的定理。

  • 验证器引导的自我修正(Verifier-guided self-correction):模型通过利用 Lean 编译器的反馈,学习迭代地修正自身生成的证明,模拟人类自我修正的过程。

  • 模型平均 (Model averaging):融合不同训练节点的模型权重,以提升模型的鲁棒性与综合性能。

基于这些方法,该项目的较小模型 Goedel-Prover-V2-8B 在 MiniF2F 测试集上(Pass@32)达到了83.3% 的通过率,甚至超越此前模型参数量超过 80 倍的 SOTA 模型 DeepSeek-Prover-V2-671B 的性能。其旗舰模型 Goedel-Prover-V2-32B 更是将此项指标提升至 88.1%(标准模式)和90.4%(自我修正模式),大幅超越了所有先前的 SOTA 模型。

在 PutnamBench 上,开启自我修正模式的旗舰模型仅使用 Pass@64 就解决了 64 个问题,用远远更小的计算开销超过了 DeepSeek-Prover-V2-671B 在 Pass@1024 下解决 47 个问题的记录。

性能表现

基准测试结果

自我修正模式:模型先生成初始证明,再利用 Lean 编译器的反馈进行两轮自我修正。这一过程仍然保持了高效:总的输出长度(包括初始证明和两轮修正)仅仅从标准的 32K tokens 略微增加到 40K tokens。

图 1: 在 MiniF2F、PutnamBench、以及新发布的 MathOlympiadBench (包含 360 道数学奥林匹克竞赛级别题目)上的 Pass@32 性能对比。横轴为不同模型表现,纵轴为模型性能(解决题目的百分比或者个数)

上图展示了 Goedel-Prover-V2 在 MiniF2F、PutnamBench 和 MathOlympiadBench 三个基准测试中的性能。所有数据在 Pass@32 下测得:

  • 在三个数据集中,32B 旗舰模型在标准模式和自我修正模式下的性能均显著超过了之前的 SOTA 模型 DeepSeek-Prover-V2-671B 和 Kimina-Prover-72B。

  • 在 MiniF2F 上,8B 模型的性能与模型尺寸大近 100 倍的 DeepSeek-Prover-V2-671B 相当。

PutnamBench 排行榜

下表为 PutnamBench 的最新排名。Goedel-Prover-V2-32B 在相对更少的计算开销(pass 数)下取得了领先成绩。

表 1: PutnamBench 排行榜。

推理时的计算扩展性

推理时的计算扩展性曲线显示,在不同的推理采样预算下,Goedel-Prover-V2-32B 模型的性能均稳定超过了之前的同类模型。

图 2: 在不同采样预算下,模型在 MiniF2F 测试集上的性能表现。横轴为 pass 数(采样预算),纵轴为解决题目的百分比

技术方法

Goedel-Prover-V2 的性能主要基于以下四种核心技术:

  • 专家迭代与强化学习 (Expert Iteration & RL):项目遵循标准的训练流程:形式化问题、生成并验证证明、利用新证明训练下一代模型,并结合强化学习进行优化。

  • 分层式数据合成 (Scafforded Data Synthesis):该技术自动生成中等难度的问题,用以弥合已解决的简单问题与尚未解决的复杂问题之间的鸿沟,从而实现更平滑的难度递进,并为模型提供更密集且更具信息量的训练信号。

  • 验证器引导的自我修正 (Verifier-Guided Self-Correction):模型被训练以使用 Lean 编译器的反馈来迭代修正自身证明,这一能力被整合到监督微调和强化学习流程中。

  • 模型平均 (Model Averaging):为避免训练后期模型多样性下降,研究者将训练好的模型与基础模型进行权重平均,此方法有助于提升在需要更多采样次数时的 Pass@K 性能。

模型与数据集下载

为了促进相关领域的研究,团队已公开发布了 Goedel-Prover-V2 模型及全新的MathOlympiadBench基准。

模型下载

  • Goedel-Prover-V2-32B
  • https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B

  • Goedel-Prover-V2-8B
  • https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B

数据集下载

  • MathOlympiadBench
  • https://huggingface.co/datasets/Goedel-LM/FoMOBench

MathOlympiadBench是一个收录了奥林匹克级别数学竞赛问题形式化版本的数据集,来源包括 Compfiles 和 IMOSLLean4 等代码库。数据集共包含 360 个问题,覆盖了 IMO (International Math Olympiad,国际数学奥林匹克竞赛)、IMO 候选短名单及其他区域性竞赛题。

研究团队表示,发布此模型旨在支持开源社区的研究,包括为 IMO 等数学竞赛做准备的相关项目。包含完整技术细节的论文将在未来几周内发布。

项目骨干:

林勇(Yong Lin),普林斯顿大学博士后,与金驰、陈丹琦、Sanjeev Arora 教授合作,研究方向为大模型的形式化数学推理与后训练。相关成果曾获 NAACL 杰出论文奖,入选 2023 年苹果 AI 学者。

个人主页:

https://linyongver.github.io/Website/

唐山茖(Shange Tang),普林斯顿大学博士生,导师是金驰和范剑青教授。他的研究领域包括大模型的形式化数学推理、分布外泛化等。

个人主页:

https://shangetang.github.io/

项目负责人:

金驰(Chi Jin),普林斯顿大学电子与计算机工程系教授。他的研究专注于机器学习的决策制定,致力于开发具备复杂决策与高级推理能力的智能体。其团队在强化学习、博弈论及最优化等领域奠定了坚实的理论基础。近期,他们正积极将研究拓展至大语言模型(LLM),重点提升其推理能力。金驰教授曾荣获多项重要荣誉,如斯隆研究学者奖(Sloan Research Fellowship)、美国国家科学基金会 CAREER 奖(NSF CAREER Award)等。

个人主页:

https://sites.google.com/view/cjin/home

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝光!剪一次头!!20万美元!

曝光!剪一次头!!20万美元!

柚子说球
2026-05-10 11:24:26
伊朗宣布:没收262处“叛国者”房产!霍梅尼之孙:最高领袖正全面掌握国家事务;美军称继续对伊海上封锁,英国将派遣舰艇参加护航行动

伊朗宣布:没收262处“叛国者”房产!霍梅尼之孙:最高领袖正全面掌握国家事务;美军称继续对伊海上封锁,英国将派遣舰艇参加护航行动

每日经济新闻
2026-05-10 00:12:09
国家力挺!张雪机车获200亩用地+2.4亿授信,研发占比9.33%!

国家力挺!张雪机车获200亩用地+2.4亿授信,研发占比9.33%!

世界圈
2026-05-10 08:51:12
深圳终究失去“中国第一高楼”,华润接手地块!

深圳终究失去“中国第一高楼”,华润接手地块!

GA环球建筑
2026-05-09 23:46:06
别碰!别吃!别养!一只就携带100条虫,看到赶紧远离

别碰!别吃!别养!一只就携带100条虫,看到赶紧远离

齐鲁壹点
2026-05-08 06:35:47
他是外交部原部长,1985年被邓小平怒批“胡说八道”,活到了98岁

他是外交部原部长,1985年被邓小平怒批“胡说八道”,活到了98岁

历史人文2
2026-05-09 22:00:03
砸了5亿美金还没当上爷,他们才是最怕世界杯转播权谈崩的人

砸了5亿美金还没当上爷,他们才是最怕世界杯转播权谈崩的人

壹览商业官方
2026-05-09 19:10:40
张本智和:中国队时代将落幕 接下来会是日本时代 要夺世乒赛5连冠

张本智和:中国队时代将落幕 接下来会是日本时代 要夺世乒赛5连冠

风过乡
2026-05-10 11:09:20
这才是现场摄影师该干的事!

这才是现场摄影师该干的事!

贵圈真乱
2026-05-10 09:38:47
大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

大伯出狱全家没人接,我开车去接他,他偷偷塞我一张卡说有1200万

千秋文化
2026-05-09 20:08:48
“一个吉利”涵盖2025,“全球棋盘”看待2026

“一个吉利”涵盖2025,“全球棋盘”看待2026

汽车维基
2026-03-20 22:56:25
国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

迷世书童H9527
2026-05-10 10:10:43
李嘉诚儿子拿下世界杯转播权,全网炸锅

李嘉诚儿子拿下世界杯转播权,全网炸锅

新浪财经
2026-05-09 18:37:21
阅兵式结束后袭击乌克兰,拒绝交换俘虏,俄罗斯拿捏泽连斯基!

阅兵式结束后袭击乌克兰,拒绝交换俘虏,俄罗斯拿捏泽连斯基!

山河路口
2026-05-10 14:01:37
OPPO母亲节活动文案引争议,武汉大学:极不认同文案价值倾向

OPPO母亲节活动文案引争议,武汉大学:极不认同文案价值倾向

界面新闻
2026-05-10 17:42:10
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八卦王者
2026-05-10 13:24:46
系统升级后,续航从500公里变300公里,快充也从40分钟拖到70分钟……最近投诉激增!揭秘新能源车“锁电”真相

系统升级后,续航从500公里变300公里,快充也从40分钟拖到70分钟……最近投诉激增!揭秘新能源车“锁电”真相

都市快报橙柿互动
2026-05-10 15:48:38
没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

寰球经纬所
2026-05-10 10:55:10
乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

网易新闻出品
2026-05-09 11:37:34
打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

网络易不易
2026-05-10 11:34:41
2026-05-10 18:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

面对中方强硬态度 世界杯中国转播费从3亿美元腰斩

头条要闻

面对中方强硬态度 世界杯中国转播费从3亿美元腰斩

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
手机
房产
公开课
军事航空

炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

手机要闻

W18周:苹果第五,OPPO第二,vivo第三

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版