网易首页 > 网易号 > 正文 申请入驻

普林斯顿团队发布开源数学定理证明模型:32B性能大幅超越前代

0
分享至

近日,由普林斯顿大学牵头,联合清华大学、北京大学、上海交通大学、斯坦福大学,以及英伟达、亚马逊、Meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。

该项目的 32B 旗舰模型在多个自动数学定理证明的主要基准测试上均大幅超过之前的最先进开源模型 DeepSeek-Prover-V2-671B;而 8B 小尺寸模型在特定基准上,性能表现与 DeepSeek-Prover-V2-671B 持平,展示了其在效率和能力上的新突破。

  • 项目主页
  • http://blog.goedel-prover.com
  • HuggingFace 模型下载
  • https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B

主要成果

MiniF2F性能新高:其 32B 旗舰模型在 MiniF2F 测试中,Pass@32 (每道测试题目尝试 32 次;pass 数越小,计算开销越小)的正确率相较于之前的 SOTA 模型 DeepSeek-Prover-V2-671B 提升了 8.0%。

小而强:8B 参数模型的性能表现与之前 671B 参数的 SOTA 模型持平。

登顶PutnamBench:在极具挑战性的 PutnamBench (普特南数学竞赛基准)上,该模型排名第一。

项目简介

Goedel-Prover-V2 立足于形式化推理,即以精确、无歧义的形式语言(Formal Language)来进行数学推理,完整数学定理证明,整个推理和证明过程可被机器自动验证。目前,最主流的形式化证明语言Lean已经被广泛的数学家群体接受。

Goedel-Prover-V2 的开发流程基于标准的专家迭代(expert iteration)与强化学习,并引入了三项关键创新:

  • 分层式数据合成(Scaffolded data synthesis):通过自动合成难度渐进递增的证明任务来训练模型,让模型能够循序渐进地处理更复杂的定理。

  • 验证器引导的自我修正(Verifier-guided self-correction):模型通过利用 Lean 编译器的反馈,学习迭代地修正自身生成的证明,模拟人类自我修正的过程。

  • 模型平均 (Model averaging):融合不同训练节点的模型权重,以提升模型的鲁棒性与综合性能。

基于这些方法,该项目的较小模型 Goedel-Prover-V2-8B 在 MiniF2F 测试集上(Pass@32)达到了83.3% 的通过率,甚至超越此前模型参数量超过 80 倍的 SOTA 模型 DeepSeek-Prover-V2-671B 的性能。其旗舰模型 Goedel-Prover-V2-32B 更是将此项指标提升至 88.1%(标准模式)和90.4%(自我修正模式),大幅超越了所有先前的 SOTA 模型。

在 PutnamBench 上,开启自我修正模式的旗舰模型仅使用 Pass@64 就解决了 64 个问题,用远远更小的计算开销超过了 DeepSeek-Prover-V2-671B 在 Pass@1024 下解决 47 个问题的记录。

性能表现

基准测试结果

自我修正模式:模型先生成初始证明,再利用 Lean 编译器的反馈进行两轮自我修正。这一过程仍然保持了高效:总的输出长度(包括初始证明和两轮修正)仅仅从标准的 32K tokens 略微增加到 40K tokens。

图 1: 在 MiniF2F、PutnamBench、以及新发布的 MathOlympiadBench (包含 360 道数学奥林匹克竞赛级别题目)上的 Pass@32 性能对比。横轴为不同模型表现,纵轴为模型性能(解决题目的百分比或者个数)

上图展示了 Goedel-Prover-V2 在 MiniF2F、PutnamBench 和 MathOlympiadBench 三个基准测试中的性能。所有数据在 Pass@32 下测得:

  • 在三个数据集中,32B 旗舰模型在标准模式和自我修正模式下的性能均显著超过了之前的 SOTA 模型 DeepSeek-Prover-V2-671B 和 Kimina-Prover-72B。

  • 在 MiniF2F 上,8B 模型的性能与模型尺寸大近 100 倍的 DeepSeek-Prover-V2-671B 相当。

PutnamBench 排行榜

下表为 PutnamBench 的最新排名。Goedel-Prover-V2-32B 在相对更少的计算开销(pass 数)下取得了领先成绩。

表 1: PutnamBench 排行榜。

推理时的计算扩展性

推理时的计算扩展性曲线显示,在不同的推理采样预算下,Goedel-Prover-V2-32B 模型的性能均稳定超过了之前的同类模型。

图 2: 在不同采样预算下,模型在 MiniF2F 测试集上的性能表现。横轴为 pass 数(采样预算),纵轴为解决题目的百分比

技术方法

Goedel-Prover-V2 的性能主要基于以下四种核心技术:

  • 专家迭代与强化学习 (Expert Iteration & RL):项目遵循标准的训练流程:形式化问题、生成并验证证明、利用新证明训练下一代模型,并结合强化学习进行优化。

  • 分层式数据合成 (Scafforded Data Synthesis):该技术自动生成中等难度的问题,用以弥合已解决的简单问题与尚未解决的复杂问题之间的鸿沟,从而实现更平滑的难度递进,并为模型提供更密集且更具信息量的训练信号。

  • 验证器引导的自我修正 (Verifier-Guided Self-Correction):模型被训练以使用 Lean 编译器的反馈来迭代修正自身证明,这一能力被整合到监督微调和强化学习流程中。

  • 模型平均 (Model Averaging):为避免训练后期模型多样性下降,研究者将训练好的模型与基础模型进行权重平均,此方法有助于提升在需要更多采样次数时的 Pass@K 性能。

模型与数据集下载

为了促进相关领域的研究,团队已公开发布了 Goedel-Prover-V2 模型及全新的MathOlympiadBench基准。

模型下载

  • Goedel-Prover-V2-32B
  • https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B

  • Goedel-Prover-V2-8B
  • https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B

数据集下载

  • MathOlympiadBench
  • https://huggingface.co/datasets/Goedel-LM/FoMOBench

MathOlympiadBench是一个收录了奥林匹克级别数学竞赛问题形式化版本的数据集,来源包括 Compfiles 和 IMOSLLean4 等代码库。数据集共包含 360 个问题,覆盖了 IMO (International Math Olympiad,国际数学奥林匹克竞赛)、IMO 候选短名单及其他区域性竞赛题。

研究团队表示,发布此模型旨在支持开源社区的研究,包括为 IMO 等数学竞赛做准备的相关项目。包含完整技术细节的论文将在未来几周内发布。

项目骨干:

林勇(Yong Lin),普林斯顿大学博士后,与金驰、陈丹琦、Sanjeev Arora 教授合作,研究方向为大模型的形式化数学推理与后训练。相关成果曾获 NAACL 杰出论文奖,入选 2023 年苹果 AI 学者。

个人主页:

https://linyongver.github.io/Website/

唐山茖(Shange Tang),普林斯顿大学博士生,导师是金驰和范剑青教授。他的研究领域包括大模型的形式化数学推理、分布外泛化等。

个人主页:

https://shangetang.github.io/

项目负责人:

金驰(Chi Jin),普林斯顿大学电子与计算机工程系教授。他的研究专注于机器学习的决策制定,致力于开发具备复杂决策与高级推理能力的智能体。其团队在强化学习、博弈论及最优化等领域奠定了坚实的理论基础。近期,他们正积极将研究拓展至大语言模型(LLM),重点提升其推理能力。金驰教授曾荣获多项重要荣誉,如斯隆研究学者奖(Sloan Research Fellowship)、美国国家科学基金会 CAREER 奖(NSF CAREER Award)等。

个人主页:

https://sites.google.com/view/cjin/home

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

右右细毛和爸妈
2026-01-31 21:17:02
0分0分还是0分!CBA第一混子非他莫属:这水平竟拿600万年薪?

0分0分还是0分!CBA第一混子非他莫属:这水平竟拿600万年薪?

篮球快餐车
2026-02-01 07:24:13
车市“价格战”熄火,“金融战”再起?

车市“价格战”熄火,“金融战”再起?

经济观察报
2026-01-31 18:36:28
“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻
2026-02-01 21:39:09
印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

印度暴发尼帕病毒疫情!医生提醒:侵袭呼吸系统和中枢神经系统,可能人传人,春节出行非必要不前往疫区

封面新闻
2026-01-27 03:27:03
惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

老特有话说
2026-01-30 22:51:04
金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

红星新闻
2026-02-01 17:17:29
乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

乌克兰战场再现士兵向机器人投降,俄罗斯严厉谴责美国对古巴封锁

史政先锋
2026-02-01 19:11:54
打击电信诈骗境外回流人员,上海警方抓获涉诈人员277人

打击电信诈骗境外回流人员,上海警方抓获涉诈人员277人

澎湃新闻
2026-02-01 15:58:05
夏朝如果存在,甲骨文为何只字不提?考古证明:商朝灭的不叫夏朝

夏朝如果存在,甲骨文为何只字不提?考古证明:商朝灭的不叫夏朝

铭记历史呀
2026-02-01 07:10:26
《名侦探柯南》与辱华漫画联动,紧急声明!

《名侦探柯南》与辱华漫画联动,紧急声明!

极目新闻
2026-02-01 10:34:47
“三通一达”的理论被这帮女留学生自己坐得实实的!

“三通一达”的理论被这帮女留学生自己坐得实实的!

达文西看世界
2026-02-01 11:52:18
广东男篮13分完败不敌宁波,胡明轩9中2徐杰又受伤,杜锋场边无奈

广东男篮13分完败不敌宁波,胡明轩9中2徐杰又受伤,杜锋场边无奈

中国篮坛快讯
2026-02-01 21:49:46
当着14国的面,中方列出日本的两宗罪,24小时内,高市当众落泪

当着14国的面,中方列出日本的两宗罪,24小时内,高市当众落泪

兵说
2026-02-01 02:21:24
令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

纵相新闻
2026-02-01 19:09:12
官媒对刀郎的称呼变了,五字之差释放强烈信号,那英确实没说错

官媒对刀郎的称呼变了,五字之差释放强烈信号,那英确实没说错

格斗联盟
2026-02-01 09:13:23
价格大跌,广州市民大批涌入,有人一下花掉36万元购买足金饰品!店员:忙到连轴转

价格大跌,广州市民大批涌入,有人一下花掉36万元购买足金饰品!店员:忙到连轴转

环球网资讯
2026-02-01 17:58:53
“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

南方都市报
2026-02-01 12:50:46
四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

四川泸州“花坛埋尸案”背后:一对父子被撕裂的28年

潇湘晨报
2026-02-01 16:07:16
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
2026-02-02 04:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

健康
教育
亲子
时尚
军事航空

耳石症分类型,症状大不同

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

亲子要闻

兰姐带玥儿看北京新学校,玥儿一待俩小时,筱梅的话终于有人信了

“多巴胺风”又又又火了!这样穿时髦又减龄

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版