网易首页 > 网易号 > 正文 申请入驻

哥德尔-Prover超过DeepSeek-Prover,陈丹琦团队造出最强推理模型

0
分享至

机器之心报道

编辑:佳琪、Panda

最近一段时间,以 DeepSeek-R1 为代表的大型推理模型可谓是「当红炸子鸡」,不过整体来说,这些模型所做的推理都属于非形式化推理(informal reasoning)。也就是说,它们主要是通过自然语言执行推理。

但是,这种推理模式有个缺点:难以通过机器来自动验证。也因此,非形式化推理在实际应用中的可靠性就大打折扣了。这还会让研究者更加难以进一步对推理模型进行改进。

解决方案也很直观:形式化推理(formal reasoning)

近日,普林斯顿大学陈丹琦、Sanjeev Arora 和金驰领导的一个团队开源了一个用于自动定理证明的形式化推理模型Goedel-Prover(哥德尔证明器),并且该模型在数学问题的自动形式化证明生成任务上达到了 SOTA。代码、模型还有在 Lean Workbook 中发现的新证明都已开源!

  • 论文标题:Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving
  • 论文链接:https://arxiv.org/abs/2502.07640v1
  • 项目地址:https://github.com/Goedel-LM/Goedel-Prover
  • Hugging Face:https://huggingface.co/Goedel-LM/Goedel-Prover-SFT

首先,先简单解释一下什么是形式化推理:简单来说,形式化推理就是以机器可验证的格式进行推理。这一类别中,比较知名的证明助手包括 Lean、Isabelle 和 Coq,它们都具备各自的形式语言(formal language),能以可被机器验证的方式表达推理。因此,训练 LLM 用这些形式语言编写证明具有重要意义。

不过,训练 LLM 用形式化语言进行定理证明还存在一个重大挑战,即缺少形式化数学陈述和证明。

对于用形式语言表达的定理,为其编写证明的要求很高,需要相当多的领域专业知识。

正因如此,目前公开的形式语言数据集规模都很有限。例如,Lean Workbook 数据集共有 140K 条形式化陈述,其中的形式化陈述使用了 Lean 来陈述问题,但没有证明。这些陈述中,只有 15.7K 条带有形式化证明,这些证明是由 InternLM2.5-StepProver 和 InternLM-Math-Plus 发现的。此外,Open Bootstrapped Theorems 数据集包含 107K 条陈述,其证明来自 Mathlib44。

然而,该团队观察到 Mathlib4 的分布与一般的问题求解基准(例如广泛使用的 miniF2F)的分布存在显著差异。例如,miniF2F 中的陈述主要来自高中数学,需要复杂的推理能力才能解决,而 Mathlib4 中的陈述则侧重于对高级数学概念的简单操作。此外,他们还发现将 Mathlib4 数据纳入训练并不能持续提高模型在 miniF2F 上的性能。

与形式语言的数据稀缺相比,用自然语言书写的数学题却有着海量数据储备,高中生桌子上堆满的「五三」就是一座座富矿。Numina 数据集更是收录了 86 万个高质量的问答对,囊括国内外的中小学数学题、国际奥数竞赛题以及合成数据等等。

为了将这些数据转化为可用的形式语言,研究团队训练了两个形式化转换器。其中一个基于 Lean Workbook 中的非形式 - 形式语言对训练,另一个则采用 Claude-sonnet-3.5 标注的语言对进行训练。下图展示了这些形式化转换器的训练过程。

这两个转换器完成对原始语句的形式化后,团队还用 LLM 加了一道验证,确保形式化后的语句准确保留了原始内容的含义,成功构建了一个含有 164 万个形式语句的数据集。

利用这个大规模形式化定理数据集,研究团队采用了一种循环改进的方法,称为专家迭代(expert iteration):先用现有的最好模型(DeepSeek-Prover-V1.5-RL)去尝试解答大量数学题目,把解对的答案收集起来训练新模型,然后用新模型再去解题,不断重复这个过程。经过 8 轮这样的「以老带新」训练后,他们的新模型变得更加厉害了。下图展示了专家迭代的过程。

Goedel-Prover 表现如何?

具体有多厉害呢?如下图所示,在 miniF2F 上,新模型的解题正确率比之前的最优模型(DeepSeek-Prover-V1.5-RL)提高了 7.6%。在 Pass@32、64 直至 25600 测试中,都始终优于 DeepSeek-Prover-V1.5-RL。

新模型在 Lean Workbook 数学题库中成功解决了 29.7K 道题目,这个成绩差不多是其他顶尖模型(InternLM2.5-StepProver 和 InternLMMath-Plus)的两倍。在 PutnamBench 上,新模型解决了 7 个问题(Pass@512),位列排行榜第一。

论文共同一作、普林斯顿博士后 Yong Lin 在 上表示他们目前正在开发这个哥德尔证明器的强化学习版本,并且还会有一个比之前更强大的检查点模型。此外,他们还将在开源这个强化学习版本的同时附带 164 万条形式化陈述。

真是让人期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

极目新闻
2026-03-26 08:57:45
张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

魔都姐姐杂谈
2026-03-25 15:59:12
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

古希腊掌管松饼的神
2026-03-26 11:29:25
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

每日经济新闻
2026-03-25 23:58:31
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
我想过Sora会死,但没想到这么快。

我想过Sora会死,但没想到这么快。

差评XPIN
2026-03-26 00:04:51
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
2026-03-26 14:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12603文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
艺术
本地
亲子
数码

2026年了,最好看的还是“这件针织”!

艺术要闻

哪一座桥不是风景?

本地新闻

春日吃花第三站——广东

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

无障碍浏览 进入关怀版