网易首页 > 网易号 > 正文 申请入驻

证明也有「选择困难症」?腾讯AI Lab与大模型研究部联手打造 MPS-Prover ,多视角破解形式化推理瓶颈!

0
分享至

MPS-Prover 有效提升了搜索效率和证明质量,在多个基准上取得了当前最佳或领先的性能,并能生成更短、更多样的证明。

本文聚焦逐步式自动化定理证明器在复杂搜索中面临的偏见与低效困境,创新性提出多视角树搜索证明器(MPS-Prover),旨在提升大语言模型在严格逻辑推理中的表现。

1

背景与动机

自动化定理证明(ATP)旨在为数学或逻辑陈述自动生成形式化、可验证的证明,是人工智能、数学及形式化方法领域的核心挑战。通过将问题编码为形式化语言(如Lean),ATP系统能够产出由机器严格校验的证明,这对于严格的可验证性至关重要。尽管大语言模型(LLM)在非形式化数学推理任务中取得了显著进展,但在形式化定理证明领域,由于其对精确语法、语义的严格要求、巨大的证明步骤搜索空间以及高质量训练数据的稀缺,LLM仍面临巨大挑战。

目前主流的LLM辅助证明方法分为两大类:整体证明生成 (Whole-Proof)逐步式证明生成 (Stepwise Proof)。前者将ATP视为代码生成任务,LLM一次性输出完整证明脚本,虽能利用模型宏观规划能力,但缺乏中间验证,难以应对复杂证明。后者则训练LLM在给定当前证明状态下,迭代式地提出下一步证明策略,并通过证明助手(如Lean编译器)实时验证反馈,这种方式更适应交互式探索和复杂推理。然而,逐步式证明器自身也存在关键难题,如下图所示,包括:(a) 评估模型(Critic Model)易因训练数据偏好重复推荐相似策略,导致搜索陷入局部最优;(b) 错误的策略选择可能导致后续状态不可证;(c) 某些自动化策略在不适用时被滥用,无法推进证明。

2

多视角树搜索证明器 (MPS-Prover)

为克服上述逐步式证明器的局限性,我们提出了多视角树搜索证明器 (MPS-Prover),其核心包含两项关键创新:

1. 高效的训练后数据筛选策略:针对当前专家迭代方法中普遍存在的训练数据冗余问题,我们设计了明确的筛选规则,有效剔除约40%的低价值训练样本。此举在显著提升训练效率的同时,保证甚至提升了模型在复杂策略学习上的准确性,并通过引入自然语言推理数据缓解了对形式化策略生成的过拟合。

2. 融合启发式评估的多视角树搜索算法:在传统最佳优先搜索(BFS)和基于学习的评估模型基础上,我们引入了三种精心设计的启发式评估规则,共同指导搜索树的节点扩展:

  • 策略有效性评分:为不同策略(如 rcases,intro等结构性策略 vs. norm_num,simp_all等辅助性策略)赋予不同权重,优先探索对证明目标有更大影响的路径。详细评分表格在论文附录中。

  • 最小化分支复杂度:优先选择导致证明状态中 case(分支)数量最少的策略,鼓励更简洁的证明路径。

  • 最短状态优先:优先选择产生更短Lean 4证明状态字符串的策略,倾向于更直接、易于管理的证明状态。

如上图所示,在每个搜索层,MPS-Prover会从LLM为当前节点生成的候选策略中,并行地根据评估模型预测以及上述三条启发式规则各选取一个最优后续节点(若多个视角选出相同节点则仅保留一个),从而确保搜索路径的多样性,避免单一评估标准带来的偏差,有效跳出局部最优和不可证状态。

主要性能:如下表所示,MPS-Prover在所有参与比较的逐步式证明器中取得了最佳性能。在miniF2F上,MPS-Prover成功证明了244个问题中的185个,相较于先前最佳的BFS-Prover提升了约3个百分点。在7B模型级别,其性能仅次于通过更大模型蒸馏而来的DeepSeek-Prover-V2 (CoT),显示了我们方法在同等规模直接训练模型中的领先性。

固定预算下的性能对比:为公平比较MPS与BFS在同等计算资源下的效率,我们对比了MPS pass@k与BFS pass@4k的性能。如下图所示,MPS在各预算水平下均持续优于BFS,验证了多视角策略在提升搜索效率方面的优势。

证明特性分析:我们进一步对MPS-Prover与BFS及整体证明生成器(如Kimina-Prover, DeepSeek-Prover V2)生成的证明在长度和策略多样性上进行了定量分析(见下图与下表)。结果显示,MPS-Prover生成的证明不仅显著短于BFS,也远短于主流整体证明生成器。同时,其证明的策略多样性(定义为独热策略数/证明长度)也更高。这归因于逐步式证明器与Lean引擎的频繁交互、每步的自适应调整以及MPS对高进展策略的有效选择。

3

总结与展望

本研究提出了MPS-Prover,一种新颖的逐步式自动化定理证明器。通过创新的训练后数据筛选策略与融合启发式规则的多视角树搜索机制,MPS-Prover有效提升了搜索效率和证明质量,在多个基准上取得了当前最佳或领先的性能,并能生成更短、更多样的证明。

这项工作为提升大语言模型在形式化推理领域的应用提供了有效的方法论。我们的数据筛选方法为更高效的模型训练提供了借鉴;多视角搜索则展示了结合学习评估与启发式规则克服单一模型偏见、增强搜索鲁棒性的潜力。

除了在标准基准数据集上取得的优异表现外,我们的MPS-Prover成功解决了六道来自国际数学奥林匹克竞赛(IMO)的题目。这些题目分别是:imo_1964_p2, imo_1983_p6, imo_1960_p2, imo_1962_p2, imo_1968_p5_1 以及 imo_1959_p1。IMO作为全球范围内中学生数学竞赛的最高殿堂,其试题以极高的难度和对深刻数学洞察力的要求而著称,代表了数学解题能力的顶尖水平。

MPS-Prover能够在这些极具挑战性的问题上找到形式化证明,进一步凸显了其强大的推理能力和解决复杂数学难题的潜力。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李世民在HK风评很差?为何教科书上全是负面评价?

李世民在HK风评很差?为何教科书上全是负面评价?

小豫讲故事
2026-06-17 06:00:10
北京一企业海外股东向中央巡视组实名举报法官

北京一企业海外股东向中央巡视组实名举报法官

法治边角料
2026-06-24 10:17:04
别再吹少女感了,你看看43岁的王心凌在干嘛?

别再吹少女感了,你看看43岁的王心凌在干嘛?

鲸让我照顾海
2026-05-01 23:28:43
被逼入绝境后,俄罗斯却犯了一个致命错误

被逼入绝境后,俄罗斯却犯了一个致命错误

李荣茂
2026-06-23 19:10:26
够狠!王励勤终于动真格的了,直接砍掉前主席的后花园

够狠!王励勤终于动真格的了,直接砍掉前主席的后花园

以茶带书
2026-06-21 16:00:21
宇宙“监狱”:牧夫座空洞直径3.3亿光年,里面一个星系都没有?

宇宙“监狱”:牧夫座空洞直径3.3亿光年,里面一个星系都没有?

观察宇宙
2026-06-23 20:01:14
瑞典:一个在发达的路上越走越奇葩的国家

瑞典:一个在发达的路上越走越奇葩的国家

历史龙元阁
2026-05-15 11:40:19
14岁国少小将遭群殴后续:带头者身份被扒,多人被禁赛,警方介入

14岁国少小将遭群殴后续:带头者身份被扒,多人被禁赛,警方介入

北纬的咖啡豆
2026-06-24 11:33:34
为什么不能做亡国奴?看看印度的本土原住民达利特人,就知道答案

为什么不能做亡国奴?看看印度的本土原住民达利特人,就知道答案

怪味历史连连看
2026-06-21 13:55:24
大幅跳水!2026广东高考分数线出炉,数据和原因详析

大幅跳水!2026广东高考分数线出炉,数据和原因详析

史海流年号
2026-06-24 11:35:55
施拉格尔:跟阿根廷的比赛我们感受到了差距;末轮要全力一搏

施拉格尔:跟阿根廷的比赛我们感受到了差距;末轮要全力一搏

懂球帝
2026-06-24 01:02:09
全新丰田汉兰达曝光,外观变化大,2.0T燃油和2.5L混动,一睹为快

全新丰田汉兰达曝光,外观变化大,2.0T燃油和2.5L混动,一睹为快

红涛说車
2026-06-24 11:19:58
全球首发!华为刚曝光的新机,真的很猛啊

全球首发!华为刚曝光的新机,真的很猛啊

科技堡垒
2026-06-21 11:51:14
小米智能存储官宣:众筹预约已开启,4TB版众筹价2299元

小米智能存储官宣:众筹预约已开启,4TB版众筹价2299元

PChome电脑之家
2026-06-24 11:47:13
日媒评世界杯历史5大“鱼腩”球队:亚洲独占4席,中国男足在列

日媒评世界杯历史5大“鱼腩”球队:亚洲独占4席,中国男足在列

绿茵舞着
2026-06-23 22:26:24
历史总是惊人地相似!解放台湾,康熙340年前的经验值得学习借鉴

历史总是惊人地相似!解放台湾,康熙340年前的经验值得学习借鉴

近史谈
2026-06-09 16:59:24
具俊晔医美代言终止!院长曝不续约原因,难怪小S被拿捏得死死的

具俊晔医美代言终止!院长曝不续约原因,难怪小S被拿捏得死死的

TVB的四小花
2026-06-24 00:05:30
王曼昱和张本美和同区,孙颖莎会遇到上上签,有利于积分和夺冠

王曼昱和张本美和同区,孙颖莎会遇到上上签,有利于积分和夺冠

子水体娱
2026-06-24 00:46:17
正常人有没可能被逼疯成精神病?看网友讲述,简直不要太可怕。

正常人有没可能被逼疯成精神病?看网友讲述,简直不要太可怕。

侃神评故事
2026-06-23 11:27:52
赖斯自曝隐瞒腿筋伤半年:63场耗尽体能世界杯换下

赖斯自曝隐瞒腿筋伤半年:63场耗尽体能世界杯换下

体育硬核说
2026-06-24 01:26:14
2026-06-24 12:43:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7390文章数 20758关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

13岁女孩遭强奸:我说不他非要 威胁"报警就杀我全家"

头条要闻

13岁女孩遭强奸:我说不他非要 威胁"报警就杀我全家"

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

打破隔阂?向佐向佑兄弟合体直播!

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

游戏
本地
艺术
数码
公开课

《苍蓝雷霆》三部曲10.22登Switch 2 追加新内容

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

艺术要闻

Ui ART|新展首发|第二次抵抗:跨世纪以来的另一种艺术

数码要闻

用户反馈Fitbit Air手环被驱蚊喷雾腐蚀,谷歌拒绝保修申请

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版