网易首页 > 网易号 > 正文 申请入驻

超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

0
分享至

CriticLean 团队 投稿
量子位 | 公众号 QbitAI

当人工智能已经能下围棋、写代码,如何让机器理解并证明数学定理,仍是横亘在科研界的重大难题。

字节跳动Seed团队与南京大学联合发布CriticLean框架,一举将数学自然语言到Lean 4代码的形式化准确率从38%提升至84%。

该框架创新性地将评估模型置于核心位置。通过强化学习训练的CriticLeanGPT模型,能像数学专家一样精准判断形式化代码是否贴合原始语义,配合迭代优化机制,让生成的定理证明既符合语法规范,又忠实于数学逻辑。

⽬前论⽂和数据代码仓库均已对外公开,欢迎开源使用。

数学形式化领域的核心挑战

将自然语言描述的数学命题转化为机器可验证的形式化代码(如Lean 4定理),是自动化定理证明领域的基础性难题,其核心挑战不仅在于语法层面的准确转换,更在于对数学语义的深度理解与忠实还原。

尽管现有研究在生成模型与编译有效性上取得一定进展,但在复杂问题的语义对齐上仍存在显著瓶颈,具体体现在以下三方面:

  • 语义鸿沟:
  • 自然语言数学命题的隐含条件等难精准映射为形式逻辑,易出现前提翻译偏差等问题,过往方法因缺语义一致性校验,导致大量逻辑错误的形式化结果。
  • 评价缺位:
  • 对形式化结果的评价依赖编译检查或 LLM 简单判断,存在错误类型覆盖不全、评价可靠性不足的问题,难以识别逻辑矛盾等。
  • 数据瓶颈:
  • 现有数学形式化数据集规模和多样性不足、难度分布单一、语义校验缺失,制约了模型应对复杂数学命题的能力。

引入Critic角色以实现可靠形式化

上述挑战的核心在于:形式化流程中“评价”与“生成”的割裂。

CriticLean框架将引入强化学习的 Critic 模型,通过训练专门的语义评价模型(CriticLeanGPT)、结合 Lean 4 编译器反馈进行迭代生成。系统性解决语义对齐、评价可靠性与数据质量问题,为数学自动化形式化提供了全新范式。


图1:CriticLean框架通过编译器与评估器的双重反馈,实现数学形式化的迭代优化

CriticLeanGPT:会“挑错”的数学评估专家

团队基于Qwen2.5和Qwen3系列模型,通过两步训练打造专业评估器:

  • 有监督微调(SFT)
  • :在4.8万条包含:数学、代码以及数学语句-形式化代码对一致性相关的Critic数据CriticLeanInstruct数据集上训练,增强其针对语义判断的评估能力。
  • 强化学习优化(RL)
  • :采用GRPO算法,以“判断是否准确”和“输出格式是否规范”作为奖励信号,让模型学会在评估中迭代提升。

该模型能识别12类常见错误,包括类型错误(占比24.9%)、数学表示错误(23.8%)等,能够发现“代码编译通过但逻辑偏离原题”的隐性问题。

△图2:不同类型错误的分布

CriticLeanBench:首个聚焦形式化任务语义评估的基准测试

CriticLeanBench是用于评估模型在数学形式化任务中关键推理能力的基准测试,旨在全面衡量模型将自然语言数学陈述转化为经形式验证的定理声明等方面的表现.

其构建和实现过程如下:

CriticLeanBench 在数据收集阶段,从多个数据来源选取数学陈述及对应的Lean 4 陈述,提交Lean 4陈述到编译器。1)对于编译失败的语句,随机采样保留编译器反馈信息。2)对于编译成功的部分,通过使用 DeepSeek R1 结合专家校验的方式保留正确和错误的样本(错误的样本保留错误信息)。

  • 数据来源多样:
  • 数学陈述选取了Omni-MATH、AIME、U-MATH等多个数据源,这些数据源涵盖了不同难度层次和数学领域的问题。有助于更全面准确地评估模型在不同数学内容上的表现。
  • 覆盖多种错误类型:
  • CriticLeanBench 覆盖语法错误、语义错误、逻辑错误等多种问题,全面考察模型能力。
  • 确保评估可靠有效:
  • 通过专家审查和大模型验证相结合的方式来保证评估基准的可靠性和有效性。在不同类别中选取具有代表性的样本,确保涵盖各种错误类型,从而使评估结果更可靠。

△图3: CriticLeanBench 构建的概览

△表1:CriticLeanBench 数据集统计信息与各类代码基准数据集的对比

在包含500组测试样本的CriticLeanBench基准中,CriticLeanGPT的准确率达到87%,远超GPT-4o(67.8%)和Claude 3.5(74.2%),甚至超过DeepSeek-R1(84%)的表现。

  • 核心指标:
  • Qwen3-32B-RL版本准确率达87%,true negative rate(正确识别错误样本)达85.6%,远超GPT-4o的40.0%。
  • 对比优势:
  • 在相同模型规模下,经CriticLean训练的Qwen2.5-32B模型准确率(78.6%)较基础版(73.0%)提升5.6%,且对错误样本的识别能力提升明显。

△表2:在 CriticLeanBench 上的性能表现

模型大小的Scaling分析表明,模型性能随规模提升稳步增强。

△图4: 大语言模型在 CriticLeanBench 上的扩展性分析(ˆ 表示闭源的大语言模型)

FineLeanCorpus:28.5万条高质量形式化数据

依托CriticLean框架,团队构建了目前规模最大、质量最高的数学形式化数据集之一:

  • 规模与多样性:
  • 包含285,957条样本,覆盖从高中奥数到大学数学的16个领域,其中高难度子集(Diamond)含36,033条问题。
  • 质量保障:
  • 每条样本均通过编译器语法检查与CriticLeanGPT语义验证,人工抽检准确率达84%以上。
  • 结构优势:
  • 相比LeanWorkbook,其难度分布更均衡(多峰分布),领域覆盖更全面(如解析几何样本量提升300%)。

△表3:FineLeanCorpus 的不同来源及数据集统计信息

与高度偏斜的 Lean-Workbook 相比,FineLeanCorpus 提供了更透明的批判过程、更高比例的顶级问题,以及更加平衡和多样化的主题分布

△表4:数据集统计信息的对比

与高度偏斜的 Lean-Workbook 相比,FineLeanCorpus 提供了更透明的批判过程、更高比例的顶级问题,以及更加平衡和多样化的主题分布

△图5:数据集统计信息的对比()

实验结果:大幅提高数学形式化准确率

将该框架应用于自动形式化流程,配合Kimina-Autoformalizer-7B生成器,准确率从38%(单轮生成)提升至84%(多轮迭代优化),其中语义评估环节贡献了30个百分点的提升。

△表5:自动化形式化性能的人类评估准确率结果

论文链接:https://arxiv.org/pdf/2507.06181
项目链接:https://github.com/multimodal-art-projection/CriticLean

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴拿马外长称中国增查扣押船只呼吁尊重主权

巴拿马外长称中国增查扣押船只呼吁尊重主权

俄罗斯卫星通讯社
2026-04-09 15:22:59
孙杨:与张豆豆已有孩子

孙杨:与张豆豆已有孩子

南方都市报
2026-04-09 19:55:35
全是演员!事发上海闹市区,网友怒了:太缺德!

全是演员!事发上海闹市区,网友怒了:太缺德!

深圳晚报
2026-04-09 23:07:22
美媒爆料美国未就涉伊朗临时停火协议及时与以色列协商,内塔尼亚胡否认

美媒爆料美国未就涉伊朗临时停火协议及时与以色列协商,内塔尼亚胡否认

环球网资讯
2026-04-09 08:41:50
陈丽华葬礼曝光!多位“大人物”到场,炸出一堆“牛鬼蛇神”

陈丽华葬礼曝光!多位“大人物”到场,炸出一堆“牛鬼蛇神”

梦醉为红颜一笑
2026-04-10 05:16:35
阿尔特塔赛后被堵1小时,球迷喊"我们再来"打烂键盘侠的脸

阿尔特塔赛后被堵1小时,球迷喊"我们再来"打烂键盘侠的脸

体育硬核说
2026-04-09 17:50:43
难搞,76人队中锋乔尔·恩比德确诊阑尾炎,可能缺席多久?

难搞,76人队中锋乔尔·恩比德确诊阑尾炎,可能缺席多久?

好火子
2026-04-10 05:52:12
解气,电力院设计师大骂业主:你找鸡给你画图去啊!

解气,电力院设计师大骂业主:你找鸡给你画图去啊!

黯泉
2026-04-09 16:12:13
杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

一盅情怀
2026-04-03 07:49:11
1950年志愿军摸进美军炮兵阵地,发现24门重炮,营长当场违抗命令

1950年志愿军摸进美军炮兵阵地,发现24门重炮,营长当场违抗命令

鉴史录
2026-04-09 20:22:15
一国吸十三国,这个国家永远不缺人 | 地球知识局

一国吸十三国,这个国家永远不缺人 | 地球知识局

地球知识局
2026-04-09 20:36:26
特朗普突然放话:一夜之间消灭伊朗!美防长下令发动最大规模空袭

特朗普突然放话:一夜之间消灭伊朗!美防长下令发动最大规模空袭

兴史兴谈
2026-04-09 07:20:44
皇马新星“作死”!全队怒火中烧,离队已成定局!

皇马新星“作死”!全队怒火中烧,离队已成定局!

澜归序
2026-04-10 05:26:30
3万级四缸杀疯了!张雪500RR 17天逼近万台,国产摩托迎来拐点

3万级四缸杀疯了!张雪500RR 17天逼近万台,国产摩托迎来拐点

三农老历
2026-04-09 02:20:19
演员陈学冬:11部作品被下架,两年4次手术,今35岁生活无法自理

演员陈学冬:11部作品被下架,两年4次手术,今35岁生活无法自理

以茶带书
2026-04-03 19:40:21
世锦赛战报:白雨露4-10出局!中国3胜1负,18岁新星将战世界冠军

世锦赛战报:白雨露4-10出局!中国3胜1负,18岁新星将战世界冠军

球场没跑道
2026-04-10 00:30:27
中国的“性萧条”时代,正式到来了

中国的“性萧条”时代,正式到来了

律法刑道
2025-12-15 08:28:58
纳斯达克中国金龙指数跌幅扩大,现跌1.0%,最新报6806.29点

纳斯达克中国金龙指数跌幅扩大,现跌1.0%,最新报6806.29点

每日经济新闻
2026-04-09 22:03:35
武磊没油了?替补登场错失单刀+空门,球迷却直言错怪他了

武磊没油了?替补登场错失单刀+空门,球迷却直言错怪他了

懂个球
2026-04-09 23:58:20
CBA罚单:宁波主场观众向主队扔烟盒罚3万 贝兹利引内讧是起因

CBA罚单:宁波主场观众向主队扔烟盒罚3万 贝兹利引内讧是起因

醉卧浮生
2026-04-09 17:55:57
2026-04-10 08:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
12448文章数 176449关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

伊朗最高领袖发表最新声明 提出三点主张

头条要闻

伊朗最高领袖发表最新声明 提出三点主张

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

家居
健康
手机
游戏
艺术

家居要闻

清新自然 复古风尚

干细胞抗衰4大误区,90%的人都中招

手机要闻

天玑骁龙齐砍!天玑9600、骁龙8 Elite Gen6全系分级,顶配才满血

Xbox手柄重大失误!微软补偿方案出炉堪称豪华

艺术要闻

这位清末大家,笔下尽是江南风骨!

无障碍浏览 进入关怀版