网易首页 > 网易号 > 正文 申请入驻

大语言模型离“数学证明高手”还有多远?斯坦福、伯克利、MIT 团队提出 IneqMath 评测标准

0
分享至

作者 | 陈旭然

现在很多大语言模型(LLM)经常给出看似正确的结论,可一看过程,就让人直摇头。那么,这些模型真的理解了推理过程吗?还是只是看起来“像那么回事”就蒙出来的?

不等式问题是检验模型“真会不会证明”的理想对象——结构简单、逻辑清楚,又特别容易暴露出推理过程中的漏洞。可以说,它们就像是 AI 数学推理能力的“照妖镜”。

而想要探究该问题所面临的核心挑战,其实就是现在形式化数学努力解决的事:验证推理过程的严谨性。比如 Lean、Coq 这种形式化系统,就能够无差错的验证证明过程的正确性。但是他们对逻辑的要求极高,每一步都得写得规规矩矩,计算机才能验算。这些系统门槛高、自动化低,写起来累人不说,遇到奥数级别的不等式题,还很难实现规模化处理。

Lean 语言用于进行数学证明的示例图

反过来看,大语言模型是用大量自然语言训练出来的,虽然直接生成机器可验证的形式化证明的能力并不是太强,但在“非正式推理”这块反倒表现不错。同时自然语言符合人类的思考模式,门槛低,易处理。因此,探索大语言模型在自然语言环境下进行不等式证明的能力,是一个既有趣又具有重要研究价值的课题。

于是,斯坦福、伯克利和 MIT 的研究团队提出了一个新思路:把不等式证明拆成两个用非正式的自然语言写成的但可以验证的小任务——“界限估计”和“关系预测”。在这套框架下,他们还构建了一个全新的 benchmark 数据集,叫 IneqMath。它等于是在自然语言和形式化逻辑之间,搭建了一座“中间桥梁”,可以一步步在自然语言的环境下检查模型的推理过程,判断它是真的在“讲理”,还是又在蒙。


项目主页:https://ineqmath.github.io

论文:https://arxiv.org/abs/2506.07927

代码库:https://github.com/lupantech/ineqmath

数据集:https://huggingface.co/datasets/AI4Math/IneqMath

排行榜:https://huggingface.co/spaces/AI4Math/IneqMath-Leaderboard

这套“非正式”方法怎么评估证明?

简单来说,他们把一个不等式题分成两个小任务: Bound Estimation(估计上下限)和 Relation Prediction(关系预测)。比如,对于一个证明问题:

对于任意实数 a,b,请证明 a^{2}+b^{2}\geq 2ab,就可以转化成对应的这两个小任务:

Bound Estimation(估计上下限)

对于任意实数 a,b,请判断两个式子的关系:a2+b2? 2ab

Relation Prediction(关系预测)

对于任意实数 a,b,请求出最大的常数 C 使得 a2+b2 ≥ Cab 恒成立。

这两类任务可以直接用自然语言 +LaTeX 来表达,大模型也能按步骤做题,既保留了数学题目的可证明性,又不用搞得太复杂。同时,答案是唯一的,验证也方便。

IneqMath:首个“自然语言但可验证”的不等式数据集

研究团队在上述任务结构的基础上构建了 IneqMath 数据集。该数据集包含 1,252 道不等式题目作为训练集,每道题目均配有详细的解答过程和相关定理的标注。同时,数据集还包含由国际数学奥林匹克金牌选手标注的 200 道测试题,以及 100 道验证题。

以下是 IneqMath 的训练和测试题目示例:

怎么判断模型推理到底靠不靠谱?

研究团队为此专门设计了一套“AI 数学裁判系统”,名字虽然没那么花哨,但功能超实用——它不仅可以判断最终答案是否正确,还能从四个不同的角度自动评估模型的每一个推理步骤是否合逻辑,避免只看最终答案被“蒙对”所欺骗。以下是四个从不同角度评判过程严谨性的评审器:

  • Toy Case Judge:判断是否用特殊值推断出一般的结论,忽略了泛化过程.

  • Logical Gap Judge:判断是否存在跳步、未解释的等价变形等逻辑偏差

  • Numerical Approximation Judge:判断是否存在不当近似

  • Numerical Computation Judge:判断计算是否正确,包括基本代数运算或代入过程中的数值错误

准确率高达 F1 = 0.93,人类都能下岗?

这套系统不是只“挑刺”,它的准确率也非常高。研究团队用人工标注结果做了对比,发现这些自动评审器在判断是否严谨这件事上,和人类专家的判断一致性非常高,F1 值达到了 0.93!简单说,它已经可以非常可靠地替代大量人工审卷的工作。

一些关键发现

“答案准”≠“推得对”

很多时候,大语言模型能给出正确答案,但过程根本经不起推敲。以 Grok 3 mini 为例,它在测试中,最后给出的答案有 71.5% 是对的,听起来挺厉害吧?但问题来了:研究团队用他们那套自动评审系统一评审——结果只剩下 6% 的答案是“过程合理、逻辑严谨”的。而且这个问题不是 Grok 一家独有,几乎所有模型都出现了类似的情况,“准确率”最多掉了 65.5%。这说明很多模型虽然能“猜”到答案,但推理过程要么跳步了、要么靠代值、要么干脆就是模糊解释蒙混过关。

模型大了,推理就更好吗?不一定!

大家总觉得模型越大,智商就越高,是不是?在一定程度上没错——研究发现,大模型确实更擅长“猜答案”,在各种数学题上,答案准确率往往是随着参数量稳步提升的。但当我们不光看答案,而是深入去评估 推理过程是否严谨 时,这个“变强”的趋势就停了下来。

所以,靠加参数堆硬件这条路,在提升推理严谨性这件事上是走不通的。逻辑和严谨性不是模型大就能自动长出来的。

想得多,不代表想得对

那我们换个策略:让模型“想久一点”,是不是效果会更好?也就是让它用更多 token、写更长的推理过程,慢慢分析是不是能更靠谱?

结果证明……也不是特别管用。

研究团队试着放宽限制,让模型生成更多内容,虽然推理的严谨性 略有提升,但很快就进入了“瓶颈区”——无论你再多给它多少 token,提升都很有限。推理长度增加,质量却没同步跟上。

就像学生考试时,如果不会做题,写再多废话也不会得分;关键还是得答到点子上。大模型也是一样,“想得多”不代表“想得清楚”。

两个有效办法

虽然大模型证明推理还不太行,但研究团队发现两个方法确实有效:

  • 自我批判(Self-Critique)

让模型先审一遍自己,再改答案。像学生检查作业一样,这招让 Gemini 2.5 Pro 的准确率提升了 约 5%。

  • 定理提示(Theorem as Hints)

提前喂给模型相关定理,就像考前划重点。结果准确率最多提升 10%,尤其对复杂题特别有帮助。

说明只靠算力不够,教会模型“自我反思”和“用工具”,才是真正变聪明的路。

结 语

现在的大模型会猜,但还不太会严格推理。IneqMath 不是来证明模型都不行的,而是帮它一步步学会怎么推理,怎么变成一个真正会“证明”的数学 AI。

也许今天它还只是“猜得好”,但未来,它有可能真的“想得明白”。

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吃瓜后续丨四川大学通报王竹卿事件调查结果

吃瓜后续丨四川大学通报王竹卿事件调查结果

忘忧杂话店
2026-02-14 22:15:43
微软人工智能CEO:最快1年,大部分白领工作会被AI完全自动化

微软人工智能CEO:最快1年,大部分白领工作会被AI完全自动化

红星新闻
2026-02-14 13:52:23
“不给人算命,只给国算命”的灵媒阮氏虹说2026:红黄冲天、蓝白坠渊,三光三煞,火马绝运

“不给人算命,只给国算命”的灵媒阮氏虹说2026:红黄冲天、蓝白坠渊,三光三煞,火马绝运

神奇故事
2026-02-13 23:31:12
2-1,63岁穆帅发威:率队22轮不败,逼近葡超榜首,继续冲冠军

2-1,63岁穆帅发威:率队22轮不败,逼近葡超榜首,继续冲冠军

俯身冲顶
2026-02-14 06:33:36
苹果官网又推送新固件!

苹果官网又推送新固件!

果粉易查
2026-02-14 21:25:03
乌美俄第3轮谈判准备就绪,乌克兰军队化身浴火凤凰

乌美俄第3轮谈判准备就绪,乌克兰军队化身浴火凤凰

史政先锋
2026-02-14 18:42:24
“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

妍妍教育日记
2026-02-12 18:48:38
女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

丫头舫
2026-02-10 22:18:05
震惊!网传清远一工厂春节放假,几百员工办离职,竟然都是临时工

震惊!网传清远一工厂春节放假,几百员工办离职,竟然都是临时工

火山詩话
2026-02-13 15:17:46
周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

寄史言志
2026-01-17 16:37:15
笑不活了!《中华小当家》主角刘昴星又复活了,还是粒子重组身体

笑不活了!《中华小当家》主角刘昴星又复活了,还是粒子重组身体

二次元那些事
2026-02-14 15:08:54
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
越南谈中越战争:中国不是给越南一个教训,而是摧毁,他们做到了

越南谈中越战争:中国不是给越南一个教训,而是摧毁,他们做到了

老蝣说体育
2026-01-31 13:51:15
伊利亚拉门迪:在香港现场看球的人不多;希望皇社能赢皇马

伊利亚拉门迪:在香港现场看球的人不多;希望皇社能赢皇马

懂球帝
2026-02-14 13:27:06
在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

南权先生
2026-02-12 15:39:07
王励勤正式出面!国乒4主力官宣退役,林诗栋状态持续低迷引关注

王励勤正式出面!国乒4主力官宣退役,林诗栋状态持续低迷引关注

观察鉴娱
2026-02-14 10:04:52
笑不活了!朱芳雨提大箱现身,不是离职是回广西吃螺蛳粉

笑不活了!朱芳雨提大箱现身,不是离职是回广西吃螺蛳粉

TVB的四小花
2026-02-14 00:53:04
发工资时我调侃财务:嫁我工资归你管!董事长:那当我女婿吧!

发工资时我调侃财务:嫁我工资归你管!董事长:那当我女婿吧!

千秋文化
2026-02-13 19:08:05
少子化+AI,正在杀死延续了70年的选拔游戏

少子化+AI,正在杀死延续了70年的选拔游戏

格致君
2026-02-14 09:21:44
此刻,苏通大桥,又有人开始散步了?期待二桥和海太!

此刻,苏通大桥,又有人开始散步了?期待二桥和海太!

卷史
2026-02-14 17:10:42
2026-02-15 00:12:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1311文章数 126关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

时尚
房产
艺术
教育
军事航空

推广中奖名单-更新至2026年2月3日推广

房产要闻

三亚新机场,又传出新消息!

艺术要闻

418米!浙江最高楼,即将“破土而出”

教育要闻

“取消一门学科”:英语排第2,第1名实至名归...

军事要闻

钓鱼岛、黄岩岛、仁爱礁已充满中国年味

无障碍浏览 进入关怀版