网易首页 > 网易号 > 正文 申请入驻

大语言模型数学计算能力仍然堪忧

0
分享至


当前的大语言模型本质上是预测引擎,只能找到问题的最可能解决方案,而非必然的正确答案。尽管主流模型的数学能力已有所提升,但即便是表现最佳的Gemini 3 Flash,如果用字母等级评估,也只能获得C级成绩。

隶属于在线计算器制造商Omni Calculator的研究人员使用该公司的ORCA基准测试对一系列新的AI模型进行了评估,该测试包含500道实际数学问题。

在去年11月的初始评估中,OpenAI的ChatGPT-5、Google的Gemini 2.5 Flash、Anthropic的Claude Sonnet 4.5、xAI的Grok 4和DeepSeek的DeepSeek V3.2(alpha版本)在数学问题上的表现都很糟糕,得分均在63%或以下。

最新一轮的测试对象包括ChatGPT-5.2、Gemini 3 Flash、Grok 4.1和DeepSeek V3.2(稳定版)。由于Sonnet 4.5在测试期间没有变化且后续版本尚未发布,因此没有重新评估。

在第二轮测试中,除了Grok-4.1出现倒退外,所有模型都显示出改善。

Gemini 3.1 Flash的准确率达到72.8%,比前代提高了9.8个百分点。DeepSeek V3.2达到55.2%,比alpha版本提高3.2个百分点。ChatGPT 5.2实现了54.0%的准确率,提高了4.6个百分点。而Grok 4.1则下滑至60.2%,下降了2.6个百分点。

ORCA研究员Dawid Siuda在声明中表示:"计算器是可预测的。今天问它一个问题,明年再问同样的问题,答案保持不变。AI不是这样工作的。这些系统基于模式预测下一个最可能的词。从数学角度来说,模型今天答对一个问题,明天答错是完全可能的。"

研究人员尝试用一个名为"不稳定性"的指标来评估模型响应的可变性——衡量模型在被问及同一问题两次时改变答案的频率。

Gemini 3 Flash证明最为一致,错误回答中只有46.1%会发生变化。研究人员报告称,ChatGPT在65.2%的时间里会改变答案。而DeepSeek V3.2在68.8%的错误中会改变答案。

ORCA研究人员注意到,模型性能随时间的改善在不同领域存在差异。他们表示,DeepSeek在生物与化学问题上的表现从10.5%的准确率提升到43.9%。Gemini 3 Flash在数学与转换方面的准确率达到93.2%,从83%提升而来。而Grok 4.1在健康与体育问题的准确率下降了9个百分点,在生物与化学方面下降了5.3个百分点。

研究人员推测,Grok最近的更新可能优先考虑了定量推理以外的其他能力。

研究人员注意到,计算错误现在占所有错误的39.8%,从33.4%上升,而四舍五入错误下降至25.8%,从34.7%下降。ORCA小组得出结论,AI模型在通过格式化让数学看起来正确方面越来越好,但在算术方面仍然困难重重。

"AI模型本质上是预测引擎而非逻辑引擎,"Siuda在给The Register的电子邮件中说道。"因为它们基于概率工作,它们基本上是根据之前见过的模式猜测下一个最可能的数字或单词。这就像一个学生记住了数学书中的每个答案,但从未真正学会如何加法。"

Siuda表示,我们之前就知道模型的这个特点,这一点没有改变。

"它们可能大部分时间能得到正确答案,但一旦你给它们一个独特或棘手的问题,或者多步骤任务,它们就会跌跌撞撞,因为它们实际上并没有真正计算任何东西,"他说。"用当前技术完全缩小这个差距可能是不可能的,但如果我们将大语言模型与函数调用充分结合,可能有解决的可能。"

函数调用——将算术外包给确定性来源——是解决模型数学处理能力差的一种方法。

"像Google和OpenAI这样的主要AI公司已经在这样做,让AI调用函数来进行实际计算,"Siuda解释道。"真正的头疼发生在长而复杂的问题上。AI必须跟踪每个阶段的每个小结果,通常会被压倒或困惑。"

另一个可能的改进途径可能是教导模型通过形式化证明来验证回应。正如去年11月《自然》杂志所述,Google的DeepMind开发了一种方法,通过基于使用Lean编程语言和证明助手开发的证明的强化学习,在国际数学奥林匹克竞赛中获得了银牌成绩。

但目前来说,不要相信任何AI。

Q&A

Q1:ORCA基准测试是什么?它如何评估AI模型?

A:ORCA基准测试是由Omni Calculator公司开发的评估工具,包含500道实际数学问题。研究人员用这个测试来衡量AI模型处理数学计算的能力,测试结果显示即便是表现最好的模型也只能达到70%左右的准确率。

Q2:为什么AI模型在数学计算上表现不好?

A:AI模型本质上是预测引擎而非逻辑引擎,它们基于概率工作,根据之前见过的模式猜测下一个最可能的数字或单词。就像学生记住答案但没学会计算方法一样,AI可能今天答对明天答错同一个问题。

Q3:如何改善AI模型的数学计算能力?

A:主要有两种方法:一是函数调用,让AI调用外部计算器进行实际计算;二是教导模型通过形式化证明验证回应。Google和OpenAI等公司已经在使用函数调用方法,但在处理复杂多步骤问题时仍面临挑战。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贾静雯前夫辟谣患癌把巨额遗产留给女儿,根本没有这件事,他很好

贾静雯前夫辟谣患癌把巨额遗产留给女儿,根本没有这件事,他很好

话娱论影
2026-03-04 11:12:04
你见过最奇怪的体质是什么?网友:基因注定只能生女儿

你见过最奇怪的体质是什么?网友:基因注定只能生女儿

另子维爱读史
2026-01-12 20:08:01
杨尚昆与哈梅内伊的“三无”会见,杨说了几句转身就走

杨尚昆与哈梅内伊的“三无”会见,杨说了几句转身就走

年代回忆
2026-03-04 20:07:56
柯庆施到底是一个怎样的人?马达同志坦言:他的这个优点不能否定

柯庆施到底是一个怎样的人?马达同志坦言:他的这个优点不能否定

春秋砚
2026-03-04 11:15:07
巴方总统警告中国!只要中国敢出手反制,巴拿马就动手,后果自负

巴方总统警告中国!只要中国敢出手反制,巴拿马就动手,后果自负

古事寻踪记
2026-03-04 07:09:28
赛季报销!应力性骨折,2米21巨人陨落,一年2次手术啊,真倒霉

赛季报销!应力性骨折,2米21巨人陨落,一年2次手术啊,真倒霉

球童无忌
2026-03-04 20:47:45
“对于那一天 我们不期待 但绝不惧怕”中国军号发布火箭军备战强音

“对于那一天 我们不期待 但绝不惧怕”中国军号发布火箭军备战强音

闪电新闻
2026-03-02 11:24:45
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
刚刚!大涨,全线反弹了!

刚刚!大涨,全线反弹了!

中国基金报
2026-03-04 20:23:28
梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

谈古论今历史有道
2026-03-04 15:00:03
NBA球队年度赚钱王:球队估值110亿美元,年利润相当于两个湖人

NBA球队年度赚钱王:球队估值110亿美元,年利润相当于两个湖人

柳先说
2026-03-04 22:07:21
北京开始下雪了!天津中雪!今日降雪将提前!最新预报来了——

北京开始下雪了!天津中雪!今日降雪将提前!最新预报来了——

天津人
2026-03-04 16:13:56
罕见一致!美团、阿里、京东三大巨头联手,围剿外卖最大“毒瘤”

罕见一致!美团、阿里、京东三大巨头联手,围剿外卖最大“毒瘤”

离离言几许
2026-03-03 14:11:32
扩散周知!我使馆提醒防范日本撞人族

扩散周知!我使馆提醒防范日本撞人族

每日经济新闻
2026-03-04 11:18:42
山东省纪委监委最新通报:3人被查

山东省纪委监委最新通报:3人被查

半岛官网
2026-03-04 08:17:04
特朗普威胁西班牙:你家基地我想用就用!美军出动B-2轰炸机,伊朗动用新导弹,击中美军驱逐舰,以军:打击伊朗一处秘密地下核武研发场所

特朗普威胁西班牙:你家基地我想用就用!美军出动B-2轰炸机,伊朗动用新导弹,击中美军驱逐舰,以军:打击伊朗一处秘密地下核武研发场所

每日经济新闻
2026-03-04 14:34:06
美股黄金、白银股盘前普涨

美股黄金、白银股盘前普涨

每日经济新闻
2026-03-04 17:33:35
真炸了!油价破80,运费20万,美军这一炸,把中国"底牌"炸出来了

真炸了!油价破80,运费20万,美军这一炸,把中国"底牌"炸出来了

阿校谈史
2026-03-04 11:25:00
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
特朗普麻烦大了!要被全球穆斯林追杀,伊朗宗教领袖发出圣战指令

特朗普麻烦大了!要被全球穆斯林追杀,伊朗宗教领袖发出圣战指令

留学生日报
2026-03-03 20:39:20
2026-03-04 22:39:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16541文章数 49694关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

房产
亲子
健康
教育
家居

房产要闻

400组,30套!聚亿·椰海锦程为何能在春节火出圈?

亲子要闻

保护孩子宝妈必学,孩子这种行为不是遗传!

转头就晕的耳石症,能开车上班吗?

教育要闻

别再等孩子突然醒悟,开窍其实有“流程表”

家居要闻

极简无界 静居自安然

无障碍浏览 进入关怀版