网易首页 > 网易号 > 正文 申请入驻

研究显示大语言模型数学计算能力令人担忧

0
分享至


在乔治·奥威尔的《1984》世界中,二加二等于五。而大语言模型在数学方面的表现也好不到哪里去。

尽管AI模型经过训练能够输出正确答案,并能识别"2 + 2 = 5"可能是对奥威尔反乌托邦小说中党的忠诚度测试的引用,但它们仍然无法可靠地进行计算。

来自波兰在线计算器制造商Omni Calculator以及法国、德国和波兰各大学的科学家们设计了一个名为ORCA(AI计算全方位研究)的数学基准测试,该测试在各种技术和科学领域提出了一系列以数学为导向的自然语言问题。然后他们对五个领先的大语言模型进行了测试。

ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的得分都未及格,准确率均在63%或更低。

目前有各种其他基准测试用于评估AI模型的数学能力,如GSM8K和MATH-500。如果仅从AI模型在这些测试中的得分来判断,你可能会认为机器学习几乎学会了一切,一些模型的得分达到0.95或更高。

但正如我们所注意到的,基准测试往往缺乏严格的科学设计。

ORCA基准测试背后的研究人员——Claudia Herambourg、Dawid Siuda、Julia Kopczyńska、Joao R. L. Santos、Wojciech Sas和Joanna Smietańska-Nowak——认为,虽然像OpenAI的GPT-4这样的模型在GSM8K和MATH等测试中得分很高,但先前的研究表明大语言模型仍然会犯逻辑和算术错误。根据牛津大学"用数据看世界"网站的数据,该网站衡量AI模型相对于人类基准得分0的表现,AI模型的数学推理得分为-7.44(基于2024年4月的数据)。

更重要的是,作者们表示,许多现有的基准数据集已经被纳入模型训练数据中,这种情况类似于学生在考试前就拿到了答案。因此,他们认为需要ORCA来评估实际的计算推理能力,而不是模式记忆。

根据他们通过预印本服务arXiv和Omni Calculator网站发布的研究,ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4、DeepSeek V3.2"仅达到45-63%的准确率,错误主要与舍入(35%)和计算错误(33%)有关。"

该评估于2025年10月进行,使用了500个不同类别的数学导向提示:生物与化学、工程与建筑、金融与经济、健康与体育、数学与转换、物理学,以及统计学与概率。

论文指出:"Gemini 2.5 Flash取得了最高的整体准确率(63%),Grok 4紧随其后(62.8%),DeepSeek V3.2排名第三,为52.0%。"

"ChatGPT-5和Claude Sonnet 4.5表现相当,但水平较低(分别为49.4%和45.2%),这表明即使是最先进的专有模型在大约一半的确定性推理任务中仍然失败。这些结果证实,自然语言推理的进步并不能直接转化为一致的计算可靠性。"

Claude Sonnet 4.5的总体得分最低——在任何问题类别中都没能超过65%。而DeepSeek V3.2表现最不稳定,在数学与转换方面表现强劲(74.1%),但在生物与化学(10.5%)和物理学(31.3%)方面得分惨淡。

然而,这些分数可能只是某个时间点的快照,因为这些模型经常被调整或修订。考虑论文中引用的工程与建筑类别中的这个问题:

提示:假设你有7个蓝色LED(3.6V)并联连接,与一个电阻器一起,承受12V电压和5mA电流。电阻器的功耗值是多少(以mW为单位)?

预期结果:42 mW

Claude Sonnet 4.5:294 mW

当记者将这个提示输入Claude Sonnet 4.5时,该模型表示不确定5mA数字是指每个LED的电流(不正确)还是总电流(正确)。它给出了不正确的294 mW答案,同时作为替代方案,也给出了正确的42 mW答案。

简而言之,AI基准测试并不一定能准确反映实际能力。但如果你希望它们能够准确反映,你可能会发现结果是五。

Q&A

Q1:ORCA基准测试是什么?它有什么特别之处?

A:ORCA是由Omni Calculator等机构开发的AI数学能力基准测试,全称"AI计算全方位研究"。它的特别之处在于提出各种技术和科学领域的数学自然语言问题,避免了现有基准测试数据可能已被纳入训练数据的问题,能更真实地评估AI的计算推理能力而非模式记忆。

Q2:主流大语言模型在ORCA测试中表现如何?

A:五个主流大语言模型的表现都不理想,准确率均在63%或更低。其中Gemini 2.5 Flash得分最高(63%),Grok 4紧随其后(62.8%),DeepSeek V3.2为52.0%,ChatGPT-5和Claude Sonnet 4.5分别为49.4%和45.2%。错误主要集中在舍入问题和计算错误上。

Q3:为什么大语言模型在数学计算方面表现不佳?

A:研究表明大语言模型仍然存在逻辑和算术错误问题。虽然它们在一些传统测试中得分很高,但那些测试数据可能已经被纳入训练数据中。ORCA测试显示,自然语言推理的进步并不能直接转化为可靠的计算能力,AI在确定性推理任务中仍有很大改进空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗导弹袭击美军万人基地,美国孤立无援,紧急从韩国调兵救场?

伊朗导弹袭击美军万人基地,美国孤立无援,紧急从韩国调兵救场?

薛小荣
2026-03-04 19:22:25
世界上第二大黄种人行政区,领土面积超过印度,将中国视为母国?

世界上第二大黄种人行政区,领土面积超过印度,将中国视为母国?

卷史
2026-02-23 15:16:46
科威特飞行员驾驶F-18一战封神,击落三架美军F-15

科威特飞行员驾驶F-18一战封神,击落三架美军F-15

史潎的生活日记
2026-03-04 15:59:11
伊朗空军和防空系统已经瘫痪,美国军方开始在伊朗部署B-52轰炸机

伊朗空军和防空系统已经瘫痪,美国军方开始在伊朗部署B-52轰炸机

一种观点
2026-03-04 09:43:57
伊朗已彻底认怂

伊朗已彻底认怂

仰望星空的一粒沙子
2026-03-02 09:55:15
我如果在澳门赌场输了一千万,跑回内地,不还了可以吗

我如果在澳门赌场输了一千万,跑回内地,不还了可以吗

贱议你读史
2026-03-03 12:35:42
女人默许你“得手”从不主动靠近:这三种默许,已是最明确的信号

女人默许你“得手”从不主动靠近:这三种默许,已是最明确的信号

青苹果sht
2026-02-22 06:58:10
挤走董卿、靠爹上位、央视“穷鬼”,龙洋私生活谣言有多离谱?

挤走董卿、靠爹上位、央视“穷鬼”,龙洋私生活谣言有多离谱?

归客历史
2026-03-03 09:18:30
伊朗宣示不会与美国谈判,拉里贾尼:他们不可能打了伊朗就一走了之

伊朗宣示不会与美国谈判,拉里贾尼:他们不可能打了伊朗就一走了之

环球网资讯
2026-03-03 07:00:20
迪拜机场再次被炸!被困女星已失联,工作室一言不发,后果不敢想

迪拜机场再次被炸!被困女星已失联,工作室一言不发,后果不敢想

东方不败然多多
2026-03-04 13:12:45
英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

英媒爆出猛料:中国或违反联合国规定,运送超高音速导弹给伊朗!

始于初见见
2026-03-02 19:33:23
江苏银行APP深夜崩了?积存金太火,用户直呼“买不了也卖不出”!

江苏银行APP深夜崩了?积存金太火,用户直呼“买不了也卖不出”!

新浪财经
2026-03-03 22:47:10
宋平同志逝世

宋平同志逝世

农民日报
2026-03-04 19:16:54
美国支持自民党胜选?美媒:特朗普背后对此暴怒,日本该有行动了

美国支持自民党胜选?美媒:特朗普背后对此暴怒,日本该有行动了

袁周院长
2026-03-04 18:51:29
父亲之谜!谷爱凌出生证明生父一栏空白 最新传闻曝光:长得真像

父亲之谜!谷爱凌出生证明生父一栏空白 最新传闻曝光:长得真像

念洲
2026-03-01 21:29:29
中方的资本,已经开始不受管控了,政府必须要提高警惕!

中方的资本,已经开始不受管控了,政府必须要提高警惕!

大静吖
2026-02-07 23:30:36
摩根大通:若霍尔木兹海峡持续关闭 伊拉克和科威特原油供应或数日内减少330万桶/日

摩根大通:若霍尔木兹海峡持续关闭 伊拉克和科威特原油供应或数日内减少330万桶/日

财联社
2026-03-04 13:15:06
教训!上海老牌国企因供应商虚开发票被追缴巨款

教训!上海老牌国企因供应商虚开发票被追缴巨款

爱看剧的阿峰
2026-03-04 13:14:51
​什么叫特供?真是超出普通人的想象

​什么叫特供?真是超出普通人的想象

深度报
2026-02-28 22:23:31
男队大换血,短道速滑世锦赛中国队参赛名单公布

男队大换血,短道速滑世锦赛中国队参赛名单公布

懂球帝
2026-03-04 17:59:24
2026-03-04 19:56:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16502文章数 49694关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

头条要闻

特朗普政府在众院通报伊朗简报 多议员愤怒:纯属胡扯

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

谈扩内需等 人大新闻发布会回应这些热点

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

本地
艺术
房产
公开课
军事航空

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

艺术要闻

2025“情系塔里木”美术作品展

房产要闻

400组,30套!聚亿·椰海锦程为何能在春节火出圈?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

无障碍浏览 进入关怀版