网易首页 > 网易号 > 正文 申请入驻

研究显示大语言模型数学计算能力令人担忧

0
分享至


在乔治·奥威尔的《1984》世界中,二加二等于五。而大语言模型在数学方面的表现也好不到哪里去。

尽管AI模型经过训练能够输出正确答案,并能识别"2 + 2 = 5"可能是对奥威尔反乌托邦小说中党的忠诚度测试的引用,但它们仍然无法可靠地进行计算。

来自波兰在线计算器制造商Omni Calculator以及法国、德国和波兰各大学的科学家们设计了一个名为ORCA(AI计算全方位研究)的数学基准测试,该测试在各种技术和科学领域提出了一系列以数学为导向的自然语言问题。然后他们对五个领先的大语言模型进行了测试。

ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的得分都未及格,准确率均在63%或更低。

目前有各种其他基准测试用于评估AI模型的数学能力,如GSM8K和MATH-500。如果仅从AI模型在这些测试中的得分来判断,你可能会认为机器学习几乎学会了一切,一些模型的得分达到0.95或更高。

但正如我们所注意到的,基准测试往往缺乏严格的科学设计。

ORCA基准测试背后的研究人员——Claudia Herambourg、Dawid Siuda、Julia Kopczyńska、Joao R. L. Santos、Wojciech Sas和Joanna Smietańska-Nowak——认为,虽然像OpenAI的GPT-4这样的模型在GSM8K和MATH等测试中得分很高,但先前的研究表明大语言模型仍然会犯逻辑和算术错误。根据牛津大学"用数据看世界"网站的数据,该网站衡量AI模型相对于人类基准得分0的表现,AI模型的数学推理得分为-7.44(基于2024年4月的数据)。

更重要的是,作者们表示,许多现有的基准数据集已经被纳入模型训练数据中,这种情况类似于学生在考试前就拿到了答案。因此,他们认为需要ORCA来评估实际的计算推理能力,而不是模式记忆。

根据他们通过预印本服务arXiv和Omni Calculator网站发布的研究,ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4、DeepSeek V3.2"仅达到45-63%的准确率,错误主要与舍入(35%)和计算错误(33%)有关。"

该评估于2025年10月进行,使用了500个不同类别的数学导向提示:生物与化学、工程与建筑、金融与经济、健康与体育、数学与转换、物理学,以及统计学与概率。

论文指出:"Gemini 2.5 Flash取得了最高的整体准确率(63%),Grok 4紧随其后(62.8%),DeepSeek V3.2排名第三,为52.0%。"

"ChatGPT-5和Claude Sonnet 4.5表现相当,但水平较低(分别为49.4%和45.2%),这表明即使是最先进的专有模型在大约一半的确定性推理任务中仍然失败。这些结果证实,自然语言推理的进步并不能直接转化为一致的计算可靠性。"

Claude Sonnet 4.5的总体得分最低——在任何问题类别中都没能超过65%。而DeepSeek V3.2表现最不稳定,在数学与转换方面表现强劲(74.1%),但在生物与化学(10.5%)和物理学(31.3%)方面得分惨淡。

然而,这些分数可能只是某个时间点的快照,因为这些模型经常被调整或修订。考虑论文中引用的工程与建筑类别中的这个问题:

提示:假设你有7个蓝色LED(3.6V)并联连接,与一个电阻器一起,承受12V电压和5mA电流。电阻器的功耗值是多少(以mW为单位)?

预期结果:42 mW

Claude Sonnet 4.5:294 mW

当记者将这个提示输入Claude Sonnet 4.5时,该模型表示不确定5mA数字是指每个LED的电流(不正确)还是总电流(正确)。它给出了不正确的294 mW答案,同时作为替代方案,也给出了正确的42 mW答案。

简而言之,AI基准测试并不一定能准确反映实际能力。但如果你希望它们能够准确反映,你可能会发现结果是五。

Q&A

Q1:ORCA基准测试是什么?它有什么特别之处?

A:ORCA是由Omni Calculator等机构开发的AI数学能力基准测试,全称"AI计算全方位研究"。它的特别之处在于提出各种技术和科学领域的数学自然语言问题,避免了现有基准测试数据可能已被纳入训练数据的问题,能更真实地评估AI的计算推理能力而非模式记忆。

Q2:主流大语言模型在ORCA测试中表现如何?

A:五个主流大语言模型的表现都不理想,准确率均在63%或更低。其中Gemini 2.5 Flash得分最高(63%),Grok 4紧随其后(62.8%),DeepSeek V3.2为52.0%,ChatGPT-5和Claude Sonnet 4.5分别为49.4%和45.2%。错误主要集中在舍入问题和计算错误上。

Q3:为什么大语言模型在数学计算方面表现不佳?

A:研究表明大语言模型仍然存在逻辑和算术错误问题。虽然它们在一些传统测试中得分很高,但那些测试数据可能已经被纳入训练数据中。ORCA测试显示,自然语言推理的进步并不能直接转化为可靠的计算能力,AI在确定性推理任务中仍有很大改进空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗总统发表讲话:“伊朗正处于一场全面战争之中”

伊朗总统发表讲话:“伊朗正处于一场全面战争之中”

环球网资讯
2026-01-01 19:53:05
2026年的第一天,“我的贷款逾期记录消除了”,多地网友晒出截图:赶上好时候了

2026年的第一天,“我的贷款逾期记录消除了”,多地网友晒出截图:赶上好时候了

每日经济新闻
2026-01-01 22:43:32
潘晓婷一杆将2025打成2026,网友:差点以为是AI,看你明年怎么打出2027

潘晓婷一杆将2025打成2026,网友:差点以为是AI,看你明年怎么打出2027

极目新闻
2026-01-02 11:27:05
郭京飞与姐夫合照忘P图,俩人胖了有30斤,陆毅老得上嘴唇快没了

郭京飞与姐夫合照忘P图,俩人胖了有30斤,陆毅老得上嘴唇快没了

民间平哥
2026-01-01 20:01:28
武当杰克:别喊我“老外”,叫我“老内”|面孔

武当杰克:别喊我“老外”,叫我“老内”|面孔

大象新闻
2026-01-01 16:25:06
肠子都悔青了!一句“挡光”死磕,玉林一邻居宅基地直接改成鱼塘

肠子都悔青了!一句“挡光”死磕,玉林一邻居宅基地直接改成鱼塘

火山詩话
2026-01-02 08:23:45
68岁冯巩现状曝光:住100平小屋十分节俭,儿子月薪几千他很满意

68岁冯巩现状曝光:住100平小屋十分节俭,儿子月薪几千他很满意

洲洲影视娱评
2025-12-31 17:09:43
张水华东极夺冠仅半天,恶心事发生!元旦调休奖金到手,网友吵翻

张水华东极夺冠仅半天,恶心事发生!元旦调休奖金到手,网友吵翻

削桐作琴
2026-01-01 20:10:36
卢卡申科:“不友好国家”曾策划袭击普京,我提醒他别去南非,很明显西方明白,如果除掉普京一切都会不同

卢卡申科:“不友好国家”曾策划袭击普京,我提醒他别去南非,很明显西方明白,如果除掉普京一切都会不同

鲁中晨报
2026-01-01 22:13:03
暴涨超200%!比金银还猛

暴涨超200%!比金银还猛

深圳晚报
2026-01-01 18:26:53
瑞士酒吧爆炸已致数十人死亡,旅瑞华人:酒吧老旧且地下室狭小,老板是法国人,原因或为火烛烧着天花板

瑞士酒吧爆炸已致数十人死亡,旅瑞华人:酒吧老旧且地下室狭小,老板是法国人,原因或为火烛烧着天花板

极目新闻
2026-01-01 22:19:31
白宫发言人:敢拦截军售就开战

白宫发言人:敢拦截军售就开战

创作者_b3jm
2025-12-31 18:11:15
杨瀚森双塔战术登场!阿夫迪亚27+9+11弗拉格15+6+8开拓者险胜!

杨瀚森双塔战术登场!阿夫迪亚27+9+11弗拉格15+6+8开拓者险胜!

张麻子讲电影
2026-01-01 19:46:24
停工450天,订单锐减40%!外资集体“大撤离”,世界工厂时代结束了?

停工450天,订单锐减40%!外资集体“大撤离”,世界工厂时代结束了?

刘旷
2026-01-01 20:01:47
53岁晚节不保?踩着赵本山上位的闫学晶,终是为荒唐行径买了单

53岁晚节不保?踩着赵本山上位的闫学晶,终是为荒唐行径买了单

暖心萌阿菇凉
2025-12-31 23:46:22
王伟南海跳伞后20年才被找到,10万人搜寻未果

王伟南海跳伞后20年才被找到,10万人搜寻未果

优趣纪史记
2025-12-31 13:25:58
为什么元旦不宜发“马年快乐”?

为什么元旦不宜发“马年快乐”?

历史总在押韵
2026-01-01 16:15:07
人民日报:真正的教育,是别让孩子从小过得“太顺” | 精选

人民日报:真正的教育,是别让孩子从小过得“太顺” | 精选

新东方家庭教育
2025-12-31 11:28:49
江苏女子称奶奶去世公司不批假还被逼离职,公司法人回应:“上班摸鱼,害群之马!”

江苏女子称奶奶去世公司不批假还被逼离职,公司法人回应:“上班摸鱼,害群之马!”

潇湘晨报
2026-01-01 18:41:14
心脏装了6个支架的王石日本看病实录,值得深思

心脏装了6个支架的王石日本看病实录,值得深思

深度报
2026-01-01 23:17:29
2026-01-02 13:43:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15206文章数 49682关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

男子花500万建的别墅被邻居侵占养鸡鸭 邻居:能交租金

头条要闻

男子花500万建的别墅被邻居侵占养鸡鸭 邻居:能交租金

体育要闻

英超离谱夜?4战全平3场0-0 曼城红军翻车

娱乐要闻

武林外传开播20年,郭芙蓉打工期结束

财经要闻

8200亿扩产潮下的锂电供应链之战

汽车要闻

奇瑞汽车12月销量超23万辆 全年超263万辆

态度原创

健康
时尚
艺术
教育
游戏

元旦举家出行,注意防流感

女人到了60岁也要好好穿衣!冬天认准大衣和羽绒服,舒适大方

艺术要闻

雷蒙多·德·马德拉索:定义“美丽时代”的肖像大师

教育要闻

一年级教材意外预测20年后专业前途:短短五个字,让土木专业破防

《逃离塔科夫》开年不利:服务器故障难以登陆!

无障碍浏览 进入关怀版