网易首页 > 网易科技 > 网易科技 > 正文

数学都是体育老师教的!13.11和13.8谁大?大模型翻车了

0
分享至
“大模型全称叫大语言模型,它首先解决的是对人类自然语言理解的问题,所以它并没有把9.9和9.11当成一个数字来看,是按照文字的逻辑来进行比较的”


出品|网易科技《态度》栏目

作者|宗淑贤

编辑|丁广胜

前几日,频频霸榜的综艺《歌手》又一次冲上了热搜。不过这次,话题的焦点无关“好听”“难听”,而是从台上竞演的嘉宾转移到了台下讨论的网友身上。

13.8%和13.11%哪个大?

谁也没有想到,这道本质上源于小学四年级数学内容的问题,居然难倒了一众网友。

对此,有网友感叹:“现在知道天天在网上抬杠的都是什么人了吧?”也有网友无奈回怼:“实在不知道谁大谁小,就去问问AI吧!”

然而,当你真的把这个问题抛给AI来解答,你会惊讶地发现——AI也不会

AI2的研究员林禹臣在推特上贴出了自己用GPT-4o尝试的结果。面对13.11与13.8哪个大这一问题,GPT-4o认为13.11大于13.8,并解释称:“虽然13.8看起来更大,因为它小数点后的数字更少,但13.11实际上更大。这是因为13.8相当于13.80,而13.80小于13.11。”

对此,林禹臣评论说:“常识对AI来说仍然很难。”“这种常识性的人工智能失败案例让我不断想起@YejinChoinka的TED 演讲:为什么人工智能既聪明无比,又愚蠢至极。”

一、大模型的作答现场

带着这个问题,我们对当下主流模型进行了简单的测试。其中,通义千问、文心一言、360智脑、字节豆包、百小应、有道小P和讯飞星火都作出了正确的回答。不过在原因解释方面,讯飞星火略显逊色,其余模型则都是按照分开比较整数和小数部分的思路进行了较为详细的回答。


通义千问


文心一言


360智脑


字节豆包


百小应


有道小P


讯飞星火

而月之暗面旗下的kimi和ChatGPT在这一问题上则双双翻车。

当kimi被问到“13.11和13.8哪个大”时,它首先给出了13.11大于13.8的答案:

经过进一步追问原因,kimi转而又作出了截然不同的回答:

经过第三次追问,kimi终于意识到自己在此前的回答中存在错误,对这一问题的答案进行了修改纠正:

反观ChatGPT,就显得不甚善于反思:

经过两次反问,ChatGPT表示自己对此前错误的回答感到抱歉,并承认13.8大于13.11。但当询问它能否解释原因时,它却给出了这样的回答:This is because the number 13.8 is read as "thirteen point eight," which is larger than "thirteen point eleven".

二、大模型为什么会“数学不好”

回答不好小学生数学题,人工智能大模型又一次被送上了舆论的风口浪尖。面对现今蓬勃发展的各类大模型,人们仍有疑虑:

这到底是人工智能,还是人工智障?

实际上,这一问题并不是最近才出现的,“数学不好”一直是各类大模型的短板。根据上海人工智能实验室旗下司南评测体系OpenCompass进行的高考全卷测试结果,包括GPT-4在内的七个大型人工智能模型在高考语文和英语科目的测试中普遍表现出色,然而在数学科目上则均未能达到及格线,最高分也仅达到了75分。

业内人士将大模型“数学不好”的问题根源追溯至LLM(大型语言模型)的架构设计本身。

LLM通常依赖监督学习,特别是通过预测文本中下一个词的方式来训练。这一过程中,模型被投喂海量的文本数据集,学习并预测给定文本后下一个词出现的概率分布。通过不断将模型的预测与实际文本进行对比和调整,语言模型逐渐掌握了语言的内在规律,从而能够预测并生成连贯的文本。

然而在LLM的框架内,存在使用Tokenizer这一关键环节。它负责将输入的文本分割成更小的单元(tokens),以便模型处理。问题在于,Tokenizer的设计初衷并非专门服务于数学处理,因此在处理包含数字的文本时,可能会将数字看做文本字符串而非数值,从而进行不合理地拆分,导致数字的整体性和意义在模型内部被破坏。

对此,360CEO周鸿祎以9.9和9.11为例,进行了更为通俗的解释:

“大模型全称叫大语言模型,它首先解决的是对人类自然语言理解的问题。所以大模型并没有把9.9和9.11当成一个数字来看,而是把它们分成了两个token。没有经过专门特别的提示和训练,大模型是不懂阿拉伯数字也不懂数学的,所以大模型是按照一个文字的逻辑来进行比较的。9前面是一样大的,那么11比9要大,所以就得出来9.11比9.9要大。”

除了架构设计存在不足外,大模型“数学不好”或许还与它所接受的训练方式有关。主流模型的训练主要源于互联网的文本数据,这类数据中数学问题和解决方案相对匮乏,也在一定程度上限制了模型在此类技能上的发展。

因此,在各类大模型井喷式诞生与发展的现在,也许我们也应当反思:AI该如何进一步设计与训练,才能真正像人类一样思考?

延伸阅读
相关推荐
热点推荐
徐帆回应离婚5个月,冯小刚近况曝光,内心早已看透一切

徐帆回应离婚5个月,冯小刚近况曝光,内心早已看透一切

甜柠聊史
2026-01-14 14:25:28
春节攻势:乌克兰对莫斯科发动最大规模空袭!数百架无人机齐发

春节攻势:乌克兰对莫斯科发动最大规模空袭!数百架无人机齐发

项鹏飞
2026-02-16 20:05:05
联合国高官秀四语唯独跳过中文,中国代表的回应让全场起立鼓掌

联合国高官秀四语唯独跳过中文,中国代表的回应让全场起立鼓掌

兰妮搞笑分享
2026-02-16 23:43:46
皇马附加赛首回合大名单:姆巴佩领衔,贝林厄姆等4人缺阵

皇马附加赛首回合大名单:姆巴佩领衔,贝林厄姆等4人缺阵

懂球帝
2026-02-16 19:28:08
爱奇艺独播!王阳王骁王佳佳许龄月领衔《奉陪到底》,全员实力派

爱奇艺独播!王阳王骁王佳佳许龄月领衔《奉陪到底》,全员实力派

小娱乐悠悠
2026-02-17 00:14:56
春晚名场面!王一博获好评,易烊千玺垫肩抢镜,热巴让人认不出

春晚名场面!王一博获好评,易烊千玺垫肩抢镜,热巴让人认不出

萌神木木
2026-02-16 21:24:57
2026年“正月初一”百年不遇,牢记不去“三地”,提前知道不吃亏

2026年“正月初一”百年不遇,牢记不去“三地”,提前知道不吃亏

一甲山人
2026-02-12 09:09:06
体育总局宣布周继红免职退休,曾引发内斗争议,如今能否平稳落地

体育总局宣布周继红免职退休,曾引发内斗争议,如今能否平稳落地

历史龙元阁
2025-11-23 15:15:03
从“毛姐”到无人问津:她曾坐拥14亿,如今饭店周末仅两三桌客人

从“毛姐”到无人问津:她曾坐拥14亿,如今饭店周末仅两三桌客人

牛牛叨史
2026-02-05 22:46:34
舒淇在节目里第一次承认,她和冯德伦为了要孩子已经折腾了九年。

舒淇在节目里第一次承认,她和冯德伦为了要孩子已经折腾了九年。

岁月有情1314
2025-11-29 15:40:25
表姐回门宴请全家吃饭,我故意没带钱,结账时:弟弟怎么不带钱

表姐回门宴请全家吃饭,我故意没带钱,结账时:弟弟怎么不带钱

奶茶麦子
2026-02-16 20:02:52
2026马年寄语100句,愿你马年行大运,马到成功,万事顺遂!

2026马年寄语100句,愿你马年行大运,马到成功,万事顺遂!

趴窗看雨的小龟
2026-02-15 00:15:03
婆媳和睦!王昶母亲给儿媳钱天一织围巾,并称钱天一:我的小美人

婆媳和睦!王昶母亲给儿媳钱天一织围巾,并称钱天一:我的小美人

凤幻洋
2026-02-16 13:54:50
台湾统一方式或出乎意料,特朗普才发现:中国真高明,自己学不来

台湾统一方式或出乎意料,特朗普才发现:中国真高明,自己学不来

卷史
2026-01-29 16:18:40
赵本山身家上亿却自身难保,弟子接连出事前途未卜

赵本山身家上亿却自身难保,弟子接连出事前途未卜

踏青云看世界
2026-02-17 06:11:26
谁也没想到!曼联这位世界级,竟被临时主帅直接判离队

谁也没想到!曼联这位世界级,竟被临时主帅直接判离队

澜归序
2026-02-16 06:33:59
萨拉赫终于妥协!利物浦两大核心并肩作战,斯洛特帅位稳了?

萨拉赫终于妥协!利物浦两大核心并肩作战,斯洛特帅位稳了?

锐评利物浦
2026-02-16 23:44:47
15年前,一位高手教给我15条“老掉牙”的交易规则,却让人年年赚钱

15年前,一位高手教给我15条“老掉牙”的交易规则,却让人年年赚钱

汇商Forexpress
2026-02-03 10:00:00
央视动真格了!2026春晚大换血,赵本山当年的狠话终于应验

央视动真格了!2026春晚大换血,赵本山当年的狠话终于应验

绚丽的画卷
2026-02-07 13:53:12
春晚开场,周慧敏来了,依旧年轻,合唱组集体粉色亮相,美到窒息

春晚开场,周慧敏来了,依旧年轻,合唱组集体粉色亮相,美到窒息

陈意小可爱
2026-02-16 22:12:53
2026-02-17 06:52:49

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

家居
房产
时尚
教育
军事航空

家居要闻

中古雅韵 乐韵伴日常

房产要闻

三亚新机场,又传出新消息!

记录最近收获很大的一次深度链接

教育要闻

不承认有差生,就是教育进步?

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版
×