网易首页 > 网易科技 > 网易科技 > 正文

数学都是体育老师教的!13.11和13.8谁大?大模型翻车了

0
分享至
“大模型全称叫大语言模型,它首先解决的是对人类自然语言理解的问题,所以它并没有把9.9和9.11当成一个数字来看,是按照文字的逻辑来进行比较的”


出品|网易科技《态度》栏目

作者|宗淑贤

编辑|丁广胜

前几日,频频霸榜的综艺《歌手》又一次冲上了热搜。不过这次,话题的焦点无关“好听”“难听”,而是从台上竞演的嘉宾转移到了台下讨论的网友身上。

13.8%和13.11%哪个大?

谁也没有想到,这道本质上源于小学四年级数学内容的问题,居然难倒了一众网友。

对此,有网友感叹:“现在知道天天在网上抬杠的都是什么人了吧?”也有网友无奈回怼:“实在不知道谁大谁小,就去问问AI吧!”

然而,当你真的把这个问题抛给AI来解答,你会惊讶地发现——AI也不会

AI2的研究员林禹臣在推特上贴出了自己用GPT-4o尝试的结果。面对13.11与13.8哪个大这一问题,GPT-4o认为13.11大于13.8,并解释称:“虽然13.8看起来更大,因为它小数点后的数字更少,但13.11实际上更大。这是因为13.8相当于13.80,而13.80小于13.11。”

对此,林禹臣评论说:“常识对AI来说仍然很难。”“这种常识性的人工智能失败案例让我不断想起@YejinChoinka的TED 演讲:为什么人工智能既聪明无比,又愚蠢至极。”

一、大模型的作答现场

带着这个问题,我们对当下主流模型进行了简单的测试。其中,通义千问、文心一言、360智脑、字节豆包、百小应、有道小P和讯飞星火都作出了正确的回答。不过在原因解释方面,讯飞星火略显逊色,其余模型则都是按照分开比较整数和小数部分的思路进行了较为详细的回答。


通义千问


文心一言


360智脑


字节豆包


百小应


有道小P


讯飞星火

而月之暗面旗下的kimi和ChatGPT在这一问题上则双双翻车。

当kimi被问到“13.11和13.8哪个大”时,它首先给出了13.11大于13.8的答案:

经过进一步追问原因,kimi转而又作出了截然不同的回答:

经过第三次追问,kimi终于意识到自己在此前的回答中存在错误,对这一问题的答案进行了修改纠正:

反观ChatGPT,就显得不甚善于反思:

经过两次反问,ChatGPT表示自己对此前错误的回答感到抱歉,并承认13.8大于13.11。但当询问它能否解释原因时,它却给出了这样的回答:This is because the number 13.8 is read as "thirteen point eight," which is larger than "thirteen point eleven".

二、大模型为什么会“数学不好”

回答不好小学生数学题,人工智能大模型又一次被送上了舆论的风口浪尖。面对现今蓬勃发展的各类大模型,人们仍有疑虑:

这到底是人工智能,还是人工智障?

实际上,这一问题并不是最近才出现的,“数学不好”一直是各类大模型的短板。根据上海人工智能实验室旗下司南评测体系OpenCompass进行的高考全卷测试结果,包括GPT-4在内的七个大型人工智能模型在高考语文和英语科目的测试中普遍表现出色,然而在数学科目上则均未能达到及格线,最高分也仅达到了75分。

业内人士将大模型“数学不好”的问题根源追溯至LLM(大型语言模型)的架构设计本身。

LLM通常依赖监督学习,特别是通过预测文本中下一个词的方式来训练。这一过程中,模型被投喂海量的文本数据集,学习并预测给定文本后下一个词出现的概率分布。通过不断将模型的预测与实际文本进行对比和调整,语言模型逐渐掌握了语言的内在规律,从而能够预测并生成连贯的文本。

然而在LLM的框架内,存在使用Tokenizer这一关键环节。它负责将输入的文本分割成更小的单元(tokens),以便模型处理。问题在于,Tokenizer的设计初衷并非专门服务于数学处理,因此在处理包含数字的文本时,可能会将数字看做文本字符串而非数值,从而进行不合理地拆分,导致数字的整体性和意义在模型内部被破坏。

对此,360CEO周鸿祎以9.9和9.11为例,进行了更为通俗的解释:

“大模型全称叫大语言模型,它首先解决的是对人类自然语言理解的问题。所以大模型并没有把9.9和9.11当成一个数字来看,而是把它们分成了两个token。没有经过专门特别的提示和训练,大模型是不懂阿拉伯数字也不懂数学的,所以大模型是按照一个文字的逻辑来进行比较的。9前面是一样大的,那么11比9要大,所以就得出来9.11比9.9要大。”

除了架构设计存在不足外,大模型“数学不好”或许还与它所接受的训练方式有关。主流模型的训练主要源于互联网的文本数据,这类数据中数学问题和解决方案相对匮乏,也在一定程度上限制了模型在此类技能上的发展。

因此,在各类大模型井喷式诞生与发展的现在,也许我们也应当反思:AI该如何进一步设计与训练,才能真正像人类一样思考?

延伸阅读
相关推荐
热点推荐
2008年,章含之病重期间,前夫洪君彦在香港游览,一张罕见的留影

2008年,章含之病重期间,前夫洪君彦在香港游览,一张罕见的留影

户外钓鱼哥阿旱
2026-02-14 07:18:57
4天后将交战皇马!63岁穆帅派8主力踢满全场:22轮不败 差榜首4分

4天后将交战皇马!63岁穆帅派8主力踢满全场:22轮不败 差榜首4分

风过乡
2026-02-14 08:58:50
工信部等三部门:鼓励酿酒企业、装备制造企业、科研机构组建酿酒技术装备创新应用联合体

工信部等三部门:鼓励酿酒企业、装备制造企业、科研机构组建酿酒技术装备创新应用联合体

每日经济新闻
2026-02-14 15:53:05
火箭队记:早知道他受伤,就不要KD!杜兰特:别给自己太大的压力

火箭队记:早知道他受伤,就不要KD!杜兰特:别给自己太大的压力

你的篮球频道
2026-02-14 14:56:14
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
委内瑞拉石油收入超10亿美元 资金将存入美财政部新开账户

委内瑞拉石油收入超10亿美元 资金将存入美财政部新开账户

财联社
2026-02-14 16:54:35
联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

原来仙女不讲理
2026-02-13 17:31:20
他改任副军长,比原职降一级,有些畏难情绪,1年后调去干后勤!

他改任副军长,比原职降一级,有些畏难情绪,1年后调去干后勤!

大运河时空
2026-02-12 15:45:03
这家公司被证监会立案调查!

这家公司被证监会立案调查!

新浪财经
2026-02-14 19:40:12
中戏3人接连投案!正是管林傲霏入学的人,相关人战战兢兢

中戏3人接连投案!正是管林傲霏入学的人,相关人战战兢兢

爱下厨的阿椅
2026-02-15 01:03:54
紧急提醒2.5亿股民!春节前两大王炸利好落地,开门红稳了!

紧急提醒2.5亿股民!春节前两大王炸利好落地,开门红稳了!

风风顺
2026-02-15 02:00:03
1小时会晤结束,中美谈妥?华春莹离开谈判桌,王毅留下一份清单

1小时会晤结束,中美谈妥?华春莹离开谈判桌,王毅留下一份清单

比利
2026-02-15 01:21:53
特朗普可能派出特种部队打击伊朗 或执行地面突击

特朗普可能派出特种部队打击伊朗 或执行地面突击

桂系007
2026-02-14 07:39:35
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

来科点谱
2026-01-13 08:54:22
《父母爱情》:11年后才发现这3人是真家人,一家三口演了5个剧

《父母爱情》:11年后才发现这3人是真家人,一家三口演了5个剧

胡一舸南游y
2026-02-14 19:20:10
米饭立大功!调查发现:糖尿病患者常吃米饭,或能降低7种并发症

米饭立大功!调查发现:糖尿病患者常吃米饭,或能降低7种并发症

健康之光
2026-01-24 12:15:03
一场4-0,制造出惨案,昔日冠军踢疯了,德甲4轮不败

一场4-0,制造出惨案,昔日冠军踢疯了,德甲4轮不败

足球狗说
2026-02-15 00:37:30
联手哈登,有望重返骑士!老将组合注定无冠,最大受害者出现了

联手哈登,有望重返骑士!老将组合注定无冠,最大受害者出现了

体育大朋说
2026-02-14 20:58:28
中国与越南激烈交锋:中国借给越南的白龙尾岛,要不回来了?

中国与越南激烈交锋:中国借给越南的白龙尾岛,要不回来了?

流史岁月
2026-02-12 11:58:06
不满黎智英被判20年,英国展开报复,决定放2.6万香港人“润英”

不满黎智英被判20年,英国展开报复,决定放2.6万香港人“润英”

叮当当科技
2026-02-13 13:22:26
2026-02-15 02:43:00

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

家居
艺术
手机
本地
军事航空

家居要闻

中古雅韵 乐韵伴日常

艺术要闻

你绝对想不到!百大美女竟然在中国当辣妈!

手机要闻

魅族这回,真的要“凉”了?

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

军事要闻

钓鱼岛、黄岩岛、仁爱礁已充满中国年味

无障碍浏览 进入关怀版
×