网易首页 > 网易科技 > 网易科技 > 正文

数学都是体育老师教的!13.11和13.8谁大?大模型翻车了

0
分享至
“大模型全称叫大语言模型,它首先解决的是对人类自然语言理解的问题,所以它并没有把9.9和9.11当成一个数字来看,是按照文字的逻辑来进行比较的”


出品|网易科技《态度》栏目

作者|宗淑贤

编辑|丁广胜

前几日,频频霸榜的综艺《歌手》又一次冲上了热搜。不过这次,话题的焦点无关“好听”“难听”,而是从台上竞演的嘉宾转移到了台下讨论的网友身上。

13.8%和13.11%哪个大?

谁也没有想到,这道本质上源于小学四年级数学内容的问题,居然难倒了一众网友。

对此,有网友感叹:“现在知道天天在网上抬杠的都是什么人了吧?”也有网友无奈回怼:“实在不知道谁大谁小,就去问问AI吧!”

然而,当你真的把这个问题抛给AI来解答,你会惊讶地发现——AI也不会

AI2的研究员林禹臣在推特上贴出了自己用GPT-4o尝试的结果。面对13.11与13.8哪个大这一问题,GPT-4o认为13.11大于13.8,并解释称:“虽然13.8看起来更大,因为它小数点后的数字更少,但13.11实际上更大。这是因为13.8相当于13.80,而13.80小于13.11。”

对此,林禹臣评论说:“常识对AI来说仍然很难。”“这种常识性的人工智能失败案例让我不断想起@YejinChoinka的TED 演讲:为什么人工智能既聪明无比,又愚蠢至极。”

一、大模型的作答现场

带着这个问题,我们对当下主流模型进行了简单的测试。其中,通义千问、文心一言、360智脑、字节豆包、百小应、有道小P和讯飞星火都作出了正确的回答。不过在原因解释方面,讯飞星火略显逊色,其余模型则都是按照分开比较整数和小数部分的思路进行了较为详细的回答。


通义千问


文心一言


360智脑


字节豆包


百小应


有道小P


讯飞星火

而月之暗面旗下的kimi和ChatGPT在这一问题上则双双翻车。

当kimi被问到“13.11和13.8哪个大”时,它首先给出了13.11大于13.8的答案:

经过进一步追问原因,kimi转而又作出了截然不同的回答:

经过第三次追问,kimi终于意识到自己在此前的回答中存在错误,对这一问题的答案进行了修改纠正:

反观ChatGPT,就显得不甚善于反思:

经过两次反问,ChatGPT表示自己对此前错误的回答感到抱歉,并承认13.8大于13.11。但当询问它能否解释原因时,它却给出了这样的回答:This is because the number 13.8 is read as "thirteen point eight," which is larger than "thirteen point eleven".

二、大模型为什么会“数学不好”

回答不好小学生数学题,人工智能大模型又一次被送上了舆论的风口浪尖。面对现今蓬勃发展的各类大模型,人们仍有疑虑:

这到底是人工智能,还是人工智障?

实际上,这一问题并不是最近才出现的,“数学不好”一直是各类大模型的短板。根据上海人工智能实验室旗下司南评测体系OpenCompass进行的高考全卷测试结果,包括GPT-4在内的七个大型人工智能模型在高考语文和英语科目的测试中普遍表现出色,然而在数学科目上则均未能达到及格线,最高分也仅达到了75分。

业内人士将大模型“数学不好”的问题根源追溯至LLM(大型语言模型)的架构设计本身。

LLM通常依赖监督学习,特别是通过预测文本中下一个词的方式来训练。这一过程中,模型被投喂海量的文本数据集,学习并预测给定文本后下一个词出现的概率分布。通过不断将模型的预测与实际文本进行对比和调整,语言模型逐渐掌握了语言的内在规律,从而能够预测并生成连贯的文本。

然而在LLM的框架内,存在使用Tokenizer这一关键环节。它负责将输入的文本分割成更小的单元(tokens),以便模型处理。问题在于,Tokenizer的设计初衷并非专门服务于数学处理,因此在处理包含数字的文本时,可能会将数字看做文本字符串而非数值,从而进行不合理地拆分,导致数字的整体性和意义在模型内部被破坏。

对此,360CEO周鸿祎以9.9和9.11为例,进行了更为通俗的解释:

“大模型全称叫大语言模型,它首先解决的是对人类自然语言理解的问题。所以大模型并没有把9.9和9.11当成一个数字来看,而是把它们分成了两个token。没有经过专门特别的提示和训练,大模型是不懂阿拉伯数字也不懂数学的,所以大模型是按照一个文字的逻辑来进行比较的。9前面是一样大的,那么11比9要大,所以就得出来9.11比9.9要大。”

除了架构设计存在不足外,大模型“数学不好”或许还与它所接受的训练方式有关。主流模型的训练主要源于互联网的文本数据,这类数据中数学问题和解决方案相对匮乏,也在一定程度上限制了模型在此类技能上的发展。

因此,在各类大模型井喷式诞生与发展的现在,也许我们也应当反思:AI该如何进一步设计与训练,才能真正像人类一样思考?

延伸阅读
相关推荐
热点推荐
刘涛全身心的陶醉在其中,足以诠释了她的表演功底,实力女演员!

刘涛全身心的陶醉在其中,足以诠释了她的表演功底,实力女演员!

草莓解说体育
2026-04-06 14:03:02
刚刚,直线拉升!暴涨超870点

刚刚,直线拉升!暴涨超870点

中国基金报
2026-04-06 12:36:13
涉嫌严重违纪违法,虞安生被查

涉嫌严重违纪违法,虞安生被查

吉刻新闻
2026-04-05 20:05:38
“装修公司最怕你问这3句话!第2句一出口,设计师当场变脸,报价立马少2万!”

“装修公司最怕你问这3句话!第2句一出口,设计师当场变脸,报价立马少2万!”

绘本家居
2026-03-28 12:23:12
特朗普,最新发声!霍尔木兹海峡,突传大消息!加密货币跳水,超8万人爆仓!

特朗普,最新发声!霍尔木兹海峡,突传大消息!加密货币跳水,超8万人爆仓!

证券时报e公司
2026-04-05 21:41:10
太强了!上海宝妈晒出生育津贴219608.20元到账,评论区彻底炸锅

太强了!上海宝妈晒出生育津贴219608.20元到账,评论区彻底炸锅

火山詩话
2026-04-05 07:41:55
国防科技大学历任校长

国防科技大学历任校长

祁州校尉
2026-04-05 17:30:05
从敬畏到挑衅!松岛辉空差异化点评国乒双雄,点破王楚钦命门

从敬畏到挑衅!松岛辉空差异化点评国乒双雄,点破王楚钦命门

体育见习官
2026-04-05 13:08:20
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
输火箭采访!阿门征服科尔,库里回应状态与最后不叫暂停原因!

输火箭采访!阿门征服科尔,库里回应状态与最后不叫暂停原因!

篮球资讯达人
2026-04-06 14:47:07
广州南站突发!64岁大叔狂喝水后心跳骤停,医生提醒

广州南站突发!64岁大叔狂喝水后心跳骤停,医生提醒

番禺台
2026-04-05 18:22:03
触目惊心!陕西女教师案:5人背景强硬、串通毁证,正义不容遮掩

触目惊心!陕西女教师案:5人背景强硬、串通毁证,正义不容遮掩

奇思妙想草叶君
2026-04-03 21:18:12
赵心童7进决赛全夺冠,狂赚1371万奖金!世锦赛今日开打,附赛程

赵心童7进决赛全夺冠,狂赚1371万奖金!世锦赛今日开打,附赛程

球场没跑道
2026-04-06 07:03:27
世锦赛下午六点开锣!赵心童是1号种子,和丁俊晖、肖国栋同区!

世锦赛下午六点开锣!赵心童是1号种子,和丁俊晖、肖国栋同区!

格斗社
2026-04-06 10:17:50
当年,南薰礁守岛11名官兵遇袭,6人牺牲5人失踪,到底是谁干的?

当年,南薰礁守岛11名官兵遇袭,6人牺牲5人失踪,到底是谁干的?

阿胡
2026-04-03 13:09:18
快讯!伊朗革命卫队回应特朗普关于营救第二名F-15飞行员的发文!

快讯!伊朗革命卫队回应特朗普关于营救第二名F-15飞行员的发文!

达文西看世界
2026-04-06 09:06:05
郭艾伦被熟人骗千万过程+细节,资产大洗牌乱成一团,家属情绪崩溃

郭艾伦被熟人骗千万过程+细节,资产大洗牌乱成一团,家属情绪崩溃

林子说事
2026-04-06 07:20:34
暴跌70%!理想L9跌出前十,问界M9无缘前三,大型SUV彻底变天!

暴跌70%!理想L9跌出前十,问界M9无缘前三,大型SUV彻底变天!

三农老历
2026-04-06 10:25:47
俄罗斯没想到,美国也没想到,如今中国石油,成为石油的遥遥领先

俄罗斯没想到,美国也没想到,如今中国石油,成为石油的遥遥领先

花小猫的美食日常
2026-04-06 05:39:46
年年体检正常,突然查出肝癌晚期,医生指着CT说:这里去年就有了

年年体检正常,突然查出肝癌晚期,医生指着CT说:这里去年就有了

健身狂人
2026-04-03 15:03:01
2026-04-06 14:59:00

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

特朗普希望7日前与伊朗达成协议 专家:实现可能性较低

头条要闻

特朗普希望7日前与伊朗达成协议 专家:实现可能性较低

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

118吨!这家央行,大幅抛售黄金!

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

教育
时尚
数码
房产
艺术

教育要闻

于东来:父母自己活得幸福就是给孩子最好的财富

AI时代,辨别真相的成本变高了

数码要闻

Mac跑AI模型更方便了,消息称苹果已为英伟达、AMD外置显卡开绿灯

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

艺术要闻

20位中国当代名家的25幅油画

无障碍浏览 进入关怀版
×