网易首页 > 网易号 > 正文 申请入驻

9.11和9.9谁大?小孩都会,要改变世界的AI却算不出,GPT也没幸免

0
分享至

前言

现如今的人工智能正在以惊人的速度发展,似乎无所不能。

但你能想象吗,连小学生都能轻松回答的数学问题,却把许多顶尖的AI大模型难倒了。

GPT-4号称要改变世界,但面对“9.11和9.9谁大”这样简单的问题,它也犯了难,这到底是怎么一回事?

本文内容均引用权威资料结合个人观点进行撰写,文中已标注文献来源及截图,请知悉。

AI大模型的数学之殇

信息来源:
上观新闻:翻车了!9.11和9.9哪个大?记者实测12个大模型8个都答错

民间智慧有云:‘三个臭皮匠,顶个诸葛亮。’但放眼当下,三个AI大模型,怕是连小学生的数学水平都不如。

最近,一个看似简单的数学问题在AI圈引发了轩然大波。

当被问到“9.11和9.9哪个更大”时,众多顶尖AI大模型纷纷落入陷阱,给出了错误的答案,这其中就包括了备受瞩目的GPT-4。

作为当前自然语言处理领域的佼佼者,GPT-4在许多任务上展现出了超越人类的能力。

但是在面对这道小学生都能轻松应对的数学题,它却犯了难,GPT-4错误地比较了小数点后的数字大小,得出了9.11比9.9更大的结论

其实,GPT-4并非个例,从谷歌、微软到国内的科技巨头,众多公司开发的AI大模型在这个问题上同样表现失常,一时间,“AI不会数数”的话题登上了热搜榜。

对于这个现象,业内专家给出了解释,原来,大模型在处理数字时,往往会将其拆分成更小的单元。

比如,“9.11”会被拆成“9”、“小数点”和“11”三个部分。在这种情况下,模型误以为11比9更大,从而得出了错误的结论。

这一看似简单的失误,实则暴露了当前AI大模型在数学逻辑和常识理解方面的重大缺陷,作为人工智能的标杆,连GPT-4都难逃一劫,更不用说其他模型了

“三尺童子口,胜读十年书。”AI大模型们在这个问题上的集体翻车,不禁让人感慨万千。

它们或许能够流畅地与人对话,创作出优美的文章,但面对最基础的数学问题,却频频受挫。

这不仅引发了人们对AI实际能力的质疑,也给业界敲响了警钟:在追求高级功能的同时,不要忽视最基本的能力建设。

国内外大模型的表现对比

在“9.11和9.9”这道题上,国内外大模型的表现可谓是泾渭分明,一边是谷歌、微软等巨头的模型集体掉链子,一边是国产模型的优异表现,令人刮目相看。

先说国外的情况,谷歌的GeminiAdvanced、微软的GPT等知名模型在这个问题上一个比一个离谱。

它们不仅给出了错误答案,还振振有词地解释起了个中缘由,仿佛在说“这个世界就应该是这样的”。

与之形成鲜明对比的,是国产模型的表现,在第一财经记者的测试中,阿里通义千问、百度文心一言等模型准确无误地给出了正确答案。

更令人惊喜的是,腾讯元宝不仅答对了题目,还主动整理了网上的相关讨论,并注明了引用来源,展现出了强大的信息整合能力。

当然了,国产阵营中也不乏翻车的选手,月之暗面的Kimi、智谱AI的ChatGLM等模型在这道题上同样栽了跟头。

不过,与国外模型不同的是,它们在被追问时,都诚恳地承认了自己的错误,并迅速给出了正确答案,这种虚心学习、勇于认错的品质,实在是值得点赞。

“胜者不骄,败者不馁。”从这次事件中,我们可以看到国内外AI发展的差异,在基础能力的打磨上,国产模型似乎更胜一筹。

它们不仅在准确性上有优势,在应对错误时也显得更加谦逊和进取,但我们也要看到,无论是国内还是国外,AI模型在数学能力上都还有很大的提升空间。

“9.11和9.9”只是一道再简单不过的小学题,如果连这都应付不来,又何谈去解决更加复杂的现实问题呢?

其实,这已经不是AI第一次在数学题上“翻车”了,在之前的一次高考模拟测试中,多个大模型的数学成绩就惨不忍睹,最高分也只有75分。

面对主观题,它们的回答往往逻辑混乱,甚至出现过程错误但得出正确答案的离奇情况。

大模型数学能力差的原因探析

信息来源:
澎湃新闻:9.11和9.9哪个大?AI翻车!好多网友竟也争论不休……

在AI大模型的数学考场上,一道道简单的题目就像一块块绊脚石,将这些曾经的“优等生”绊得跌跌撞撞。

但让我们先别急着嘲笑它们,而是要问一问:是什么让这些“学霸”在数学面前变成了“学渣”?

其实大模型在数学上的失误,并非偶然,这其中既有技术上的原因,也有训练数据的问题。

技术层面会存在着一定的问题,大模型在处理文本时,通常会使用一种叫做“Tokenizer”的机制将文本拆分成更小的单元。

这就像是把一句话拆成一个个单词,方便模型理解和处理,但问题就出在这里。

Tokenizer在拆分数字时,往往会将其分割成不合理的部分,就像我们之前提到的,“9.11”会被拆成“9”、“小数点”和“11”三个部分。

这种拆分方式打乱了数字的整体性,导致模型误以为11比9更大,可以说,Tokenizer就像一个不称职的“数学老师”,把简单的数字概念教错了,难怪学生们会犯错。

但Tokenizer只是问题的一部分,更深层次的原因,在于大模型训练数据的局限性。

我们知道,大模型主要是通过大量的互联网文本数据来学习的,但在这些数据中,数学问题和解题过程的占比并不高。

相比之下,模型接触到的更多是一些与数字相关的常识性知识,比如“9.11事件”之类的。

这就导致了一个尴尬的局面:模型在处理数字时,往往会联想到一些与数学无关的概念,而对数字本身的理解却不够深入。

这就像是一个学生,整天在历史课上学习“9.11事件”,却没有好好上数学课。

而互联网上的数学知识往往是零散、不系统的,模型在学习过程中,很难形成一套完整的数学逻辑体系。

这就像是一个学生,虽然学了很多数学知识,但却没有掌握解题的方法和思路。

种种因素加together,造就了当前大模型在数学上的尴尬处境,它们就像是一群“数学盲”,虽然能认识数字,但却不理解数字背后的逻辑。

这一现象引发了业界对AI数学能力的广泛质疑,如果连最基础的数学都搞不定,AI又如何去解决更加复杂的现实问题呢?

这个问题,已经成为悬在AI头上的一把达摩克利斯之剑。

关键是要找到问题的根源,并着手解决,这需要AI企业在技术和数据上多下功夫,也需要整个社会为AI的数学教育贡献力量。

“冰冻三尺,非一日之寒。”大模型的数学短板,不是一朝一夕形成的,也不可能一蹴而就地解决。

改进AI数学能力的方法

在批评声中,我们不难听出一丝无奈:AI怎么就这么“笨”呢?但与其一味地抱怨,不如想想如何帮助它们提高。

毕竟,AI的数学教育,关乎着它们能否真正服务于人类社会的未来,既然Tokenizer的拆分方式存在问题,那么就要对其进行改进。

一种可能的方法是,在拆分数字时,将其视为一个整体,而不是简单地按照字符来分割,这样,模型就能更好地理解数字的真正含义。

另一种方法是引入更多的数学符号和公式,通过特殊的标记,让模型明白这是一个数学问题,需要用数学的方法来解决。

这就像是在课本上给重点内容加粗、划线,提示学生要重点掌握,但技术只能解决一部分问题。更重要的,是要丰富AI的数学训练数据。

我们可以为AI提供更多的数学题库,让它们在海量的练习中掌握解题技巧,我们也可以将数学知识整理成结构化的课程,帮助AI形成完整的数学逻辑体系。

这就像是给AI请了一个“数学家教”,手把手地教它们如何解题,如何思考。

当然了,这个过程不可能一蹴而就,还是需要设计科学的学习路径,循序渐进地提升AI的数学能力。

从简单的算术题开始,逐步过渡到复杂的应用题,让AI在不断的练习中成长。

就像孩子们从数数开始学习数学一样,我们要让AI真正理解数字的概念,理解加减乘除的意义,只有打好基础,AI才能在更高层次的数学问题上有所建树。

除了“填鸭式”的学习,我们还可以鼓励AI进行自主探索,给它们一些开放性的数学问题,让它们自己去思考,去尝试不同的解法。

在这个过程中,AI不仅能巩固所学的知识,还能培养独立思考的能力,这就像是给了AI一个“数学实验室”,让它们在自由探索中收获成长的乐趣。

即使有了这些方法,AI的数学之路仍然会充满荆棘,但只要我们坚持不懈,总有一天,AI会成为名副其实的“数学小达人”。

到那时,它们不仅能轻松应对“9.11和9.9”这样的简单问题,还能运用数学知识解决现实中的复杂难题。

它们会成为人类探索未知世界的得力助手,为科技的进步贡献自己的力量,这就是我们期待的未来。一个AI与人类携手,用数学的力量改变世界的未来。

结语

“9.11和9.9谁大?”这个看似简单的问题,其实折射出了当前AI发展的一个缩影,在追逐高级功能的同时,我们似乎忽视了最基础的能力建设。

但这并不意味着前路渺茫,通过技术改进、数据丰富和教育创新,我们完全有能力帮助AI提高数学能力。

无论是AI企业的技术人员,还是普通的教育工作者,都可以为AI的数学教育添砖加瓦。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
83岁高明近况:儿子高亮去世后,儿媳已成他和妻子的晚年依靠

83岁高明近况:儿子高亮去世后,儿媳已成他和妻子的晚年依靠

小熊侃史
2025-12-16 10:49:09
王毅挂断电话,伊朗援兵终于赶到,特朗普最后一刻喊停,不打了?

王毅挂断电话,伊朗援兵终于赶到,特朗普最后一刻喊停,不打了?

知鉴明史
2026-01-16 15:56:06
财富分配不均这层窗户纸,终于被刘世景捅破了。

财富分配不均这层窗户纸,终于被刘世景捅破了。

流苏晚晴
2026-01-18 19:23:13
国足未来第一右后卫:杨希加时赛最后10分钟4镜头太感人!

国足未来第一右后卫:杨希加时赛最后10分钟4镜头太感人!

邱泽云
2026-01-17 23:40:58
刘銮雄太宠老婆了!甘比出席活动,戴一整套帝王紫宝石超显富贵!

刘銮雄太宠老婆了!甘比出席活动,戴一整套帝王紫宝石超显富贵!

娱乐团长
2026-01-18 13:03:35
CBA刺激一夜!北京+上海都赢球,辽宁4战3败,积分榜前2名仅差1分

CBA刺激一夜!北京+上海都赢球,辽宁4战3败,积分榜前2名仅差1分

小火箭爱体育
2026-01-18 21:51:45
环沪惨案十周年:部分购房者实在太短视了

环沪惨案十周年:部分购房者实在太短视了

环线房产咨询
2026-01-16 19:13:11
被吓输?李昊玩心理战!看纸条后:对手2个点球,1个踢飞另1被扑

被吓输?李昊玩心理战!看纸条后:对手2个点球,1个踢飞另1被扑

足球大腕
2026-01-17 23:30:33
2026年最大风口?万亿资金大迁徙,一波造富神话刚开始

2026年最大风口?万亿资金大迁徙,一波造富神话刚开始

柏年说政经
2026-01-16 18:00:03
西方花了30多年,终于用“中国崩溃论”把自己整崩溃了

西方花了30多年,终于用“中国崩溃论”把自己整崩溃了

阿器谈史
2025-12-03 23:15:31
B站百万粉丝博主被封禁!疑似得罪米哈游被制裁

B站百万粉丝博主被封禁!疑似得罪米哈游被制裁

游民星空
2026-01-18 12:09:16
申军:李昊是邵佳一推荐来当第二门将的,他的心理素质很好

申军:李昊是邵佳一推荐来当第二门将的,他的心理素质很好

懂球帝
2026-01-18 18:00:09
2人身亡、5人失联、66人送医!王伟中、包钢赶赴爆炸事故现场

2人身亡、5人失联、66人送医!王伟中、包钢赶赴爆炸事故现场

中国新闻周刊
2026-01-18 19:47:35
开放引力显现!海南自贸港交出封关“满月”成绩单

开放引力显现!海南自贸港交出封关“满月”成绩单

新华社
2026-01-18 16:58:16
越南少将大实话:当年中国撤军为啥不追?不是不想,是一份绝密命令让人不得不服

越南少将大实话:当年中国撤军为啥不追?不是不想,是一份绝密命令让人不得不服

老杉说历史
2026-01-14 20:31:37
全场最低正负值!这样的球员竟然能够在湖人进入先发阵容?

全场最低正负值!这样的球员竟然能够在湖人进入先发阵容?

稻谷与小麦
2026-01-18 23:03:30
王菲没想到,李亚鹏2天收1400万后,海哈金喜凭一举动迎口碑暴涨

王菲没想到,李亚鹏2天收1400万后,海哈金喜凭一举动迎口碑暴涨

做一个合格的吃瓜群众
2026-01-18 16:08:38
1000架歼-20和900架歼-16?英国智库:难以战胜2030年的中国空军

1000架歼-20和900架歼-16?英国智库:难以战胜2030年的中国空军

沧海旅行家
2026-01-17 14:05:11
AI流量全球排名:GPT64.5%,Gemini21.5%,DS呢?

AI流量全球排名:GPT64.5%,Gemini21.5%,DS呢?

随波荡漾的漂流瓶
2026-01-18 17:34:10
成龙潘志文悼念梁小龙,香港演艺圈“四小龙”走了两个,令人痛惜

成龙潘志文悼念梁小龙,香港演艺圈“四小龙”走了两个,令人痛惜

陶寻爱说
2026-01-18 20:13:18
2026-01-18 23:36:49
沧海阅铭
沧海阅铭
东临碣石,以观沧海
2978文章数 785关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

欧盟"外长":特朗普的关税威胁分裂欧美 会让中国受益

头条要闻

欧盟"外长":特朗普的关税威胁分裂欧美 会让中国受益

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

时尚
数码
本地
房产
艺术

美拉德过时了?今年冬天最火的4个颜色竟然是它们

数码要闻

双3D缓存新王登基!AMD锐龙9 9950X3D2跑分曝光:单多核均超9950X3D

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

艺术要闻

她是越南的绝世美人,你绝对不想错过!

无障碍浏览 进入关怀版