网易首页 > 网易号 > 正文 申请入驻

9.11和9.9谁大?小孩都会,要改变世界的AI却算不出,GPT也没幸免

0
分享至

前言

现如今的人工智能正在以惊人的速度发展,似乎无所不能。

但你能想象吗,连小学生都能轻松回答的数学问题,却把许多顶尖的AI大模型难倒了。

GPT-4号称要改变世界,但面对“9.11和9.9谁大”这样简单的问题,它也犯了难,这到底是怎么一回事?

本文内容均引用权威资料结合个人观点进行撰写,文中已标注文献来源及截图,请知悉。

AI大模型的数学之殇

信息来源:
上观新闻:翻车了!9.11和9.9哪个大?记者实测12个大模型8个都答错

民间智慧有云:‘三个臭皮匠,顶个诸葛亮。’但放眼当下,三个AI大模型,怕是连小学生的数学水平都不如。

最近,一个看似简单的数学问题在AI圈引发了轩然大波。

当被问到“9.11和9.9哪个更大”时,众多顶尖AI大模型纷纷落入陷阱,给出了错误的答案,这其中就包括了备受瞩目的GPT-4。

作为当前自然语言处理领域的佼佼者,GPT-4在许多任务上展现出了超越人类的能力。

但是在面对这道小学生都能轻松应对的数学题,它却犯了难,GPT-4错误地比较了小数点后的数字大小,得出了9.11比9.9更大的结论

其实,GPT-4并非个例,从谷歌、微软到国内的科技巨头,众多公司开发的AI大模型在这个问题上同样表现失常,一时间,“AI不会数数”的话题登上了热搜榜。

对于这个现象,业内专家给出了解释,原来,大模型在处理数字时,往往会将其拆分成更小的单元。

比如,“9.11”会被拆成“9”、“小数点”和“11”三个部分。在这种情况下,模型误以为11比9更大,从而得出了错误的结论。

这一看似简单的失误,实则暴露了当前AI大模型在数学逻辑和常识理解方面的重大缺陷,作为人工智能的标杆,连GPT-4都难逃一劫,更不用说其他模型了

“三尺童子口,胜读十年书。”AI大模型们在这个问题上的集体翻车,不禁让人感慨万千。

它们或许能够流畅地与人对话,创作出优美的文章,但面对最基础的数学问题,却频频受挫。

这不仅引发了人们对AI实际能力的质疑,也给业界敲响了警钟:在追求高级功能的同时,不要忽视最基本的能力建设。

国内外大模型的表现对比

在“9.11和9.9”这道题上,国内外大模型的表现可谓是泾渭分明,一边是谷歌、微软等巨头的模型集体掉链子,一边是国产模型的优异表现,令人刮目相看。

先说国外的情况,谷歌的GeminiAdvanced、微软的GPT等知名模型在这个问题上一个比一个离谱。

它们不仅给出了错误答案,还振振有词地解释起了个中缘由,仿佛在说“这个世界就应该是这样的”。

与之形成鲜明对比的,是国产模型的表现,在第一财经记者的测试中,阿里通义千问、百度文心一言等模型准确无误地给出了正确答案。

更令人惊喜的是,腾讯元宝不仅答对了题目,还主动整理了网上的相关讨论,并注明了引用来源,展现出了强大的信息整合能力。

当然了,国产阵营中也不乏翻车的选手,月之暗面的Kimi、智谱AI的ChatGLM等模型在这道题上同样栽了跟头。

不过,与国外模型不同的是,它们在被追问时,都诚恳地承认了自己的错误,并迅速给出了正确答案,这种虚心学习、勇于认错的品质,实在是值得点赞。

“胜者不骄,败者不馁。”从这次事件中,我们可以看到国内外AI发展的差异,在基础能力的打磨上,国产模型似乎更胜一筹。

它们不仅在准确性上有优势,在应对错误时也显得更加谦逊和进取,但我们也要看到,无论是国内还是国外,AI模型在数学能力上都还有很大的提升空间。

“9.11和9.9”只是一道再简单不过的小学题,如果连这都应付不来,又何谈去解决更加复杂的现实问题呢?

其实,这已经不是AI第一次在数学题上“翻车”了,在之前的一次高考模拟测试中,多个大模型的数学成绩就惨不忍睹,最高分也只有75分。

面对主观题,它们的回答往往逻辑混乱,甚至出现过程错误但得出正确答案的离奇情况。

大模型数学能力差的原因探析

信息来源:
澎湃新闻:9.11和9.9哪个大?AI翻车!好多网友竟也争论不休……

在AI大模型的数学考场上,一道道简单的题目就像一块块绊脚石,将这些曾经的“优等生”绊得跌跌撞撞。

但让我们先别急着嘲笑它们,而是要问一问:是什么让这些“学霸”在数学面前变成了“学渣”?

其实大模型在数学上的失误,并非偶然,这其中既有技术上的原因,也有训练数据的问题。

技术层面会存在着一定的问题,大模型在处理文本时,通常会使用一种叫做“Tokenizer”的机制将文本拆分成更小的单元。

这就像是把一句话拆成一个个单词,方便模型理解和处理,但问题就出在这里。

Tokenizer在拆分数字时,往往会将其分割成不合理的部分,就像我们之前提到的,“9.11”会被拆成“9”、“小数点”和“11”三个部分。

这种拆分方式打乱了数字的整体性,导致模型误以为11比9更大,可以说,Tokenizer就像一个不称职的“数学老师”,把简单的数字概念教错了,难怪学生们会犯错。

但Tokenizer只是问题的一部分,更深层次的原因,在于大模型训练数据的局限性。

我们知道,大模型主要是通过大量的互联网文本数据来学习的,但在这些数据中,数学问题和解题过程的占比并不高。

相比之下,模型接触到的更多是一些与数字相关的常识性知识,比如“9.11事件”之类的。

这就导致了一个尴尬的局面:模型在处理数字时,往往会联想到一些与数学无关的概念,而对数字本身的理解却不够深入。

这就像是一个学生,整天在历史课上学习“9.11事件”,却没有好好上数学课。

而互联网上的数学知识往往是零散、不系统的,模型在学习过程中,很难形成一套完整的数学逻辑体系。

这就像是一个学生,虽然学了很多数学知识,但却没有掌握解题的方法和思路。

种种因素加together,造就了当前大模型在数学上的尴尬处境,它们就像是一群“数学盲”,虽然能认识数字,但却不理解数字背后的逻辑。

这一现象引发了业界对AI数学能力的广泛质疑,如果连最基础的数学都搞不定,AI又如何去解决更加复杂的现实问题呢?

这个问题,已经成为悬在AI头上的一把达摩克利斯之剑。

关键是要找到问题的根源,并着手解决,这需要AI企业在技术和数据上多下功夫,也需要整个社会为AI的数学教育贡献力量。

“冰冻三尺,非一日之寒。”大模型的数学短板,不是一朝一夕形成的,也不可能一蹴而就地解决。

改进AI数学能力的方法

在批评声中,我们不难听出一丝无奈:AI怎么就这么“笨”呢?但与其一味地抱怨,不如想想如何帮助它们提高。

毕竟,AI的数学教育,关乎着它们能否真正服务于人类社会的未来,既然Tokenizer的拆分方式存在问题,那么就要对其进行改进。

一种可能的方法是,在拆分数字时,将其视为一个整体,而不是简单地按照字符来分割,这样,模型就能更好地理解数字的真正含义。

另一种方法是引入更多的数学符号和公式,通过特殊的标记,让模型明白这是一个数学问题,需要用数学的方法来解决。

这就像是在课本上给重点内容加粗、划线,提示学生要重点掌握,但技术只能解决一部分问题。更重要的,是要丰富AI的数学训练数据。

我们可以为AI提供更多的数学题库,让它们在海量的练习中掌握解题技巧,我们也可以将数学知识整理成结构化的课程,帮助AI形成完整的数学逻辑体系。

这就像是给AI请了一个“数学家教”,手把手地教它们如何解题,如何思考。

当然了,这个过程不可能一蹴而就,还是需要设计科学的学习路径,循序渐进地提升AI的数学能力。

从简单的算术题开始,逐步过渡到复杂的应用题,让AI在不断的练习中成长。

就像孩子们从数数开始学习数学一样,我们要让AI真正理解数字的概念,理解加减乘除的意义,只有打好基础,AI才能在更高层次的数学问题上有所建树。

除了“填鸭式”的学习,我们还可以鼓励AI进行自主探索,给它们一些开放性的数学问题,让它们自己去思考,去尝试不同的解法。

在这个过程中,AI不仅能巩固所学的知识,还能培养独立思考的能力,这就像是给了AI一个“数学实验室”,让它们在自由探索中收获成长的乐趣。

即使有了这些方法,AI的数学之路仍然会充满荆棘,但只要我们坚持不懈,总有一天,AI会成为名副其实的“数学小达人”。

到那时,它们不仅能轻松应对“9.11和9.9”这样的简单问题,还能运用数学知识解决现实中的复杂难题。

它们会成为人类探索未知世界的得力助手,为科技的进步贡献自己的力量,这就是我们期待的未来。一个AI与人类携手,用数学的力量改变世界的未来。

结语

“9.11和9.9谁大?”这个看似简单的问题,其实折射出了当前AI发展的一个缩影,在追逐高级功能的同时,我们似乎忽视了最基础的能力建设。

但这并不意味着前路渺茫,通过技术改进、数据丰富和教育创新,我们完全有能力帮助AI提高数学能力。

无论是AI企业的技术人员,还是普通的教育工作者,都可以为AI的数学教育添砖加瓦。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA官方:亚历山大当选年度最佳关键球员 多项关键数据联盟第一

NBA官方:亚历山大当选年度最佳关键球员 多项关键数据联盟第一

罗说NBA
2026-04-22 06:18:26
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

不似少年游
2026-04-17 19:31:49
卡戴珊和汉密尔顿海边热吻被拍 两人是相隔8000公里的40岁+异地恋

卡戴珊和汉密尔顿海边热吻被拍 两人是相隔8000公里的40岁+异地恋

劲爆体坛
2026-04-22 07:28:05
周润发750万卖出50平米山顶豪宅,杂草丛生,曾叫价1.95亿卖不掉

周润发750万卖出50平米山顶豪宅,杂草丛生,曾叫价1.95亿卖不掉

螃蟹吃瓜摊
2026-04-20 20:15:05
公牛官方:多诺万正式卸任球队主教练;执教6年仅打进1次季后赛

公牛官方:多诺万正式卸任球队主教练;执教6年仅打进1次季后赛

懂球帝
2026-04-21 22:55:08
光线传媒:2025年净利润同比增长472.62% 拟10派1.5元

光线传媒:2025年净利润同比增长472.62% 拟10派1.5元

证券时报
2026-04-21 21:12:24
总部人去楼空!上千家供应商被欠4亿货款,这场骗局精心设计仅7天

总部人去楼空!上千家供应商被欠4亿货款,这场骗局精心设计仅7天

小祁谈历史
2026-04-20 22:09:33
史上首次!赖清德窜访行程取消,三国禁止专机过境,绿营彻底破防

史上首次!赖清德窜访行程取消,三国禁止专机过境,绿营彻底破防

牛锅巴小钒
2026-04-21 21:14:44
曾经骂李超人的嘴今天究竟怎么了?

曾经骂李超人的嘴今天究竟怎么了?

木虫
2026-04-21 06:02:22
充满电仅需6分钟!宁德时代发布新电池

充满电仅需6分钟!宁德时代发布新电池

上观新闻
2026-04-22 06:28:05
俄罗斯与朝鲜庆祝第一座公路大桥的合并

俄罗斯与朝鲜庆祝第一座公路大桥的合并

桂系007
2026-04-21 21:46:32
比神剑股份还强?4元低价+商业航天+半导体洁净室 主力净抢筹3亿元

比神剑股份还强?4元低价+商业航天+半导体洁净室 主力净抢筹3亿元

普陀动物世界
2026-04-21 11:25:33
舍伍德:罗塞尼尔可能撑不下去了;切尔西被布莱顿全方面碾压

舍伍德:罗塞尼尔可能撑不下去了;切尔西被布莱顿全方面碾压

懂球帝
2026-04-22 06:02:26
再斗嘴!爱德华兹:鲍威尔照顾好你老婆 杜兰特:先顾好你家那位

再斗嘴!爱德华兹:鲍威尔照顾好你老婆 杜兰特:先顾好你家那位

Emily说个球
2026-04-21 10:10:48
今夜,大跳水!美联储,降息大消息!中东,利空突袭!

今夜,大跳水!美联储,降息大消息!中东,利空突袭!

中国基金报
2026-04-22 00:17:05
特朗普连发4帖辩解对伊动武,抨击民主党和“假新闻”

特朗普连发4帖辩解对伊动武,抨击民主党和“假新闻”

界面新闻
2026-04-21 08:05:05
印度首富小儿媳:弃帅模前男友,嫁300斤阿南特,如今成家族门面

印度首富小儿媳:弃帅模前男友,嫁300斤阿南特,如今成家族门面

照见古今
2026-04-12 19:32:51
2026-2032房价大预测:现在200万的房子,5年后还值几个钱?

2026-2032房价大预测:现在200万的房子,5年后还值几个钱?

混沌录
2026-04-21 15:19:05
明明不交公积金违法,为啥公积金中心不主动查企业?

明明不交公积金违法,为啥公积金中心不主动查企业?

童童聊娱乐啊
2026-04-21 18:09:18
张馨予眼光不错!何捷出席学校活动,颜值爆表!当过兵就是不一样

张馨予眼光不错!何捷出席学校活动,颜值爆表!当过兵就是不一样

娱乐团长
2026-04-20 19:08:47
2026-04-22 09:03:00
沧海阅铭
沧海阅铭
东临碣石,以观沧海
2982文章数 786关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

牛弹琴:伊朗发出让人毛骨悚然的警告 玩的就是心跳

头条要闻

牛弹琴:伊朗发出让人毛骨悚然的警告 玩的就是心跳

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

家居
教育
健康
公开课
军事航空

家居要闻

诗意光影 窥见自然之境

教育要闻

四年级思维训练:除法的简便计算

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版