前言
现如今的人工智能正在以惊人的速度发展,似乎无所不能。
但你能想象吗,连小学生都能轻松回答的数学问题,却把许多顶尖的AI大模型难倒了。
GPT-4号称要改变世界,但面对“9.11和9.9谁大”这样简单的问题,它也犯了难,这到底是怎么一回事?
本文内容均引用权威资料结合个人观点进行撰写,文中已标注文献来源及截图,请知悉。
AI大模型的数学之殇
信息来源:
上观新闻:翻车了!9.11和9.9哪个大?记者实测12个大模型8个都答错
民间智慧有云:‘三个臭皮匠,顶个诸葛亮。’但放眼当下,三个AI大模型,怕是连小学生的数学水平都不如。
最近,一个看似简单的数学问题在AI圈引发了轩然大波。
当被问到“9.11和9.9哪个更大”时,众多顶尖AI大模型纷纷落入陷阱,给出了错误的答案,这其中就包括了备受瞩目的GPT-4。
作为当前自然语言处理领域的佼佼者,GPT-4在许多任务上展现出了超越人类的能力。
但是在面对这道小学生都能轻松应对的数学题,它却犯了难,GPT-4错误地比较了小数点后的数字大小,得出了9.11比9.9更大的结论。
其实,GPT-4并非个例,从谷歌、微软到国内的科技巨头,众多公司开发的AI大模型在这个问题上同样表现失常,一时间,“AI不会数数”的话题登上了热搜榜。
对于这个现象,业内专家给出了解释,原来,大模型在处理数字时,往往会将其拆分成更小的单元。
比如,“9.11”会被拆成“9”、“小数点”和“11”三个部分。在这种情况下,模型误以为11比9更大,从而得出了错误的结论。
这一看似简单的失误,实则暴露了当前AI大模型在数学逻辑和常识理解方面的重大缺陷,作为人工智能的标杆,连GPT-4都难逃一劫,更不用说其他模型了。
“三尺童子口,胜读十年书。”AI大模型们在这个问题上的集体翻车,不禁让人感慨万千。
它们或许能够流畅地与人对话,创作出优美的文章,但面对最基础的数学问题,却频频受挫。
这不仅引发了人们对AI实际能力的质疑,也给业界敲响了警钟:在追求高级功能的同时,不要忽视最基本的能力建设。
国内外大模型的表现对比
在“9.11和9.9”这道题上,国内外大模型的表现可谓是泾渭分明,一边是谷歌、微软等巨头的模型集体掉链子,一边是国产模型的优异表现,令人刮目相看。
先说国外的情况,谷歌的GeminiAdvanced、微软的GPT等知名模型在这个问题上一个比一个离谱。
它们不仅给出了错误答案,还振振有词地解释起了个中缘由,仿佛在说“这个世界就应该是这样的”。
与之形成鲜明对比的,是国产模型的表现,在第一财经记者的测试中,阿里通义千问、百度文心一言等模型准确无误地给出了正确答案。
更令人惊喜的是,腾讯元宝不仅答对了题目,还主动整理了网上的相关讨论,并注明了引用来源,展现出了强大的信息整合能力。
当然了,国产阵营中也不乏翻车的选手,月之暗面的Kimi、智谱AI的ChatGLM等模型在这道题上同样栽了跟头。
不过,与国外模型不同的是,它们在被追问时,都诚恳地承认了自己的错误,并迅速给出了正确答案,这种虚心学习、勇于认错的品质,实在是值得点赞。
“胜者不骄,败者不馁。”从这次事件中,我们可以看到国内外AI发展的差异,在基础能力的打磨上,国产模型似乎更胜一筹。
它们不仅在准确性上有优势,在应对错误时也显得更加谦逊和进取,但我们也要看到,无论是国内还是国外,AI模型在数学能力上都还有很大的提升空间。
“9.11和9.9”只是一道再简单不过的小学题,如果连这都应付不来,又何谈去解决更加复杂的现实问题呢?
其实,这已经不是AI第一次在数学题上“翻车”了,在之前的一次高考模拟测试中,多个大模型的数学成绩就惨不忍睹,最高分也只有75分。
面对主观题,它们的回答往往逻辑混乱,甚至出现过程错误但得出正确答案的离奇情况。
大模型数学能力差的原因探析
信息来源:
澎湃新闻:9.11和9.9哪个大?AI翻车!好多网友竟也争论不休……
在AI大模型的数学考场上,一道道简单的题目就像一块块绊脚石,将这些曾经的“优等生”绊得跌跌撞撞。
但让我们先别急着嘲笑它们,而是要问一问:是什么让这些“学霸”在数学面前变成了“学渣”?
其实大模型在数学上的失误,并非偶然,这其中既有技术上的原因,也有训练数据的问题。
技术层面会存在着一定的问题,大模型在处理文本时,通常会使用一种叫做“Tokenizer”的机制将文本拆分成更小的单元。
这就像是把一句话拆成一个个单词,方便模型理解和处理,但问题就出在这里。
Tokenizer在拆分数字时,往往会将其分割成不合理的部分,就像我们之前提到的,“9.11”会被拆成“9”、“小数点”和“11”三个部分。
这种拆分方式打乱了数字的整体性,导致模型误以为11比9更大,可以说,Tokenizer就像一个不称职的“数学老师”,把简单的数字概念教错了,难怪学生们会犯错。
但Tokenizer只是问题的一部分,更深层次的原因,在于大模型训练数据的局限性。
我们知道,大模型主要是通过大量的互联网文本数据来学习的,但在这些数据中,数学问题和解题过程的占比并不高。
相比之下,模型接触到的更多是一些与数字相关的常识性知识,比如“9.11事件”之类的。
这就导致了一个尴尬的局面:模型在处理数字时,往往会联想到一些与数学无关的概念,而对数字本身的理解却不够深入。
这就像是一个学生,整天在历史课上学习“9.11事件”,却没有好好上数学课。
而互联网上的数学知识往往是零散、不系统的,模型在学习过程中,很难形成一套完整的数学逻辑体系。
这就像是一个学生,虽然学了很多数学知识,但却没有掌握解题的方法和思路。
种种因素加together,造就了当前大模型在数学上的尴尬处境,它们就像是一群“数学盲”,虽然能认识数字,但却不理解数字背后的逻辑。
这一现象引发了业界对AI数学能力的广泛质疑,如果连最基础的数学都搞不定,AI又如何去解决更加复杂的现实问题呢?
这个问题,已经成为悬在AI头上的一把达摩克利斯之剑。
关键是要找到问题的根源,并着手解决,这需要AI企业在技术和数据上多下功夫,也需要整个社会为AI的数学教育贡献力量。
“冰冻三尺,非一日之寒。”大模型的数学短板,不是一朝一夕形成的,也不可能一蹴而就地解决。
改进AI数学能力的方法
在批评声中,我们不难听出一丝无奈:AI怎么就这么“笨”呢?但与其一味地抱怨,不如想想如何帮助它们提高。
毕竟,AI的数学教育,关乎着它们能否真正服务于人类社会的未来,既然Tokenizer的拆分方式存在问题,那么就要对其进行改进。
一种可能的方法是,在拆分数字时,将其视为一个整体,而不是简单地按照字符来分割,这样,模型就能更好地理解数字的真正含义。
另一种方法是引入更多的数学符号和公式,通过特殊的标记,让模型明白这是一个数学问题,需要用数学的方法来解决。
这就像是在课本上给重点内容加粗、划线,提示学生要重点掌握,但技术只能解决一部分问题。更重要的,是要丰富AI的数学训练数据。
我们可以为AI提供更多的数学题库,让它们在海量的练习中掌握解题技巧,我们也可以将数学知识整理成结构化的课程,帮助AI形成完整的数学逻辑体系。
这就像是给AI请了一个“数学家教”,手把手地教它们如何解题,如何思考。
当然了,这个过程不可能一蹴而就,还是需要设计科学的学习路径,循序渐进地提升AI的数学能力。
从简单的算术题开始,逐步过渡到复杂的应用题,让AI在不断的练习中成长。
就像孩子们从数数开始学习数学一样,我们要让AI真正理解数字的概念,理解加减乘除的意义,只有打好基础,AI才能在更高层次的数学问题上有所建树。
除了“填鸭式”的学习,我们还可以鼓励AI进行自主探索,给它们一些开放性的数学问题,让它们自己去思考,去尝试不同的解法。
在这个过程中,AI不仅能巩固所学的知识,还能培养独立思考的能力,这就像是给了AI一个“数学实验室”,让它们在自由探索中收获成长的乐趣。
即使有了这些方法,AI的数学之路仍然会充满荆棘,但只要我们坚持不懈,总有一天,AI会成为名副其实的“数学小达人”。
到那时,它们不仅能轻松应对“9.11和9.9”这样的简单问题,还能运用数学知识解决现实中的复杂难题。
它们会成为人类探索未知世界的得力助手,为科技的进步贡献自己的力量,这就是我们期待的未来。一个AI与人类携手,用数学的力量改变世界的未来。
结语
“9.11和9.9谁大?”这个看似简单的问题,其实折射出了当前AI发展的一个缩影,在追逐高级功能的同时,我们似乎忽视了最基础的能力建设。
但这并不意味着前路渺茫,通过技术改进、数据丰富和教育创新,我们完全有能力帮助AI提高数学能力。
无论是AI企业的技术人员,还是普通的教育工作者,都可以为AI的数学教育添砖加瓦。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.