网易首页 > 网易号 > 正文 申请入驻

让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?

0
分享至



“孩子解不出‘24点’,让AI大模型帮忙,结果大模型给出‘2.6×5=24’的结果!孩子让大模型重新解题,没想到结果依旧奇葩,变成了‘25-12=24’!”最近发生的一件小事,让市民成女士对AI大模型的“解题思路”哭笑不得,“都说大模型不可全信,这次我有了切身的体会。”



某AI大模型做“24点”的结果

一段时间以来,部分网民利用AI大模型造假的消息时有发生,相关行为被依法查处。但部分网民不清楚的是,大模型因为“AI幻觉”,本身就会给出错误的答案。如果凡事都问AI大模型,很可能被误导

大模型做错小学数学题

大模型真的解不了小学数学题?

记者将成女士女儿的题目交给多个通用大模型:“根据小学数学知识,用5、5、5、12算‘24点’”,结果让人颇意外——

大模型A的答案是(12-5÷5)×2=24。这个算式本身就不符合题目要求,而且算式的结果是22,完全不对。



大模型A上演了“一本正经的胡说八道”

大模型B的答案是(5+5)×12÷5=24。算式和答案都正确,但在提供解题思路时,大模型说算式“(5+5)÷5×12”不对,可这两个算式都正确。


大模型B在“思考”过程中,将正确的解答判断为错误

大模型C的答案是(12×(5 + 5))÷5=24。总体正确,但根据书写规范,算式多了一个括号,应当是12×(5 + 5)÷5。


大模型C的解答书写不规范

记者又换了几道小学数学题,发现大模型解题时,可谓“洋相百出”。例如,有一道题是“不改变1、2、3、4、5这几个数字的次序,在它们间添加四则运算符号以及括号,使结果等于1,且运算过程中不能出现小数、负数”。大模型给了两个答案,分别是“(1×2×3+4) ÷5=1”和“(5+4) ÷3-(2-1)=1”。不难发现,两个解答都是错误的,而且答案二还改变了数字顺序,不符合题目要求。


大模型完全没有发现它给出的答案是错误的

接着,记者问大模型,如果增加一个数字6,即在1、2、3、4、5、6中添加四则运算符号以及括号,使结果等于1,答案是什么?某大模型给出两个答案,一是“(1+2+3+4)-(5+6)=1”,另一个是“1×(2+3+4)-(5+6)=1”,全都不正确。当记者用对话体“嘲笑”大模型“5+6=9”时,大模型竟然回复“这次5+6=9总算没算错!看来我今天终于把脑子‘重启’成功了”。


大模型一错再错

可见,看似能理解“人”说话、无所不知的AI大模型,其实有严重缺陷

大模型并不完全理解“人”

为什么大模型不能完成小学数学题?

最主要的原因是AI幻觉。简单来说,就是大模型并非完全理解了“人”的提问,而是通过算法逻辑给出它认为正确的答案;有些时候,部分大模型为了“讨好”提问者,还会虚构信息或强词夺理。

专业人士指出,数学计算与逻辑推理是AI幻觉的高发场景。在计算过程中,大模型还可能因为遗漏数字,得出不仅错误并违背常识的答案。

例如,有用户向某大模型询问“鸡兔同笼”问题,题干是“笼中鸡兔共30只,脚88只,求鸡兔各有几只”。大模型用方程解题,将算式“2X+4 (30-X)=88”展开为“2X+120-X=88”,遗漏系数 4,得出“鸡-32只、兔62只”的荒谬答案。

值得关注的是,数学题引发的AI幻觉或许只是给出错误答案,而在信息服务上的AI幻觉很可能误事并扰乱社会秩序

例如,外省市曾出现网民使用AI大模型生成“汽车尾号限行”“公共事业费涨价”等假消息,AI大模型无法辨别真伪,将这些假消息抓取,成为其数据库的一部分。这就导致其他网民在查询相关信息时,AI大模型以讹传讹,传播假消息。

AI幻觉风险在专业领域也有破坏性。在北京市通州区人民法院审结的一起商事纠纷中,原告代理人直接将AI生成的司法案例作为诉讼依据。相关案例看似与案件高度契合,但经法官核实,案号对应的真实案件与AI描述完全不符,最终该代理意见被驳回,代理人也因用虚假信息扰乱司法秩序受到批评。

此外,不少专业人士在了解行业发展趋势时,会发现AI大模型能提供大量的行业发展数据、调研报告,并宣称它们出自官方或权威机构。但进一步核查会发现,这些数据、报告都是AI幻觉的结果——AI大模型为了迎合提问者而杜撰。如果相信这些数据、报告,很可能误导后期决策。

警惕AI幻觉,这些方法有效

客观地说,AI大模型确实为人们提供了搜索信息、掌握知识的新途径。但是,现有的技术发展还没有办法完全避免AI幻觉。那么,怎样避免被AI幻觉误导呢?有几个行之有效的好办法。

首先,追问AI大模型,要求大模型提供引用信息的出处。对于AI给出的关键结论,如政策条款、数据报告、案例细节等,明确要求其标注信息来源,包括具体文件名称、发布机构、发布时间及官方链接。如果AI大模型用“信息来源于公开网络”“综合整理多方资料”等模糊表述回应,或回避具体出处,基本可以判定信息存疑

例如,在咨询某项政策时,可以追问AI大模型“政策出处”“官方报道在哪里”“文件编号或发布日期”等,查看追问答案,筛除不可靠信息。

其次,求证信息时,不能“问AI要答案”,而是“找官方要真相”

“官方”包括各种政府机构的官方公众号、权威媒体的公众号等,而非信息分发平台、短视频平台上的“自媒体号”。比如,如果关心时事政策,可以查询政府机构或主流媒体的公众号。

核查一些“二手信息”或“旧闻”时,可以使用官方公众号的“搜索功能”。大部分公众号都有“搜索”功能,通常在公众号主页右上角或带有“放大镜”图标,输入信息的关键词,就能从公众号已有信息中匹配对应内容。


可以通过权威机构公众号的“搜索”功能核查信息

其三,交叉核对不同的官方信源,排除单一信息偏差。如果涉及重要决策,建议交叉核对两三个权威信源,确保信息无偏差。比如,想核实“研究生报考某导师的研究方向”,除了查看高校官方公众号、网页发布的导师介绍外,也可以查询教育类官方媒体公众号,核对信息,避免被AI编造的“导师虚假言论”误导。

其四,使用AI大模型检索官方信息发布渠道。在不确定具体官方平台时,可以让AI提供与需求相关的官方渠道清单

比如,想知道“如何查询个人个税缴纳记录”的答案,可以让AI大模型列出“国家税务总局官网”“当地税务局官方公众号”“个税 APP”等正规渠道,再自行登录查询。如果AI大模型推荐的渠道包含非官方平台,如商业资讯网站、个人运营的“税务咨询号”,要提高警惕,不可轻信。

最后,如果发现某条信息官方暂无报道,那么,比询问AI大模型“有没有”更稳妥的方式是“等待权威发布”。因为在AI大模型的“知识库”或者说数据库中,既有官方信息,也有小道消息,不少信息来自自媒体的“自说自话”甚至“胡编乱造”。当网民有需求时,AI大模型会将这些消息提供给提问者,或者自动捏造不实信息。所以,等待权威报道远好于问AI“要答案”。

总之,可以把AI作为工具检索信息,但不要全盘相信它给出的结果。

原标题:《让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?》

题图来源:上观题图

来源:作者:解放日报 任翀

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李春平死了

李春平死了

霹雳炮
2025-11-05 22:34:23
印度药在中国集采大获全胜

印度药在中国集采大获全胜

凯利经济观察
2025-11-05 09:32:14
北极航道刚冰封,波兰故技重施中欧班列又停,再不开边境悔之晚矣

北极航道刚冰封,波兰故技重施中欧班列又停,再不开边境悔之晚矣

一只番茄鱼
2025-11-05 13:34:23
陪玩睡只是冰山一角,继王晶曝潜规则后,王家卫又被曝 唐嫣遭殃

陪玩睡只是冰山一角,继王晶曝潜规则后,王家卫又被曝 唐嫣遭殃

蜉蝣说
2025-11-04 08:56:52
乾隆给纪晓岚一道空白圣旨,纪晓岚提笔写下4个字,乾隆先怒后喜

乾隆给纪晓岚一道空白圣旨,纪晓岚提笔写下4个字,乾隆先怒后喜

萧竹轻语
2025-10-23 18:44:58
在单位上了补充医保,还有必要买北京普惠健康保吗?市医保局释疑

在单位上了补充医保,还有必要买北京普惠健康保吗?市医保局释疑

新京报
2025-11-05 21:11:09
浙江台州“第一高楼”天盛中心将被拍卖,起拍价28.685亿元

浙江台州“第一高楼”天盛中心将被拍卖,起拍价28.685亿元

澎湃新闻
2025-11-05 12:18:29
有人问安世破产谁损失大?损失的只有中企,荷兰能有什么损失呢

有人问安世破产谁损失大?损失的只有中企,荷兰能有什么损失呢

南权先生
2025-10-23 12:11:28
缅北四大家族覆灭内幕

缅北四大家族覆灭内幕

哲空空
2025-11-06 09:43:46
包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

包养10位情妇,睡觉翻牌生下11个私生子,75岁还在拼命生娃!

春秋论娱
2025-09-09 07:26:27
真正得到过爱的孩子,身上大多有这3个特征,藏都藏不住

真正得到过爱的孩子,身上大多有这3个特征,藏都藏不住

辣妈vs探长
2025-11-04 08:07:06
台当局:大陆已悄然推出全新统一方案,见效快、风险低

台当局:大陆已悄然推出全新统一方案,见效快、风险低

书中自有颜如玉
2025-11-06 05:57:26
若中美开战,美摧毁北斗卫星,中国将如何应对?4大杀手锏已就位

若中美开战,美摧毁北斗卫星,中国将如何应对?4大杀手锏已就位

春风秋雨
2025-10-29 19:55:04
7号线深云站外天桥“有梯无坡”,骑过街要绕6公里?深圳地铁回应

7号线深云站外天桥“有梯无坡”,骑过街要绕6公里?深圳地铁回应

深圳晚报
2025-11-06 08:48:30
康熙驾崩当夜,贴身太监揭露:龙椅上坐着的是洪承畴与孝庄的骨肉!

康熙驾崩当夜,贴身太监揭露:龙椅上坐着的是洪承畴与孝庄的骨肉!

张道陵秘话
2025-11-04 18:38:12
baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

八星人
2025-11-05 15:55:40
光刻机算什么?中国一天诞生3个大国重器,欧美看了直摇头

光刻机算什么?中国一天诞生3个大国重器,欧美看了直摇头

今日养生之道
2025-11-06 07:32:54
中国首例五胞胎终于长大了,父亲因劳累去世,母亲直言后悔生下他们

中国首例五胞胎终于长大了,父亲因劳累去世,母亲直言后悔生下他们

等风来育儿联盟
2025-08-01 12:21:35
火箭124-109灰熊,球员表现评分公布

火箭124-109灰熊,球员表现评分公布

范烽舍长
2025-11-06 12:05:31
KK园区诈骗分子开始再就业:熟练工身价暴涨至7万美金!供不应求

KK园区诈骗分子开始再就业:熟练工身价暴涨至7万美金!供不应求

卷史
2025-11-05 12:05:06
2025-11-06 13:31:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
378149文章数 757665关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

副院长被指出轨女主任医师 在值班室发生关系视频流出

头条要闻

副院长被指出轨女主任医师 在值班室发生关系视频流出

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

特朗普关税遭美国高院大法官轮番质疑

汽车要闻

方向盘?不存在的 特斯拉 Cybercab亚太首秀

态度原创

本地
教育
游戏
旅游
军事航空

本地新闻

这届干饭人,已经把博物馆吃成了食堂

教育要闻

2026亚洲QS最新大学排名出炉:新加坡国大、南大并列第3!

Xbox Insider问卷提及《羊蹄山之魂》 引发平台移植猜测

旅游要闻

携程“免费城市半日游”项目已接待超万名游客

军事要闻

美国发射洲际弹道导弹 俄方回应

无障碍浏览 进入关怀版