网易首页 > 网易号 > 正文 申请入驻

让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?

0
分享至

“孩子解不出‘24点’,让AI大模型帮忙,结果大模型给出‘2.6×5=24’的结果!孩子让大模型重新解题,没想到结果依旧奇葩,变成了‘25-12=24’!”最近发生的一件小事,让市民成女士对AI大模型的“解题思路”哭笑不得,“都说大模型不可全信,这次我有了切身的体会。”



某AI大模型做“24点”的结果

一段时间以来,部分网民利用AI大模型造假的消息时有发生,相关行为被依法查处。但部分网民不清楚的是,大模型因为“AI幻觉”,本身就会给出错误的答案。如果凡事都问AI大模型,很可能被误导

大模型做错小学数学题

大模型真的解不了小学数学题?

记者将成女士女儿的题目交给多个通用大模型:“根据小学数学知识,用5、5、5、12算‘24点’”,结果让人颇意外——

大模型A的答案是(12-5÷5)×2=24。这个算式本身就不符合题目要求,而且算式的结果是22,完全不对。


大模型A上演了“一本正经的胡说八道”

大模型B的答案是(5+5)×12÷5=24。算式和答案都正确,但在提供解题思路时,大模型说算式“(5+5)÷5×12”不对,可这两个算式都正确。


大模型B在“思考”过程中,将正确的解答判断为错误

大模型C的答案是(12×(5 + 5))÷5=24。总体正确,但根据书写规范,算式多了一个括号,应当是12×(5 + 5)÷5。


大模型C的解答书写不规范

记者又换了几道小学数学题,发现大模型解题时,可谓“洋相百出”。例如,有一道题是“不改变1、2、3、4、5这几个数字的次序,在它们间添加四则运算符号以及括号,使结果等于1,且运算过程中不能出现小数、负数”。大模型给了两个答案,分别是“(1×2×3+4) ÷5=1”和“(5+4) ÷3-(2-1)=1”。不难发现,两个解答都是错误的,而且答案二还改变了数字顺序,不符合题目要求。


大模型完全没有发现它给出的答案是错误的

接着,记者问大模型,如果增加一个数字6,即在1、2、3、4、5、6中添加四则运算符号以及括号,使结果等于1,答案是什么?某大模型给出两个答案,一是“(1+2+3+4)-(5+6)=1”,另一个是“1×(2+3+4)-(5+6)=1”,全都不正确。当记者用对话体“嘲笑”大模型“5+6=9”时,大模型竟然回复“这次5+6=9总算没算错!看来我今天终于把脑子‘重启’成功了”。


大模型一错再错

可见,看似能理解“人”说话、无所不知的AI大模型,其实有严重缺陷

大模型并不完全理解“人”

为什么大模型不能完成小学数学题?

最主要的原因是AI幻觉。简单来说,就是大模型并非完全理解了“人”的提问,而是通过算法逻辑给出它认为正确的答案;有些时候,部分大模型为了“讨好”提问者,还会虚构信息或强词夺理。

专业人士指出,数学计算与逻辑推理是AI幻觉的高发场景。在计算过程中,大模型还可能因为遗漏数字,得出不仅错误并违背常识的答案。

例如,有用户向某大模型询问“鸡兔同笼”问题,题干是“笼中鸡兔共30只,脚88只,求鸡兔各有几只”。大模型用方程解题,将算式“2X+4 (30-X)=88”展开为“2X+120-X=88”,遗漏系数 4,得出“鸡-32只、兔62只”的荒谬答案。

值得关注的是,数学题引发的AI幻觉或许只是给出错误答案,而在信息服务上的AI幻觉很可能误事并扰乱社会秩序

例如,外省市曾出现网民使用AI大模型生成“汽车尾号限行”“公共事业费涨价”等假消息,AI大模型无法辨别真伪,将这些假消息抓取,成为其数据库的一部分。这就导致其他网民在查询相关信息时,AI大模型以讹传讹,传播假消息。

AI幻觉风险在专业领域也有破坏性。在北京市通州区人民法院审结的一起商事纠纷中,原告代理人直接将AI生成的司法案例作为诉讼依据。相关案例看似与案件高度契合,但经法官核实,案号对应的真实案件与AI描述完全不符,最终该代理意见被驳回,代理人也因用虚假信息扰乱司法秩序受到批评。

此外,不少专业人士在了解行业发展趋势时,会发现AI大模型能提供大量的行业发展数据、调研报告,并宣称它们出自官方或权威机构。但进一步核查会发现,这些数据、报告都是AI幻觉的结果——AI大模型为了迎合提问者而杜撰。如果相信这些数据、报告,很可能误导后期决策。

警惕AI幻觉,这些方法有效

客观地说,AI大模型确实为人们提供了搜索信息、掌握知识的新途径。但是,现有的技术发展还没有办法完全避免AI幻觉。那么,怎样避免被AI幻觉误导呢?有几个行之有效的好办法。

首先,追问AI大模型,要求大模型提供引用信息的出处。对于AI给出的关键结论,如政策条款、数据报告、案例细节等,明确要求其标注信息来源,包括具体文件名称、发布机构、发布时间及官方链接。如果AI大模型用“信息来源于公开网络”“综合整理多方资料”等模糊表述回应,或回避具体出处,基本可以判定信息存疑

例如,在咨询某项政策时,可以追问AI大模型“政策出处”“官方报道在哪里”“文件编号或发布日期”等,查看追问答案,筛除不可靠信息。

其次,求证信息时,不能“问AI要答案”,而是“找官方要真相”

“官方”包括各种政府机构的官方公众号、权威媒体的公众号等,而非信息分发平台、短视频平台上的“自媒体号”。比如,如果关心时事政策,可以查询政府机构或主流媒体的公众号。

核查一些“二手信息”或“旧闻”时,可以使用官方公众号的“搜索功能”。大部分公众号都有“搜索”功能,通常在公众号主页右上角或带有“放大镜”图标,输入信息的关键词,就能从公众号已有信息中匹配对应内容。


可以通过权威机构公众号的“搜索”功能核查信息

其三,交叉核对不同的官方信源,排除单一信息偏差。如果涉及重要决策,建议交叉核对两三个权威信源,确保信息无偏差。比如,想核实“研究生报考某导师的研究方向”,除了查看高校官方公众号、网页发布的导师介绍外,也可以查询教育类官方媒体公众号,核对信息,避免被AI编造的“导师虚假言论”误导。

其四,使用AI大模型检索官方信息发布渠道。在不确定具体官方平台时,可以让AI提供与需求相关的官方渠道清单

比如,想知道“如何查询个人个税缴纳记录”的答案,可以让AI大模型列出“国家税务总局官网”“当地税务局官方公众号”“个税 APP”等正规渠道,再自行登录查询。如果AI大模型推荐的渠道包含非官方平台,如商业资讯网站、个人运营的“税务咨询号”,要提高警惕,不可轻信。

最后,如果发现某条信息官方暂无报道,那么,比询问AI大模型“有没有”更稳妥的方式是“等待权威发布”。因为在AI大模型的“知识库”或者说数据库中,既有官方信息,也有小道消息,不少信息来自自媒体的“自说自话”甚至“胡编乱造”。当网民有需求时,AI大模型会将这些消息提供给提问者,或者自动捏造不实信息。所以,等待权威报道远好于问AI“要答案”。

总之,可以把AI作为工具检索信息,但不要全盘相信它给出的结果。

微信编辑:何夕

还原事实,洞悉真相。

欢迎关注,留言举报!

除了辟谣,这里还关注网络热点,及时回应网友关切,追踪事件进展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
23岁那年我一天赚3万,我意气风发,励志30岁之前要赚1000万…

23岁那年我一天赚3万,我意气风发,励志30岁之前要赚1000万…

另子维爱读史
2025-12-28 17:48:59
戴旭发言不寒而栗!

戴旭发言不寒而栗!

安安说
2026-01-10 10:51:32
4-2!张本智和送林昀儒九连败,六局仅让6分,首进决赛冲冠

4-2!张本智和送林昀儒九连败,六局仅让6分,首进决赛冲冠

阿晞体育
2026-01-11 21:50:07
突然!美国,发动大规模袭击!

突然!美国,发动大规模袭击!

数据宝
2026-01-11 18:24:31
伟大的1-0!恭喜中国队!U23亚洲杯爆冷澳大利亚最新排名冲上榜首

伟大的1-0!恭喜中国队!U23亚洲杯爆冷澳大利亚最新排名冲上榜首

大秦壁虎白话体育
2026-01-11 21:29:36
成龙4000万寻回小龙女,房祖名暗中相助,吴卓林语惊全网

成龙4000万寻回小龙女,房祖名暗中相助,吴卓林语惊全网

凛若秋霜
2026-01-11 16:03:47
果然是核动力,美媒断言中国新航母:人类史上最大,2艘同时开建

果然是核动力,美媒断言中国新航母:人类史上最大,2艘同时开建

军霆说
2026-01-11 03:02:04
难以置信!闫学晶账号刚禁封,又惊现闫学晶小号,直言“能咋地”

难以置信!闫学晶账号刚禁封,又惊现闫学晶小号,直言“能咋地”

火山诗话
2026-01-11 10:45:26
震惊!江苏一企业发声明,将一员工从主管调至保洁,月薪降至4500

震惊!江苏一企业发声明,将一员工从主管调至保洁,月薪降至4500

火山詩话
2026-01-09 06:43:51
建国初,甚至有部分将帅手握几十万兵力,为何没一人敢拥兵自重?

建国初,甚至有部分将帅手握几十万兵力,为何没一人敢拥兵自重?

文史季季红
2026-01-10 16:30:03
果然,能打败阴谋的就是阳谋。用魔法打败魔法,把水搅浑屡试不爽

果然,能打败阴谋的就是阳谋。用魔法打败魔法,把水搅浑屡试不爽

另子维爱读史
2026-01-09 22:01:00
斯普利特服了!给杨瀚森特殊优待,单独拥抱小杨,这简直就是五赢

斯普利特服了!给杨瀚森特殊优待,单独拥抱小杨,这简直就是五赢

嘴炮体坛
2026-01-10 23:32:17
伊朗总统称正全力通过根除腐败来改善民生

伊朗总统称正全力通过根除腐败来改善民生

界面新闻
2026-01-11 07:01:41
泡腊八蒜时,直接加醋可就错了!牢记“3要3不要”,保证蒜1天变绿,三天最好吃

泡腊八蒜时,直接加醋可就错了!牢记“3要3不要”,保证蒜1天变绿,三天最好吃

美食格物
2026-01-11 16:24:11
55分惨案!在场净负60分!NBA新纪录诞生,控卫之神点评一针见血

55分惨案!在场净负60分!NBA新纪录诞生,控卫之神点评一针见血

世界体育圈
2026-01-11 13:36:38
小S二女儿遭群嘲,自宣迪奥合作没被品牌认领,才18岁翻车好几次

小S二女儿遭群嘲,自宣迪奥合作没被品牌认领,才18岁翻车好几次

萌神木木
2026-01-09 17:07:16
马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

丰谭笔录
2025-12-12 11:16:23
特朗普:台湾属于中国,中方武统是它的自由,但动手美国会不高兴

特朗普:台湾属于中国,中方武统是它的自由,但动手美国会不高兴

我心纵横天地间
2026-01-10 14:51:24
11岁女孩竟要穿这种衣服,网友炸锅了!

11岁女孩竟要穿这种衣服,网友炸锅了!

特约前排观众
2026-01-11 00:15:04
新恒大诞生?中国足坛新贵崛起,连买2大强力球星!身价暴涨5千万

新恒大诞生?中国足坛新贵崛起,连买2大强力球星!身价暴涨5千万

国足风云
2026-01-11 11:55:21
2026-01-11 22:20:49
网络辟谣 incentive-icons
网络辟谣
上海市网信办、解放日报出品
4857文章数 37119关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

10人违规吃喝1人饮酒后死亡 组织者曾找商人借钱补偿

头条要闻

10人违规吃喝1人饮酒后死亡 组织者曾找商人借钱补偿

体育要闻

詹皇晒照不满打手没哨 裁判报告最后两分钟无误判

娱乐要闻

留几手为闫学晶叫屈?称网友自卑敏感

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

房产
教育
本地
艺术
健康

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

教育要闻

孩子沉迷手机沉迷游戏怎么办?

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

艺术要闻

砸18亿!游戏巨头落子广州!诗悦网络总部大楼新进展

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版