网易首页 > 网易号 > 正文 申请入驻

让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?

0
分享至



“孩子解不出‘24点’,让AI大模型帮忙,结果大模型给出‘2.6×5=24’的结果!孩子让大模型重新解题,没想到结果依旧奇葩,变成了‘25-12=24’!”最近发生的一件小事,让市民成女士对AI大模型的“解题思路”哭笑不得,“都说大模型不可全信,这次我有了切身的体会。”



某AI大模型做“24点”的结果

一段时间以来,部分网民利用AI大模型造假的消息时有发生,相关行为被依法查处。但部分网民不清楚的是,大模型因为“AI幻觉”,本身就会给出错误的答案。如果凡事都问AI大模型,很可能被误导

大模型做错小学数学题

大模型真的解不了小学数学题?

记者将成女士女儿的题目交给多个通用大模型:“根据小学数学知识,用5、5、5、12算‘24点’”,结果让人颇意外——

大模型A的答案是(12-5÷5)×2=24。这个算式本身就不符合题目要求,而且算式的结果是22,完全不对。



大模型A上演了“一本正经的胡说八道”

大模型B的答案是(5+5)×12÷5=24。算式和答案都正确,但在提供解题思路时,大模型说算式“(5+5)÷5×12”不对,可这两个算式都正确。


大模型B在“思考”过程中,将正确的解答判断为错误

大模型C的答案是(12×(5 + 5))÷5=24。总体正确,但根据书写规范,算式多了一个括号,应当是12×(5 + 5)÷5。


大模型C的解答书写不规范

记者又换了几道小学数学题,发现大模型解题时,可谓“洋相百出”。例如,有一道题是“不改变1、2、3、4、5这几个数字的次序,在它们间添加四则运算符号以及括号,使结果等于1,且运算过程中不能出现小数、负数”。大模型给了两个答案,分别是“(1×2×3+4) ÷5=1”和“(5+4) ÷3-(2-1)=1”。不难发现,两个解答都是错误的,而且答案二还改变了数字顺序,不符合题目要求。


大模型完全没有发现它给出的答案是错误的

接着,记者问大模型,如果增加一个数字6,即在1、2、3、4、5、6中添加四则运算符号以及括号,使结果等于1,答案是什么?某大模型给出两个答案,一是“(1+2+3+4)-(5+6)=1”,另一个是“1×(2+3+4)-(5+6)=1”,全都不正确。当记者用对话体“嘲笑”大模型“5+6=9”时,大模型竟然回复“这次5+6=9总算没算错!看来我今天终于把脑子‘重启’成功了”。


大模型一错再错

可见,看似能理解“人”说话、无所不知的AI大模型,其实有严重缺陷

大模型并不完全理解“人”

为什么大模型不能完成小学数学题?

最主要的原因是AI幻觉。简单来说,就是大模型并非完全理解了“人”的提问,而是通过算法逻辑给出它认为正确的答案;有些时候,部分大模型为了“讨好”提问者,还会虚构信息或强词夺理。

专业人士指出,数学计算与逻辑推理是AI幻觉的高发场景。在计算过程中,大模型还可能因为遗漏数字,得出不仅错误并违背常识的答案。

例如,有用户向某大模型询问“鸡兔同笼”问题,题干是“笼中鸡兔共30只,脚88只,求鸡兔各有几只”。大模型用方程解题,将算式“2X+4 (30-X)=88”展开为“2X+120-X=88”,遗漏系数 4,得出“鸡-32只、兔62只”的荒谬答案。

值得关注的是,数学题引发的AI幻觉或许只是给出错误答案,而在信息服务上的AI幻觉很可能误事并扰乱社会秩序

例如,外省市曾出现网民使用AI大模型生成“汽车尾号限行”“公共事业费涨价”等假消息,AI大模型无法辨别真伪,将这些假消息抓取,成为其数据库的一部分。这就导致其他网民在查询相关信息时,AI大模型以讹传讹,传播假消息。

AI幻觉风险在专业领域也有破坏性。在北京市通州区人民法院审结的一起商事纠纷中,原告代理人直接将AI生成的司法案例作为诉讼依据。相关案例看似与案件高度契合,但经法官核实,案号对应的真实案件与AI描述完全不符,最终该代理意见被驳回,代理人也因用虚假信息扰乱司法秩序受到批评。

此外,不少专业人士在了解行业发展趋势时,会发现AI大模型能提供大量的行业发展数据、调研报告,并宣称它们出自官方或权威机构。但进一步核查会发现,这些数据、报告都是AI幻觉的结果——AI大模型为了迎合提问者而杜撰。如果相信这些数据、报告,很可能误导后期决策。

警惕AI幻觉,这些方法有效

客观地说,AI大模型确实为人们提供了搜索信息、掌握知识的新途径。但是,现有的技术发展还没有办法完全避免AI幻觉。那么,怎样避免被AI幻觉误导呢?有几个行之有效的好办法。

首先,追问AI大模型,要求大模型提供引用信息的出处。对于AI给出的关键结论,如政策条款、数据报告、案例细节等,明确要求其标注信息来源,包括具体文件名称、发布机构、发布时间及官方链接。如果AI大模型用“信息来源于公开网络”“综合整理多方资料”等模糊表述回应,或回避具体出处,基本可以判定信息存疑

例如,在咨询某项政策时,可以追问AI大模型“政策出处”“官方报道在哪里”“文件编号或发布日期”等,查看追问答案,筛除不可靠信息。

其次,求证信息时,不能“问AI要答案”,而是“找官方要真相”

“官方”包括各种政府机构的官方公众号、权威媒体的公众号等,而非信息分发平台、短视频平台上的“自媒体号”。比如,如果关心时事政策,可以查询政府机构或主流媒体的公众号。

核查一些“二手信息”或“旧闻”时,可以使用官方公众号的“搜索功能”。大部分公众号都有“搜索”功能,通常在公众号主页右上角或带有“放大镜”图标,输入信息的关键词,就能从公众号已有信息中匹配对应内容。


可以通过权威机构公众号的“搜索”功能核查信息

其三,交叉核对不同的官方信源,排除单一信息偏差。如果涉及重要决策,建议交叉核对两三个权威信源,确保信息无偏差。比如,想核实“研究生报考某导师的研究方向”,除了查看高校官方公众号、网页发布的导师介绍外,也可以查询教育类官方媒体公众号,核对信息,避免被AI编造的“导师虚假言论”误导。

其四,使用AI大模型检索官方信息发布渠道。在不确定具体官方平台时,可以让AI提供与需求相关的官方渠道清单

比如,想知道“如何查询个人个税缴纳记录”的答案,可以让AI大模型列出“国家税务总局官网”“当地税务局官方公众号”“个税 APP”等正规渠道,再自行登录查询。如果AI大模型推荐的渠道包含非官方平台,如商业资讯网站、个人运营的“税务咨询号”,要提高警惕,不可轻信。

最后,如果发现某条信息官方暂无报道,那么,比询问AI大模型“有没有”更稳妥的方式是“等待权威发布”。因为在AI大模型的“知识库”或者说数据库中,既有官方信息,也有小道消息,不少信息来自自媒体的“自说自话”甚至“胡编乱造”。当网民有需求时,AI大模型会将这些消息提供给提问者,或者自动捏造不实信息。所以,等待权威报道远好于问AI“要答案”。

总之,可以把AI作为工具检索信息,但不要全盘相信它给出的结果。

原标题:《让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?》

题图来源:上观题图

来源:作者:解放日报 任翀

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江西女子用公驴器官泡酒,三个月后给丈夫喝,不料发生意外

江西女子用公驴器官泡酒,三个月后给丈夫喝,不料发生意外

古怪奇谈录
2025-06-28 13:49:02
杰伦·布朗讲述詹姆斯在他新秀赛季首次首发时,对他说的话

杰伦·布朗讲述詹姆斯在他新秀赛季首次首发时,对他说的话

好火子
2026-02-24 04:46:17
马年“春节景区”客流量排名:汕头南澳岛第10,西湖稳居前三

马年“春节景区”客流量排名:汕头南澳岛第10,西湖稳居前三

柳先说
2026-02-21 23:28:10
送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”

送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”

卷史
2026-02-15 06:08:47
怕老人走后钱成死钱?这个存钱方法,2026年照着做一分不浪费

怕老人走后钱成死钱?这个存钱方法,2026年照着做一分不浪费

蓝色海边
2026-02-19 05:53:47
大年初六,和几个大厂(字节、阿里)朋友聚会。突然不聊房子了

大年初六,和几个大厂(字节、阿里)朋友聚会。突然不聊房子了

蚂蚁大喇叭
2026-02-23 17:08:47
傻白糖被插足闹自杀

傻白糖被插足闹自杀

毒舌扒姨太
2026-02-23 22:34:32
戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

林轻吟
2026-02-24 07:14:49
3年大合同+全家迁居!张本智和官宣震撼抉择,日本队慌了

3年大合同+全家迁居!张本智和官宣震撼抉择,日本队慌了

卿子书
2026-02-02 08:59:31
你见过最清闲的事业编是啥?网友:还有一个供销社,闲出病来

你见过最清闲的事业编是啥?网友:还有一个供销社,闲出病来

带你感受人间冷暖
2025-12-16 00:20:09
工龄33年2个月,浙江大姐养老金真让人羡慕!

工龄33年2个月,浙江大姐养老金真让人羡慕!

乐天果果
2026-02-23 16:54:30
海湖庄园被击毙男子身份确认:21岁美国人,事发前发布了一系列水彩画和黑白素描

海湖庄园被击毙男子身份确认:21岁美国人,事发前发布了一系列水彩画和黑白素描

极目新闻
2026-02-23 11:12:43
19.78万起!广汽官宣:新车正式上市

19.78万起!广汽官宣:新车正式上市

高科技爱好者
2026-02-23 23:02:59
男子将孩子抛河里后续:知情人透露全救起来了,丈夫社会性死亡!

男子将孩子抛河里后续:知情人透露全救起来了,丈夫社会性死亡!

奇思妙想生活家
2026-02-23 22:10:52
广西贵港一男子离婚后发现女儿非亲生,起诉更换抚养权,退还抚养费并要求精神损失赔偿,法院:被告返还抚养费4万,支付精神损害抚慰金8千

广西贵港一男子离婚后发现女儿非亲生,起诉更换抚养权,退还抚养费并要求精神损失赔偿,法院:被告返还抚养费4万,支付精神损害抚慰金8千

极目新闻
2026-02-23 13:41:59
十年后再看上海:这5大片区,或将成为城市新核心,未来潜力不可限量

十年后再看上海:这5大片区,或将成为城市新核心,未来潜力不可限量

阿离家居
2026-02-23 11:02:49
新加坡大满贯赛:大捷报!国乒蒯曼3:0大获全胜,石洵瑶3:0晋级

新加坡大满贯赛:大捷报!国乒蒯曼3:0大获全胜,石洵瑶3:0晋级

国乒二三事
2026-02-23 19:24:08
太感人了!深圳地铁让座,女生收到百元红包,网友:这就是积德…

太感人了!深圳地铁让座,女生收到百元红包,网友:这就是积德…

火山詩话
2026-02-23 11:57:37
疯了?曼联 7000 万镑求购旧将!2 年前 2600 万贱卖成世界顶级

疯了?曼联 7000 万镑求购旧将!2 年前 2600 万贱卖成世界顶级

奶盖熊本熊
2026-02-24 04:30:38
特朗普发声!伊朗,大消息!黄金拉升,美股重挫!

特朗普发声!伊朗,大消息!黄金拉升,美股重挫!

证券时报e公司
2026-02-24 08:14:01
2026-02-24 09:07:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
439538文章数 759569关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

牛弹琴:白宫突然发了张图 伤害性不大侮辱性极强

头条要闻

牛弹琴:白宫突然发了张图 伤害性不大侮辱性极强

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

速览!假期这些大事影响节后市场

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

教育
旅游
艺术
本地
公开课

教育要闻

开工大吉不要说 happy start working!用这句话表达更地道!

旅游要闻

跻身春节热门目的地,上海文旅市场的“开门红”如何炼成?

艺术要闻

这幅草书作品引发热议,10人中8人可能看不懂。

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版