网易首页 > 网易号 > 正文 申请入驻

让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?

0
分享至



“孩子解不出‘24点’,让AI大模型帮忙,结果大模型给出‘2.6×5=24’的结果!孩子让大模型重新解题,没想到结果依旧奇葩,变成了‘25-12=24’!”最近发生的一件小事,让市民成女士对AI大模型的“解题思路”哭笑不得,“都说大模型不可全信,这次我有了切身的体会。”



某AI大模型做“24点”的结果

一段时间以来,部分网民利用AI大模型造假的消息时有发生,相关行为被依法查处。但部分网民不清楚的是,大模型因为“AI幻觉”,本身就会给出错误的答案。如果凡事都问AI大模型,很可能被误导

大模型做错小学数学题

大模型真的解不了小学数学题?

记者将成女士女儿的题目交给多个通用大模型:“根据小学数学知识,用5、5、5、12算‘24点’”,结果让人颇意外——

大模型A的答案是(12-5÷5)×2=24。这个算式本身就不符合题目要求,而且算式的结果是22,完全不对。



大模型A上演了“一本正经的胡说八道”

大模型B的答案是(5+5)×12÷5=24。算式和答案都正确,但在提供解题思路时,大模型说算式“(5+5)÷5×12”不对,可这两个算式都正确。


大模型B在“思考”过程中,将正确的解答判断为错误

大模型C的答案是(12×(5 + 5))÷5=24。总体正确,但根据书写规范,算式多了一个括号,应当是12×(5 + 5)÷5。


大模型C的解答书写不规范

记者又换了几道小学数学题,发现大模型解题时,可谓“洋相百出”。例如,有一道题是“不改变1、2、3、4、5这几个数字的次序,在它们间添加四则运算符号以及括号,使结果等于1,且运算过程中不能出现小数、负数”。大模型给了两个答案,分别是“(1×2×3+4) ÷5=1”和“(5+4) ÷3-(2-1)=1”。不难发现,两个解答都是错误的,而且答案二还改变了数字顺序,不符合题目要求。


大模型完全没有发现它给出的答案是错误的

接着,记者问大模型,如果增加一个数字6,即在1、2、3、4、5、6中添加四则运算符号以及括号,使结果等于1,答案是什么?某大模型给出两个答案,一是“(1+2+3+4)-(5+6)=1”,另一个是“1×(2+3+4)-(5+6)=1”,全都不正确。当记者用对话体“嘲笑”大模型“5+6=9”时,大模型竟然回复“这次5+6=9总算没算错!看来我今天终于把脑子‘重启’成功了”。


大模型一错再错

可见,看似能理解“人”说话、无所不知的AI大模型,其实有严重缺陷

大模型并不完全理解“人”

为什么大模型不能完成小学数学题?

最主要的原因是AI幻觉。简单来说,就是大模型并非完全理解了“人”的提问,而是通过算法逻辑给出它认为正确的答案;有些时候,部分大模型为了“讨好”提问者,还会虚构信息或强词夺理。

专业人士指出,数学计算与逻辑推理是AI幻觉的高发场景。在计算过程中,大模型还可能因为遗漏数字,得出不仅错误并违背常识的答案。

例如,有用户向某大模型询问“鸡兔同笼”问题,题干是“笼中鸡兔共30只,脚88只,求鸡兔各有几只”。大模型用方程解题,将算式“2X+4 (30-X)=88”展开为“2X+120-X=88”,遗漏系数 4,得出“鸡-32只、兔62只”的荒谬答案。

值得关注的是,数学题引发的AI幻觉或许只是给出错误答案,而在信息服务上的AI幻觉很可能误事并扰乱社会秩序

例如,外省市曾出现网民使用AI大模型生成“汽车尾号限行”“公共事业费涨价”等假消息,AI大模型无法辨别真伪,将这些假消息抓取,成为其数据库的一部分。这就导致其他网民在查询相关信息时,AI大模型以讹传讹,传播假消息。

AI幻觉风险在专业领域也有破坏性。在北京市通州区人民法院审结的一起商事纠纷中,原告代理人直接将AI生成的司法案例作为诉讼依据。相关案例看似与案件高度契合,但经法官核实,案号对应的真实案件与AI描述完全不符,最终该代理意见被驳回,代理人也因用虚假信息扰乱司法秩序受到批评。

此外,不少专业人士在了解行业发展趋势时,会发现AI大模型能提供大量的行业发展数据、调研报告,并宣称它们出自官方或权威机构。但进一步核查会发现,这些数据、报告都是AI幻觉的结果——AI大模型为了迎合提问者而杜撰。如果相信这些数据、报告,很可能误导后期决策。

警惕AI幻觉,这些方法有效

客观地说,AI大模型确实为人们提供了搜索信息、掌握知识的新途径。但是,现有的技术发展还没有办法完全避免AI幻觉。那么,怎样避免被AI幻觉误导呢?有几个行之有效的好办法。

首先,追问AI大模型,要求大模型提供引用信息的出处。对于AI给出的关键结论,如政策条款、数据报告、案例细节等,明确要求其标注信息来源,包括具体文件名称、发布机构、发布时间及官方链接。如果AI大模型用“信息来源于公开网络”“综合整理多方资料”等模糊表述回应,或回避具体出处,基本可以判定信息存疑

例如,在咨询某项政策时,可以追问AI大模型“政策出处”“官方报道在哪里”“文件编号或发布日期”等,查看追问答案,筛除不可靠信息。

其次,求证信息时,不能“问AI要答案”,而是“找官方要真相”

“官方”包括各种政府机构的官方公众号、权威媒体的公众号等,而非信息分发平台、短视频平台上的“自媒体号”。比如,如果关心时事政策,可以查询政府机构或主流媒体的公众号。

核查一些“二手信息”或“旧闻”时,可以使用官方公众号的“搜索功能”。大部分公众号都有“搜索”功能,通常在公众号主页右上角或带有“放大镜”图标,输入信息的关键词,就能从公众号已有信息中匹配对应内容。


可以通过权威机构公众号的“搜索”功能核查信息

其三,交叉核对不同的官方信源,排除单一信息偏差。如果涉及重要决策,建议交叉核对两三个权威信源,确保信息无偏差。比如,想核实“研究生报考某导师的研究方向”,除了查看高校官方公众号、网页发布的导师介绍外,也可以查询教育类官方媒体公众号,核对信息,避免被AI编造的“导师虚假言论”误导。

其四,使用AI大模型检索官方信息发布渠道。在不确定具体官方平台时,可以让AI提供与需求相关的官方渠道清单

比如,想知道“如何查询个人个税缴纳记录”的答案,可以让AI大模型列出“国家税务总局官网”“当地税务局官方公众号”“个税 APP”等正规渠道,再自行登录查询。如果AI大模型推荐的渠道包含非官方平台,如商业资讯网站、个人运营的“税务咨询号”,要提高警惕,不可轻信。

最后,如果发现某条信息官方暂无报道,那么,比询问AI大模型“有没有”更稳妥的方式是“等待权威发布”。因为在AI大模型的“知识库”或者说数据库中,既有官方信息,也有小道消息,不少信息来自自媒体的“自说自话”甚至“胡编乱造”。当网民有需求时,AI大模型会将这些消息提供给提问者,或者自动捏造不实信息。所以,等待权威报道远好于问AI“要答案”。

总之,可以把AI作为工具检索信息,但不要全盘相信它给出的结果。

原标题:《让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?》

题图来源:上观题图

来源:作者:解放日报 任翀

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1976年毛主席追悼会后,叶帅密会许世友,只问了一句话,南京军区的指挥权到底在谁手里?

1976年毛主席追悼会后,叶帅密会许世友,只问了一句话,南京军区的指挥权到底在谁手里?

文史明鉴
2026-01-04 18:33:13
西工大连夜宣布好消息!全世界都没想到,中国居然“弯道超车”

西工大连夜宣布好消息!全世界都没想到,中国居然“弯道超车”

墨印斋
2026-01-06 15:25:54
农民无辜被抓,受尽各种酷刑,1996年运城特大刑讯逼供案始末

农民无辜被抓,受尽各种酷刑,1996年运城特大刑讯逼供案始末

晓记
2025-12-12 17:18:39
9日凌晨多哈冠军赛,国乒全员晋级仅陈熠丢局,16强名单更新如下

9日凌晨多哈冠军赛,国乒全员晋级仅陈熠丢局,16强名单更新如下

云隐南山
2026-01-09 04:20:14
只需拿出130亿,就能解决整个河北农村的取暖问题

只需拿出130亿,就能解决整个河北农村的取暖问题

小萝卜丝
2026-01-06 10:21:27
中俄刚说打通图们江,第一个跳出来反对的,一点不让人意外

中俄刚说打通图们江,第一个跳出来反对的,一点不让人意外

闻香阁
2026-01-04 11:16:35
买了1000多台还是不够用!未来20年,中国还要继续买俄罗斯航发​

买了1000多台还是不够用!未来20年,中国还要继续买俄罗斯航发​

芳芳历史烩
2025-12-26 15:07:47
有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

源溯历史
2025-12-22 12:14:13
福西西求姐姐帮忙处理炮友

福西西求姐姐帮忙处理炮友

毒舌扒姨太
2026-01-06 22:42:58
1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

1970年江青哥哥带儿子来北京,江青得知对方想见自己后:这事难办

谈古论今历史有道
2026-01-08 11:50:03
筷子兄弟,切特发视频感谢周琦为自己全明星拉票

筷子兄弟,切特发视频感谢周琦为自己全明星拉票

懂球帝
2026-01-08 16:53:12
瑟瑟发抖!不到24小时,日本失去动武资格,中国再宣布对日新制裁

瑟瑟发抖!不到24小时,日本失去动武资格,中国再宣布对日新制裁

离离言几许
2026-01-07 22:38:54
一颗榴莲,快让东南亚卷成“晋西北”了!

一颗榴莲,快让东南亚卷成“晋西北”了!

流苏晚晴
2026-01-07 20:13:10
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
陈乔恩带老公和父母聚餐,Alan负责给岳父岳母拍照,妥妥的好女婿

陈乔恩带老公和父母聚餐,Alan负责给岳父岳母拍照,妥妥的好女婿

黄谋仕
2026-01-08 18:07:49
笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

另子维爱读史
2026-01-07 20:53:19
新加坡反了!越南也反了!中日关系紧张的时候,一个公然站队日本

新加坡反了!越南也反了!中日关系紧张的时候,一个公然站队日本

南权先生
2025-12-23 16:56:51
毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

谈古论今历史有道
2026-01-07 07:45:03
赶在美国夺岛前,欧盟27国要联华抗美?这一次,王毅接到特殊电话

赶在美国夺岛前,欧盟27国要联华抗美?这一次,王毅接到特殊电话

科普100克克
2026-01-08 12:00:57
李昊读秒神扑!U23国足首次零封,媒体人:去国足和邵佳一会合

李昊读秒神扑!U23国足首次零封,媒体人:去国足和邵佳一会合

奥拜尔
2026-01-09 00:03:27
2026-01-09 10:27:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
415460文章数 758627关注度
往期回顾 全部

科技要闻

17.68万起售!何小鹏一口气发了4款车

头条要闻

媒体:看到委内瑞拉总统被美军活捉 李显龙怕了

头条要闻

媒体:看到委内瑞拉总统被美军活捉 李显龙怕了

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

郁亮的万科35年:从"宝万之争"到"活下去"

汽车要闻

限时7.98万元起!2026款秦L DM-i/秦PLUS DM-i长续航上市

态度原创

艺术
游戏
房产
公开课
军事航空

艺术要闻

Sean Yoro:街头艺术界的“冲浪高手”

沙漠还是寒冬? IGN波兰记者分析《巫师3》新DLC地点

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:已开始从委石油资源中赚钱

无障碍浏览 进入关怀版