网易首页 > 网易号 > 正文 申请入驻

让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?

0
分享至

来源:滚动播报

(来源:上观新闻)



“孩子解不出‘24点’,让AI大模型帮忙,结果大模型给出‘2.6×5=24’的结果!孩子让大模型重新解题,没想到结果依旧奇葩,变成了‘25-12=24’!”最近发生的一件小事,让市民成女士对AI大模型的“解题思路”哭笑不得,“都说大模型不可全信,这次我有了切身的体会。”



某AI大模型做“24点”的结果

一段时间以来,部分网民利用AI大模型造假的消息时有发生,相关行为被依法查处。但部分网民不清楚的是,大模型因为“AI幻觉”,本身就会给出错误的答案。如果凡事都问AI大模型,很可能被误导。

大模型做错小学数学题

大模型真的解不了小学数学题?

记者将成女士女儿的题目交给多个通用大模型:“根据小学数学知识,用5、5、5、12算‘24点’”,结果让人颇意外——

大模型A的答案是(12-5÷5)×2=24。这个算式本身就不符合题目要求,而且算式的结果是22,完全不对。


大模型A上演了“一本正经的胡说八道”

大模型B的答案是(5+5)×12÷5=24。算式和答案都正确,但在提供解题思路时,大模型说算式“(5+5)÷5×12”不对,可这两个算式都正确。


大模型B在“思考”过程中,将正确的解答判断为错误

大模型C的答案是(12×(5 + 5))÷5=24。总体正确,但根据书写规范,算式多了一个括号,应当是12×(5 + 5)÷5。


大模型C的解答书写不规范

记者又换了几道小学数学题,发现大模型解题时,可谓“洋相百出”。例如,有一道题是“不改变1、2、3、4、5这几个数字的次序,在它们间添加四则运算符号以及括号,使结果等于1,且运算过程中不能出现小数、负数”。大模型给了两个答案,分别是“(1×2×3+4) ÷5=1”和“(5+4) ÷3-(2-1)=1”。不难发现,两个解答都是错误的,而且答案二还改变了数字顺序,不符合题目要求。


大模型完全没有发现它给出的答案是错误的

接着,记者问大模型,如果增加一个数字6,即在1、2、3、4、5、6中添加四则运算符号以及括号,使结果等于1,答案是什么?某大模型给出两个答案,一是“(1+2+3+4)-(5+6)=1”,另一个是“1×(2+3+4)-(5+6)=1”,全都不正确。当记者用对话体“嘲笑”大模型“5+6=9”时,大模型竟然回复“这次5+6=9总算没算错!看来我今天终于把脑子‘重启’成功了”。


大模型一错再错

可见,看似能理解“人”说话、无所不知的AI大模型,其实有严重缺陷。

大模型并不完全理解“人”

为什么大模型不能完成小学数学题?

最主要的原因是AI幻觉。简单来说,就是大模型并非完全理解了“人”的提问,而是通过算法逻辑给出它认为正确的答案;有些时候,部分大模型为了“讨好”提问者,还会虚构信息或强词夺理。

专业人士指出,数学计算与逻辑推理是AI幻觉的高发场景。在计算过程中,大模型还可能因为遗漏数字,得出不仅错误并违背常识的答案。

例如,有用户向某大模型询问“鸡兔同笼”问题,题干是“笼中鸡兔共30只,脚88只,求鸡兔各有几只”。大模型用方程解题,将算式“2X+4 (30-X)=88”展开为“2X+120-X=88”,遗漏系数 4,得出“鸡-32只、兔62只”的荒谬答案。

值得关注的是,数学题引发的AI幻觉或许只是给出错误答案,而在信息服务上的AI幻觉很可能误事并扰乱社会秩序。

例如,外省市曾出现网民使用AI大模型生成“汽车尾号限行”“公共事业费涨价”等假消息,AI大模型无法辨别真伪,将这些假消息抓取,成为其数据库的一部分。这就导致其他网民在查询相关信息时,AI大模型以讹传讹,传播假消息。

AI幻觉风险在专业领域也有破坏性。在北京市通州区人民法院审结的一起商事纠纷中,原告代理人直接将AI生成的司法案例作为诉讼依据。相关案例看似与案件高度契合,但经法官核实,案号对应的真实案件与AI描述完全不符,最终该代理意见被驳回,代理人也因用虚假信息扰乱司法秩序受到批评。

此外,不少专业人士在了解行业发展趋势时,会发现AI大模型能提供大量的行业发展数据、调研报告,并宣称它们出自官方或权威机构。但进一步核查会发现,这些数据、报告都是AI幻觉的结果——AI大模型为了迎合提问者而杜撰。如果相信这些数据、报告,很可能误导后期决策。

警惕AI幻觉,这些方法有效

客观地说,AI大模型确实为人们提供了搜索信息、掌握知识的新途径。但是,现有的技术发展还没有办法完全避免AI幻觉。那么,怎样避免被AI幻觉误导呢?有几个行之有效的好办法。

首先,追问AI大模型,要求大模型提供引用信息的出处。对于AI给出的关键结论,如政策条款、数据报告、案例细节等,明确要求其标注信息来源,包括具体文件名称、发布机构、发布时间及官方链接。如果AI大模型用“信息来源于公开网络”“综合整理多方资料”等模糊表述回应,或回避具体出处,基本可以判定信息存疑。

例如,在咨询某项政策时,可以追问AI大模型“政策出处”“官方报道在哪里”“文件编号或发布日期”等,查看追问答案,筛除不可靠信息。

其次,求证信息时,不能“问AI要答案”,而是“找官方要真相”。

“官方”包括各种政府机构的官方公众号、权威媒体的公众号等,而非信息分发平台、短视频平台上的“自媒体号”。比如,如果关心时事政策,可以查询政府机构或主流媒体的公众号。

核查一些“二手信息”或“旧闻”时,可以使用官方公众号的“搜索功能”。大部分公众号都有“搜索”功能,通常在公众号主页右上角或带有“放大镜”图标,输入信息的关键词,就能从公众号已有信息中匹配对应内容。


可以通过权威机构公众号的“搜索”功能核查信息

其三,交叉核对不同的官方信源,排除单一信息偏差。如果涉及重要决策,建议交叉核对两三个权威信源,确保信息无偏差。比如,想核实“研究生报考某导师的研究方向”,除了查看高校官方公众号、网页发布的导师介绍外,也可以查询教育类官方媒体公众号,核对信息,避免被AI编造的“导师虚假言论”误导。

其四,使用AI大模型检索官方信息发布渠道。在不确定具体官方平台时,可以让AI提供与需求相关的官方渠道清单。

比如,想知道“如何查询个人个税缴纳记录”的答案,可以让AI大模型列出“国家税务总局官网”“当地税务局官方公众号”“个税 APP”等正规渠道,再自行登录查询。如果AI大模型推荐的渠道包含非官方平台,如商业资讯网站、个人运营的“税务咨询号”,要提高警惕,不可轻信。

最后,如果发现某条信息官方暂无报道,那么,比询问AI大模型“有没有”更稳妥的方式是“等待权威发布”。因为在AI大模型的“知识库”或者说数据库中,既有官方信息,也有小道消息,不少信息来自自媒体的“自说自话”甚至“胡编乱造”。当网民有需求时,AI大模型会将这些消息提供给提问者,或者自动捏造不实信息。所以,等待权威报道远好于问AI“要答案”。

总之,可以把AI作为工具检索信息,但不要全盘相信它给出的结果。

原标题:《让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?》

题图来源:上观题图

来源:作者:解放日报 任翀

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏联的邻居们,几乎都有一个类似外蒙的存在?芬兰、伊朗纷纷点头

苏联的邻居们,几乎都有一个类似外蒙的存在?芬兰、伊朗纷纷点头

历史摆渡
2026-01-24 18:40:03
广州80-78险胜青岛,郭艾伦19分,米奇空砍28分13板

广州80-78险胜青岛,郭艾伦19分,米奇空砍28分13板

懂球帝
2026-01-25 21:30:09
6场23分钟!枪手7000万先生踢世界杯有点悬 若无改观将成3输交易

6场23分钟!枪手7000万先生踢世界杯有点悬 若无改观将成3输交易

雪狼侃体育
2026-01-25 22:44:35
先导智能:2025年净利同比预增424%-529%

先导智能:2025年净利同比预增424%-529%

财联社
2026-01-25 16:21:12
ICE猛于虎,美天气预报不敢说“冰”字!3周射杀2名美国人,零下23℃数万人示威

ICE猛于虎,美天气预报不敢说“冰”字!3周射杀2名美国人,零下23℃数万人示威

红星新闻
2026-01-25 18:23:34
沪京浙领跑全国收入榜:上海人均收入首破9万,11个省份超4万

沪京浙领跑全国收入榜:上海人均收入首破9万,11个省份超4万

时代周报
2026-01-25 19:29:21
明明是个不错的内线得分手,结果湖人在场上却一点球权都不给他?

明明是个不错的内线得分手,结果湖人在场上却一点球权都不给他?

稻谷与小麦
2026-01-25 22:26:04
唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

星辰故事屋
2026-01-23 12:14:47
43岁张杰正式宣布退出!原因令人唏嘘,担心的事还是发生了

43岁张杰正式宣布退出!原因令人唏嘘,担心的事还是发生了

往史过眼云烟
2026-01-25 19:29:33
美国联邦执法人员再次开枪打死一居民后,NBA因安全原因推迟森林狼对勇士比赛

美国联邦执法人员再次开枪打死一居民后,NBA因安全原因推迟森林狼对勇士比赛

环球网资讯
2026-01-25 09:02:10
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
颀中科技厂区发生火灾,或影响2026年业绩

颀中科技厂区发生火灾,或影响2026年业绩

红星资本局
2026-01-25 20:35:05
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
明朝皇帝为什么会如此短寿?原来都是徐达家的基因不行!

明朝皇帝为什么会如此短寿?原来都是徐达家的基因不行!

真的好爱你
2026-01-23 22:21:50
北京机场停不下!7国首脑排队访华,特朗普玩脱,铁杆小弟全反水

北京机场停不下!7国首脑排队访华,特朗普玩脱,铁杆小弟全反水

泠泠说史
2026-01-24 11:09:16
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
李亚鹏曝光捐赠名单,向太发声:我捐了几百万,王菲默默支持了几千万,也是不够的……

李亚鹏曝光捐赠名单,向太发声:我捐了几百万,王菲默默支持了几千万,也是不够的……

都市快报橙柿互动
2026-01-24 19:48:42
2026年是一个大坎,有些地方要尽量少去

2026年是一个大坎,有些地方要尽量少去

郁郁乎文
2026-01-21 13:15:54
公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

带你感受人间冷暖
2026-01-25 00:05:08
2026春晚首轮联排落幕,小品阵容洗牌,歌手演员全面年轻化

2026春晚首轮联排落幕,小品阵容洗牌,歌手演员全面年轻化

天天热点见闻
2026-01-25 08:54:42
2026-01-25 23:40:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057561文章数 5296关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

艺术
家居
健康
亲子
公开课

艺术要闻

砸31亿!赛力斯“超级圆环”新进展,造型太科幻!

家居要闻

在家度假 160平南洋混搭宅

耳石脱落为何让人天旋地转+恶心?

亲子要闻

明明产检时梅毒都是阴性,分娩却阳了,导致小孩先天梅毒,原因竟是一次孕期的出轨......我不想站在道...

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版