网易首页 > 网易号 > 正文 申请入驻

让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?

0
分享至

“孩子解不出‘24点’,让AI大模型帮忙,结果大模型给出‘2.6×5=24’的结果!孩子让大模型重新解题,没想到结果依旧奇葩,变成了‘25-12=24’!”最近发生的一件小事,让市民成女士对AI大模型的“解题思路”哭笑不得,“都说大模型不可全信,这次我有了切身的体会。”



某AI大模型做“24点”的结果

一段时间以来,部分网民利用AI大模型造假的消息时有发生,相关行为被依法查处。但部分网民不清楚的是,大模型因为“AI幻觉”,本身就会给出错误的答案。如果凡事都问AI大模型,很可能被误导

大模型做错小学数学题

大模型真的解不了小学数学题?

记者将成女士女儿的题目交给多个通用大模型:“根据小学数学知识,用5、5、5、12算‘24点’”,结果让人颇意外——

大模型A的答案是(12-5÷5)×2=24。这个算式本身就不符合题目要求,而且算式的结果是22,完全不对。


大模型A上演了“一本正经的胡说八道”

大模型B的答案是(5+5)×12÷5=24。算式和答案都正确,但在提供解题思路时,大模型说算式“(5+5)÷5×12”不对,可这两个算式都正确。


大模型B在“思考”过程中,将正确的解答判断为错误

大模型C的答案是(12×(5 + 5))÷5=24。总体正确,但根据书写规范,算式多了一个括号,应当是12×(5 + 5)÷5。


大模型C的解答书写不规范

记者又换了几道小学数学题,发现大模型解题时,可谓“洋相百出”。例如,有一道题是“不改变1、2、3、4、5这几个数字的次序,在它们间添加四则运算符号以及括号,使结果等于1,且运算过程中不能出现小数、负数”。大模型给了两个答案,分别是“(1×2×3+4) ÷5=1”和“(5+4) ÷3-(2-1)=1”。不难发现,两个解答都是错误的,而且答案二还改变了数字顺序,不符合题目要求。


大模型完全没有发现它给出的答案是错误的

接着,记者问大模型,如果增加一个数字6,即在1、2、3、4、5、6中添加四则运算符号以及括号,使结果等于1,答案是什么?某大模型给出两个答案,一是“(1+2+3+4)-(5+6)=1”,另一个是“1×(2+3+4)-(5+6)=1”,全都不正确。当记者用对话体“嘲笑”大模型“5+6=9”时,大模型竟然回复“这次5+6=9总算没算错!看来我今天终于把脑子‘重启’成功了”。


大模型一错再错

可见,看似能理解“人”说话、无所不知的AI大模型,其实有严重缺陷

大模型并不完全理解“人”

为什么大模型不能完成小学数学题?

最主要的原因是AI幻觉。简单来说,就是大模型并非完全理解了“人”的提问,而是通过算法逻辑给出它认为正确的答案;有些时候,部分大模型为了“讨好”提问者,还会虚构信息或强词夺理。

专业人士指出,数学计算与逻辑推理是AI幻觉的高发场景。在计算过程中,大模型还可能因为遗漏数字,得出不仅错误并违背常识的答案。

例如,有用户向某大模型询问“鸡兔同笼”问题,题干是“笼中鸡兔共30只,脚88只,求鸡兔各有几只”。大模型用方程解题,将算式“2X+4 (30-X)=88”展开为“2X+120-X=88”,遗漏系数 4,得出“鸡-32只、兔62只”的荒谬答案。

值得关注的是,数学题引发的AI幻觉或许只是给出错误答案,而在信息服务上的AI幻觉很可能误事并扰乱社会秩序

例如,外省市曾出现网民使用AI大模型生成“汽车尾号限行”“公共事业费涨价”等假消息,AI大模型无法辨别真伪,将这些假消息抓取,成为其数据库的一部分。这就导致其他网民在查询相关信息时,AI大模型以讹传讹,传播假消息。

AI幻觉风险在专业领域也有破坏性。在北京市通州区人民法院审结的一起商事纠纷中,原告代理人直接将AI生成的司法案例作为诉讼依据。相关案例看似与案件高度契合,但经法官核实,案号对应的真实案件与AI描述完全不符,最终该代理意见被驳回,代理人也因用虚假信息扰乱司法秩序受到批评。

此外,不少专业人士在了解行业发展趋势时,会发现AI大模型能提供大量的行业发展数据、调研报告,并宣称它们出自官方或权威机构。但进一步核查会发现,这些数据、报告都是AI幻觉的结果——AI大模型为了迎合提问者而杜撰。如果相信这些数据、报告,很可能误导后期决策。

警惕AI幻觉,这些方法有效

客观地说,AI大模型确实为人们提供了搜索信息、掌握知识的新途径。但是,现有的技术发展还没有办法完全避免AI幻觉。那么,怎样避免被AI幻觉误导呢?有几个行之有效的好办法。

首先,追问AI大模型,要求大模型提供引用信息的出处。对于AI给出的关键结论,如政策条款、数据报告、案例细节等,明确要求其标注信息来源,包括具体文件名称、发布机构、发布时间及官方链接。如果AI大模型用“信息来源于公开网络”“综合整理多方资料”等模糊表述回应,或回避具体出处,基本可以判定信息存疑

例如,在咨询某项政策时,可以追问AI大模型“政策出处”“官方报道在哪里”“文件编号或发布日期”等,查看追问答案,筛除不可靠信息。

其次,求证信息时,不能“问AI要答案”,而是“找官方要真相”

“官方”包括各种政府机构的官方公众号、权威媒体的公众号等,而非信息分发平台、短视频平台上的“自媒体号”。比如,如果关心时事政策,可以查询政府机构或主流媒体的公众号。

核查一些“二手信息”或“旧闻”时,可以使用官方公众号的“搜索功能”。大部分公众号都有“搜索”功能,通常在公众号主页右上角或带有“放大镜”图标,输入信息的关键词,就能从公众号已有信息中匹配对应内容。


可以通过权威机构公众号的“搜索”功能核查信息

其三,交叉核对不同的官方信源,排除单一信息偏差。如果涉及重要决策,建议交叉核对两三个权威信源,确保信息无偏差。比如,想核实“研究生报考某导师的研究方向”,除了查看高校官方公众号、网页发布的导师介绍外,也可以查询教育类官方媒体公众号,核对信息,避免被AI编造的“导师虚假言论”误导。

其四,使用AI大模型检索官方信息发布渠道。在不确定具体官方平台时,可以让AI提供与需求相关的官方渠道清单

比如,想知道“如何查询个人个税缴纳记录”的答案,可以让AI大模型列出“国家税务总局官网”“当地税务局官方公众号”“个税 APP”等正规渠道,再自行登录查询。如果AI大模型推荐的渠道包含非官方平台,如商业资讯网站、个人运营的“税务咨询号”,要提高警惕,不可轻信。

最后,如果发现某条信息官方暂无报道,那么,比询问AI大模型“有没有”更稳妥的方式是“等待权威发布”。因为在AI大模型的“知识库”或者说数据库中,既有官方信息,也有小道消息,不少信息来自自媒体的“自说自话”甚至“胡编乱造”。当网民有需求时,AI大模型会将这些消息提供给提问者,或者自动捏造不实信息。所以,等待权威报道远好于问AI“要答案”。

总之,可以把AI作为工具检索信息,但不要全盘相信它给出的结果。

微信编辑:何夕

还原事实,洞悉真相。

欢迎关注,留言举报!

除了辟谣,这里还关注网络热点,及时回应网友关切,追踪事件进展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重点群体稳就业|从“家门”到“厂门” 春风护航节后返岗复工

重点群体稳就业|从“家门”到“厂门” 春风护航节后返岗复工

新华社
2026-02-25 13:54:36
仗打了1461天,泽连斯基要走人了?他留给乌克兰的,只有遍地残垣

仗打了1461天,泽连斯基要走人了?他留给乌克兰的,只有遍地残垣

户外钓鱼哥阿旱
2026-02-26 13:11:07
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地,归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地,归还其合法家园

泄气得爱
2026-02-26 13:33:26
《除恶》开播炸场!全程无废戏!叶祖新反派翻红惊艳全网!

《除恶》开播炸场!全程无废戏!叶祖新反派翻红惊艳全网!

梦醉为红颜一笑
2026-02-26 13:38:22
弥留之际的孙中山,在众人面前留下遗言,同时指着宋庆龄,郑重交代了十个字

弥留之际的孙中山,在众人面前留下遗言,同时指着宋庆龄,郑重交代了十个字

老杉说历史
2025-12-31 18:38:13
哈工大和华科哪个好 两校实力大比拼

哈工大和华科哪个好 两校实力大比拼

王晓爱体彩
2026-02-26 02:26:24
TVB“御用烂仔”演员游飚去世,终年57岁,李力持发文悼念

TVB“御用烂仔”演员游飚去世,终年57岁,李力持发文悼念

红星新闻
2026-02-25 11:05:07
迷失无人区:女子带藏獒无人区失联两周,警方找到车,车内只剩藏獒

迷失无人区:女子带藏獒无人区失联两周,警方找到车,车内只剩藏獒

罪案洞察者
2025-11-10 13:57:07
癌症的“源头”已发现?咸菜没上榜,第1名大家或天天都在吃!

癌症的“源头”已发现?咸菜没上榜,第1名大家或天天都在吃!

蜉蝣说
2026-02-26 10:38:38
Model 3/Y首付7.99万元起!特斯拉中国再推促销方案:多款车型可享“7年超低息”,还可选“5年0息”

Model 3/Y首付7.99万元起!特斯拉中国再推促销方案:多款车型可享“7年超低息”,还可选“5年0息”

每日经济新闻
2026-02-26 12:41:06
离谱!校友恶评谷爱凌:她是中国间谍 和中国一样甘心当世界第二

离谱!校友恶评谷爱凌:她是中国间谍 和中国一样甘心当世界第二

念洲
2026-02-25 07:47:12
10人尤文3-2惜败出局:红牌疑云笼罩,七年魔咒何时破?

10人尤文3-2惜败出局:红牌疑云笼罩,七年魔咒何时破?

落夜足球
2026-02-26 14:18:18
前中天主播吴中纯淋巴癌猝逝!蔡正元:非常不舍

前中天主播吴中纯淋巴癌猝逝!蔡正元:非常不舍

新时光点滴
2026-02-26 00:02:00
74岁陈凯歌三亚过年超豪气!5万皮鞋配大金表,脸上老年斑藏不住

74岁陈凯歌三亚过年超豪气!5万皮鞋配大金表,脸上老年斑藏不住

复转小能手
2026-02-25 23:46:10
7场造7球!3500万欧元买来边路最强爆点,马竞冬窗捡漏非洲先生

7场造7球!3500万欧元买来边路最强爆点,马竞冬窗捡漏非洲先生

体坛老球迷
2026-02-25 16:10:13
曾国藩:遇到阴险小人,千万别翻脸!学会三招,比跟他拼命强百倍

曾国藩:遇到阴险小人,千万别翻脸!学会三招,比跟他拼命强百倍

千秋文化
2026-02-17 14:47:23
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
印军前总长亲手拆台:印军白死了!加勒万那夜,印度输的不是一点

印军前总长亲手拆台:印军白死了!加勒万那夜,印度输的不是一点

爱吃醋的猫咪
2026-02-26 13:49:14
行程有变,默茨访华缩短一天?德国发出警告,中方身份发生变化

行程有变,默茨访华缩短一天?德国发出警告,中方身份发生变化

无情有思ss
2026-02-25 14:59:41
日本以为高市早苗连任,能让中国吃下哑巴亏,没想到结果会是这样

日本以为高市早苗连任,能让中国吃下哑巴亏,没想到结果会是这样

慕名而来只为你
2026-02-26 13:07:57
2026-02-26 14:35:00
网络辟谣 incentive-icons
网络辟谣
上海市网信办、解放日报出品
4922文章数 37124关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

健康
游戏
艺术
房产
军事航空

转头就晕的耳石症,能开车上班吗?

PS港服三月会免来了!怪猎崛起 史莱姆牧场2等

艺术要闻

2025年百家金陵画展 | 油画作品选刊

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版