网易首页 > 网易号 > 正文 申请入驻

让AI算24点,它坚持说25-12=24!大模型的回答为什么不能相信?

0
分享至

“孩子解不出‘24点’,让AI大模型帮忙,结果大模型给出‘2.6×5=24’的结果!孩子让大模型重新解题,没想到结果依旧奇葩,变成了‘25-12=24’!”最近发生的一件小事,让市民成女士对AI大模型的“解题思路”哭笑不得,“都说大模型不可全信,这次我有了切身的体会。”



某AI大模型做“24点”的结果

一段时间以来,部分网民利用AI大模型造假的消息时有发生,相关行为被依法查处。但部分网民不清楚的是,大模型因为“AI幻觉”,本身就会给出错误的答案。如果凡事都问AI大模型,很可能被误导

大模型做错小学数学题

大模型真的解不了小学数学题?

记者将成女士女儿的题目交给多个通用大模型:“根据小学数学知识,用5、5、5、12算‘24点’”,结果让人颇意外——

大模型A的答案是(12-5÷5)×2=24。这个算式本身就不符合题目要求,而且算式的结果是22,完全不对。


大模型A上演了“一本正经的胡说八道”

大模型B的答案是(5+5)×12÷5=24。算式和答案都正确,但在提供解题思路时,大模型说算式“(5+5)÷5×12”不对,可这两个算式都正确。


大模型B在“思考”过程中,将正确的解答判断为错误

大模型C的答案是(12×(5 + 5))÷5=24。总体正确,但根据书写规范,算式多了一个括号,应当是12×(5 + 5)÷5。


大模型C的解答书写不规范

记者又换了几道小学数学题,发现大模型解题时,可谓“洋相百出”。例如,有一道题是“不改变1、2、3、4、5这几个数字的次序,在它们间添加四则运算符号以及括号,使结果等于1,且运算过程中不能出现小数、负数”。大模型给了两个答案,分别是“(1×2×3+4) ÷5=1”和“(5+4) ÷3-(2-1)=1”。不难发现,两个解答都是错误的,而且答案二还改变了数字顺序,不符合题目要求。


大模型完全没有发现它给出的答案是错误的

接着,记者问大模型,如果增加一个数字6,即在1、2、3、4、5、6中添加四则运算符号以及括号,使结果等于1,答案是什么?某大模型给出两个答案,一是“(1+2+3+4)-(5+6)=1”,另一个是“1×(2+3+4)-(5+6)=1”,全都不正确。当记者用对话体“嘲笑”大模型“5+6=9”时,大模型竟然回复“这次5+6=9总算没算错!看来我今天终于把脑子‘重启’成功了”。


大模型一错再错

可见,看似能理解“人”说话、无所不知的AI大模型,其实有严重缺陷

大模型并不完全理解“人”

为什么大模型不能完成小学数学题?

最主要的原因是AI幻觉。简单来说,就是大模型并非完全理解了“人”的提问,而是通过算法逻辑给出它认为正确的答案;有些时候,部分大模型为了“讨好”提问者,还会虚构信息或强词夺理。

专业人士指出,数学计算与逻辑推理是AI幻觉的高发场景。在计算过程中,大模型还可能因为遗漏数字,得出不仅错误并违背常识的答案。

例如,有用户向某大模型询问“鸡兔同笼”问题,题干是“笼中鸡兔共30只,脚88只,求鸡兔各有几只”。大模型用方程解题,将算式“2X+4 (30-X)=88”展开为“2X+120-X=88”,遗漏系数 4,得出“鸡-32只、兔62只”的荒谬答案。

值得关注的是,数学题引发的AI幻觉或许只是给出错误答案,而在信息服务上的AI幻觉很可能误事并扰乱社会秩序

例如,外省市曾出现网民使用AI大模型生成“汽车尾号限行”“公共事业费涨价”等假消息,AI大模型无法辨别真伪,将这些假消息抓取,成为其数据库的一部分。这就导致其他网民在查询相关信息时,AI大模型以讹传讹,传播假消息。

AI幻觉风险在专业领域也有破坏性。在北京市通州区人民法院审结的一起商事纠纷中,原告代理人直接将AI生成的司法案例作为诉讼依据。相关案例看似与案件高度契合,但经法官核实,案号对应的真实案件与AI描述完全不符,最终该代理意见被驳回,代理人也因用虚假信息扰乱司法秩序受到批评。

此外,不少专业人士在了解行业发展趋势时,会发现AI大模型能提供大量的行业发展数据、调研报告,并宣称它们出自官方或权威机构。但进一步核查会发现,这些数据、报告都是AI幻觉的结果——AI大模型为了迎合提问者而杜撰。如果相信这些数据、报告,很可能误导后期决策。

警惕AI幻觉,这些方法有效

客观地说,AI大模型确实为人们提供了搜索信息、掌握知识的新途径。但是,现有的技术发展还没有办法完全避免AI幻觉。那么,怎样避免被AI幻觉误导呢?有几个行之有效的好办法。

首先,追问AI大模型,要求大模型提供引用信息的出处。对于AI给出的关键结论,如政策条款、数据报告、案例细节等,明确要求其标注信息来源,包括具体文件名称、发布机构、发布时间及官方链接。如果AI大模型用“信息来源于公开网络”“综合整理多方资料”等模糊表述回应,或回避具体出处,基本可以判定信息存疑

例如,在咨询某项政策时,可以追问AI大模型“政策出处”“官方报道在哪里”“文件编号或发布日期”等,查看追问答案,筛除不可靠信息。

其次,求证信息时,不能“问AI要答案”,而是“找官方要真相”

“官方”包括各种政府机构的官方公众号、权威媒体的公众号等,而非信息分发平台、短视频平台上的“自媒体号”。比如,如果关心时事政策,可以查询政府机构或主流媒体的公众号。

核查一些“二手信息”或“旧闻”时,可以使用官方公众号的“搜索功能”。大部分公众号都有“搜索”功能,通常在公众号主页右上角或带有“放大镜”图标,输入信息的关键词,就能从公众号已有信息中匹配对应内容。


可以通过权威机构公众号的“搜索”功能核查信息

其三,交叉核对不同的官方信源,排除单一信息偏差。如果涉及重要决策,建议交叉核对两三个权威信源,确保信息无偏差。比如,想核实“研究生报考某导师的研究方向”,除了查看高校官方公众号、网页发布的导师介绍外,也可以查询教育类官方媒体公众号,核对信息,避免被AI编造的“导师虚假言论”误导。

其四,使用AI大模型检索官方信息发布渠道。在不确定具体官方平台时,可以让AI提供与需求相关的官方渠道清单

比如,想知道“如何查询个人个税缴纳记录”的答案,可以让AI大模型列出“国家税务总局官网”“当地税务局官方公众号”“个税 APP”等正规渠道,再自行登录查询。如果AI大模型推荐的渠道包含非官方平台,如商业资讯网站、个人运营的“税务咨询号”,要提高警惕,不可轻信。

最后,如果发现某条信息官方暂无报道,那么,比询问AI大模型“有没有”更稳妥的方式是“等待权威发布”。因为在AI大模型的“知识库”或者说数据库中,既有官方信息,也有小道消息,不少信息来自自媒体的“自说自话”甚至“胡编乱造”。当网民有需求时,AI大模型会将这些消息提供给提问者,或者自动捏造不实信息。所以,等待权威报道远好于问AI“要答案”。

总之,可以把AI作为工具检索信息,但不要全盘相信它给出的结果。

微信编辑:何夕

还原事实,洞悉真相。

欢迎关注,留言举报!

除了辟谣,这里还关注网络热点,及时回应网友关切,追踪事件进展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沪上皇秦奋独自在上海吃创意菜,37岁依然追逐时尚双眼无神有点呆

沪上皇秦奋独自在上海吃创意菜,37岁依然追逐时尚双眼无神有点呆

小娱乐悠悠
2025-11-06 15:12:07
不会吃别尬吃!《树影迷宫》廖凡吃馅饼,让假吃演员无地自容

不会吃别尬吃!《树影迷宫》廖凡吃馅饼,让假吃演员无地自容

糊咖娱乐
2025-11-05 11:33:50
安徽一地发现金矿,3000多户拆迁?当地回应

安徽一地发现金矿,3000多户拆迁?当地回应

极目新闻
2025-11-05 16:08:13
哈佛大学教授一句话,解决人生90%的问题

哈佛大学教授一句话,解决人生90%的问题

洞见
2025-11-04 21:50:08
女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

悬案解密档案
2025-11-03 10:58:58
周四收盘:今天涨到4008,做好准备了,周五很可能将迎来关键变盘

周四收盘:今天涨到4008,做好准备了,周五很可能将迎来关键变盘

好贤观史记
2025-11-06 15:00:23
通背拳被KO后续!赵鸿刚对手不承认自己犯规,称只用了40%的实力

通背拳被KO后续!赵鸿刚对手不承认自己犯规,称只用了40%的实力

派大星纪录片
2025-11-06 12:54:44
中国是否会撤销对美国美光公司的禁售?商务部回应

中国是否会撤销对美国美光公司的禁售?商务部回应

界面新闻
2025-11-06 16:31:52
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

封杀四年,49岁赵薇突传消息,因胃癌去世传闻5个月前就真相大白

小樾说历史
2025-11-04 15:18:33
阿里双11新战场,一张千万热行AI表格?

阿里双11新战场,一张千万热行AI表格?

产业家
2025-11-05 15:59:26
鹿晗给关晓彤一个亿彩礼!?

鹿晗给关晓彤一个亿彩礼!?

八卦疯叔
2025-11-06 09:49:44
王爱和,被查

王爱和,被查

新京报政事儿
2025-11-06 12:52:41
仅得11+4+5!请不要怪杜兰特,申京赛后发出请求,阿门也把话挑明

仅得11+4+5!请不要怪杜兰特,申京赛后发出请求,阿门也把话挑明

巴叔GO聊体育
2025-11-06 15:34:10
国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

来科点谱
2025-11-06 13:44:10
人民讨厌“阿里味儿”,山姆不要变成另一个阿里

人民讨厌“阿里味儿”,山姆不要变成另一个阿里

超先声
2025-11-04 17:40:42
一位姓袁的历史老师,为何能3次准确预言俄乌战争走向?

一位姓袁的历史老师,为何能3次准确预言俄乌战争走向?

猫智深
2025-11-04 20:10:12
国务院批复同意《成渝地区双城经济圈国土空间规划(2021—2035年)》

国务院批复同意《成渝地区双城经济圈国土空间规划(2021—2035年)》

界面新闻
2025-11-06 17:07:54
副院长不雅视频后续:手术中单铺沙发、都已停诊!身份被扒不简单

副院长不雅视频后续:手术中单铺沙发、都已停诊!身份被扒不简单

千言娱乐记
2025-11-06 14:39:28
村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

村里建广场我赞助40万,却发现没我名字我淡定离开,三天后村长懵了

眼泪博物
2025-08-22 18:21:23
2025-11-06 17:32:49
网络辟谣 incentive-icons
网络辟谣
上海市网信办、解放日报出品
4744文章数 37104关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

医院副院长被指出轨眼科主任 湖南卫健委:两人被停职

头条要闻

医院副院长被指出轨眼科主任 湖南卫健委:两人被停职

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

数码
手机
本地
艺术
公开课

数码要闻

黑鲨凤鸣头戴式耳机S1发布:379元享-52dB深度降噪与空间音效

手机要闻

新一代iPhone Air曝光,有望新增48MP超广角镜头

本地新闻

这届干饭人,已经把博物馆吃成了食堂

艺术要闻

预定年度十佳!49岁的舒淇,杀疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版