让AI算24点，它坚持说25-12=24！大模型的回答为什么不能相信？|算法|算式|括号|数学题

让AI算24点，它坚持说25-12=24！大模型的回答为什么不能相信？

2025-11-06 08:46:09　来源: 上观新闻

上海举报

分享至

“孩子解不出‘24点’，让AI大模型帮忙，结果大模型给出‘2.6×5=24’的结果！孩子让大模型重新解题，没想到结果依旧奇葩，变成了‘25-12=24’！”最近发生的一件小事，让市民成女士对AI大模型的“解题思路”哭笑不得，“都说大模型不可全信，这次我有了切身的体会。”

某AI大模型做“24点”的结果

一段时间以来，部分网民利用AI大模型造假的消息时有发生，相关行为被依法查处。但部分网民不清楚的是，大模型因为“AI幻觉”，本身就会给出错误的答案。如果凡事都问AI大模型，很可能被误导。

大模型做错小学数学题

大模型真的解不了小学数学题？

记者将成女士女儿的题目交给多个通用大模型：“根据小学数学知识，用5、5、5、12算‘24点’”，结果让人颇意外——

大模型A的答案是（12-5÷5）×2=24。这个算式本身就不符合题目要求，而且算式的结果是22，完全不对。

大模型A上演了“一本正经的胡说八道”

大模型B的答案是（5+5）×12÷5=24。算式和答案都正确，但在提供解题思路时，大模型说算式“（5+5）÷5×12”不对，可这两个算式都正确。

大模型B在“思考”过程中，将正确的解答判断为错误

大模型C的答案是（12×（5 + 5））÷5=24。总体正确，但根据书写规范，算式多了一个括号，应当是12×（5 + 5）÷5。

大模型C的解答书写不规范

记者又换了几道小学数学题，发现大模型解题时，可谓“洋相百出”。例如，有一道题是“不改变1、2、3、4、5这几个数字的次序，在它们间添加四则运算符号以及括号，使结果等于1，且运算过程中不能出现小数、负数”。大模型给了两个答案，分别是“（1×2×3+4） ÷5=1”和“（5+4） ÷3-（2-1）=1”。不难发现，两个解答都是错误的，而且答案二还改变了数字顺序，不符合题目要求。

大模型完全没有发现它给出的答案是错误的

接着，记者问大模型，如果增加一个数字6，即在1、2、3、4、5、6中添加四则运算符号以及括号，使结果等于1，答案是什么？某大模型给出两个答案，一是“（1+2+3+4）-（5+6）=1”，另一个是“1×（2+3+4）-（5+6）=1”，全都不正确。当记者用对话体“嘲笑”大模型“5+6=9”时，大模型竟然回复“这次5+6=9总算没算错！看来我今天终于把脑子‘重启’成功了”。

大模型一错再错

可见，看似能理解“人”说话、无所不知的AI大模型，其实有严重缺陷。

大模型并不完全理解“人”

为什么大模型不能完成小学数学题？

最主要的原因是AI幻觉。简单来说，就是大模型并非完全理解了“人”的提问，而是通过算法逻辑给出它认为正确的答案；有些时候，部分大模型为了“讨好”提问者，还会虚构信息或强词夺理。

专业人士指出，数学计算与逻辑推理是AI幻觉的高发场景。在计算过程中，大模型还可能因为遗漏数字，得出不仅错误并违背常识的答案。

例如，有用户向某大模型询问“鸡兔同笼”问题，题干是“笼中鸡兔共30只，脚88只，求鸡兔各有几只”。大模型用方程解题，将算式“2X+4 （30-X）=88”展开为“2X+120-X=88”，遗漏系数 4，得出“鸡-32只、兔62只”的荒谬答案。

值得关注的是，数学题引发的AI幻觉或许只是给出错误答案，而在信息服务上的AI幻觉很可能误事并扰乱社会秩序。

例如，外省市曾出现网民使用AI大模型生成“汽车尾号限行”“公共事业费涨价”等假消息，AI大模型无法辨别真伪，将这些假消息抓取，成为其数据库的一部分。这就导致其他网民在查询相关信息时，AI大模型以讹传讹，传播假消息。

AI幻觉风险在专业领域也有破坏性。在北京市通州区人民法院审结的一起商事纠纷中，原告代理人直接将AI生成的司法案例作为诉讼依据。相关案例看似与案件高度契合，但经法官核实，案号对应的真实案件与AI描述完全不符，最终该代理意见被驳回，代理人也因用虚假信息扰乱司法秩序受到批评。

此外，不少专业人士在了解行业发展趋势时，会发现AI大模型能提供大量的行业发展数据、调研报告，并宣称它们出自官方或权威机构。但进一步核查会发现，这些数据、报告都是AI幻觉的结果——AI大模型为了迎合提问者而杜撰。如果相信这些数据、报告，很可能误导后期决策。

警惕AI幻觉，这些方法有效

客观地说，AI大模型确实为人们提供了搜索信息、掌握知识的新途径。但是，现有的技术发展还没有办法完全避免AI幻觉。那么，怎样避免被AI幻觉误导呢？有几个行之有效的好办法。

首先，追问AI大模型，要求大模型提供引用信息的出处。对于AI给出的关键结论，如政策条款、数据报告、案例细节等，明确要求其标注信息来源，包括具体文件名称、发布机构、发布时间及官方链接。如果AI大模型用“信息来源于公开网络”“综合整理多方资料”等模糊表述回应，或回避具体出处，基本可以判定信息存疑。

例如，在咨询某项政策时，可以追问AI大模型“政策出处”“官方报道在哪里”“文件编号或发布日期”等，查看追问答案，筛除不可靠信息。

其次，求证信息时，不能“问AI要答案”，而是“找官方要真相”。

“官方”包括各种政府机构的官方公众号、权威媒体的公众号等，而非信息分发平台、短视频平台上的“自媒体号”。比如，如果关心时事政策，可以查询政府机构或主流媒体的公众号。

核查一些“二手信息”或“旧闻”时，可以使用官方公众号的“搜索功能”。大部分公众号都有“搜索”功能，通常在公众号主页右上角或带有“放大镜”图标，输入信息的关键词，就能从公众号已有信息中匹配对应内容。

可以通过权威机构公众号的“搜索”功能核查信息

其三，交叉核对不同的官方信源，排除单一信息偏差。如果涉及重要决策，建议交叉核对两三个权威信源，确保信息无偏差。比如，想核实“研究生报考某导师的研究方向”，除了查看高校官方公众号、网页发布的导师介绍外，也可以查询教育类官方媒体公众号，核对信息，避免被AI编造的“导师虚假言论”误导。

其四，使用AI大模型检索官方信息发布渠道。在不确定具体官方平台时，可以让AI提供与需求相关的官方渠道清单。

比如，想知道“如何查询个人个税缴纳记录”的答案，可以让AI大模型列出“国家税务总局官网”“当地税务局官方公众号”“个税 APP”等正规渠道，再自行登录查询。如果AI大模型推荐的渠道包含非官方平台，如商业资讯网站、个人运营的“税务咨询号”，要提高警惕，不可轻信。

最后，如果发现某条信息官方暂无报道，那么，比询问AI大模型“有没有”更稳妥的方式是“等待权威发布”。因为在AI大模型的“知识库”或者说数据库中，既有官方信息，也有小道消息，不少信息来自自媒体的“自说自话”甚至“胡编乱造”。当网民有需求时，AI大模型会将这些消息提供给提问者，或者自动捏造不实信息。所以，等待权威报道远好于问AI“要答案”。

总之，可以把AI作为工具检索信息，但不要全盘相信它给出的结果。

原标题：《让AI算24点，它坚持说25-12=24！大模型的回答为什么不能相信？》

题图来源：上观题图

来源：作者：解放日报任翀

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.