网易首页 > 网易号 > 正文 申请入驻

研究显示:AI 解 6x6 数独都费劲,解释决策时还答非所问

0
分享至

IT之家 8 月 7 日消息,科罗拉多大学博尔德分校的研究人员在《计算语言学协会研究发现》上发表了一篇论文,揭示了大型语言模型(LLM)在解决数独问题时的局限性,尤其是其在解释决策过程中的不足。

研究人员发现,即使是相对简单的 6×6 数独,大多数大型语言模型在没有外部辅助工具的情况下也难以解决。这一现象反映出 LLM 在逻辑推理方面的短板。数独的本质并非数学运算,而是一种符号逻辑游戏,需要从整体出发,找到符合逻辑的解题顺序,而 LLM 往往会按照训练数据中类似情况的模式,逐个填充空缺,这种逐个推理的方式难以应对数独的复杂逻辑。

而且,当研究人员要求这些模型展示解题过程时,结果令人失望。大多数情况下,模型无法准确、透明地解释其决策过程。有时它们会给出看似合理的解释,但这些解释并不符合实际的解题步骤;有时甚至会给出与问题完全无关的回答,例如在一次测试中,OpenAI 的 o4 推理模型在被问及数独问题时,突然开始谈论丹佛的天气预报。

科罗拉多大学计算机科学教授阿舒托什・特里维迪(Ashutosh Trivedi)指出,如果生成式 AI 工具不能准确、透明地解释其决策过程,那么随着我们越来越多地将生活和决策权交给这些工具,就必须保持谨慎。他强调:“我们希望这些解释能够透明地反映 AI 做出决策的原因,而不是 AI 为了迎合人类而提供人类可能喜欢的解释。”

IT之家注意到,这种解释能力的缺失并非仅在数独问题上体现。研究人员还发现,LLM 在其他逻辑游戏(如国际象棋和汉诺塔问题)中也存在类似问题。以国际象棋为例,LLM 虽然能够找到合理的下一步棋,但往往无法像人类高手那样提前规划多步棋局,甚至有时会违反规则移动棋子,导致局面陷入混乱。

此外,研究人员还指出,解释能力对于 AI 的应用至关重要。随着 AI 在驾驶、税务处理、商业决策和重要文件翻译等领域的应用逐渐增加,其解释能力将成为衡量其可靠性的关键因素。特里维迪教授警告说:“如果 AI 的解释是为了错误的原因而进行的,那么这种解释就非常接近于操纵。我们必须非常谨慎地对待这些解释的透明度。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家有难时,请交出你的黄金和美元

国家有难时,请交出你的黄金和美元

霹雳炮
2026-02-22 13:25:28
从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

旧书卷里的长安
2026-02-22 00:08:58
马年春节里,为什么没什么人争论,该买油车还是买电车了

马年春节里,为什么没什么人争论,该买油车还是买电车了

路咖汽车
2026-02-20 10:36:41
俄媒称美俄达成了超级交易,俄罗斯配合反华,换取美国出卖乌克兰

俄媒称美俄达成了超级交易,俄罗斯配合反华,换取美国出卖乌克兰

贾文彬的史书
2026-02-22 11:55:52
《镖人》海外口碑爆了,评分接近满分,全球票房将破纪录

《镖人》海外口碑爆了,评分接近满分,全球票房将破纪录

影视高原说
2026-02-22 09:52:32
五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

博士观察
2026-02-22 16:44:15
火箭遭尼克斯18分逆转:杜兰特30+6丢压哨绝杀 布伦森20+6反超球

火箭遭尼克斯18分逆转:杜兰特30+6丢压哨绝杀 布伦森20+6反超球

醉卧浮生
2026-02-22 12:11:50
女人默许你“得手”从不主动靠近:这三种默许,已是最明确的信号

女人默许你“得手”从不主动靠近:这三种默许,已是最明确的信号

青苹果sht
2026-02-22 06:58:10
破5.71亿,谢霆锋接住了吴京的戏,越剧小花一出场令全场惊艳

破5.71亿,谢霆锋接住了吴京的戏,越剧小花一出场令全场惊艳

电影烂番茄
2026-02-22 00:46:46
王濛社媒:谷爱凌实至名归!轻盈舒展,优雅大方

王濛社媒:谷爱凌实至名归!轻盈舒展,优雅大方

懂球帝
2026-02-22 19:59:04
警方通报五台山景区火情:系村民祭祀引发

警方通报五台山景区火情:系村民祭祀引发

界面新闻
2026-02-22 17:18:53
特朗普:关税从10%升至15%!但不针对中国

特朗普:关税从10%升至15%!但不针对中国

魏家东
2026-02-22 08:29:23
中国游客称自己与“贝加尔湖8死事故”擦肩而过:事发前一小时踩过那条致命冰缝,有些地方能直接看到湖水

中国游客称自己与“贝加尔湖8死事故”擦肩而过:事发前一小时踩过那条致命冰缝,有些地方能直接看到湖水

极目新闻
2026-02-22 20:45:45
5金收官,谷爱凌、李方慧包揽U型池前2名,奖牌榜排名猝不及防

5金收官,谷爱凌、李方慧包揽U型池前2名,奖牌榜排名猝不及防

真理是我亲戚
2026-02-22 19:07:44
伊朗要死!

伊朗要死!

求实处
2026-02-22 17:53:28
42岁小尼新疆家宴曝光!8道菜不见一片绿叶菜太真实!

42岁小尼新疆家宴曝光!8道菜不见一片绿叶菜太真实!

东方不败然多多
2026-02-22 15:32:45
造福76亿人!中国突破赤泥炼铁技术,将令全世界产生巨大的变革

造福76亿人!中国突破赤泥炼铁技术,将令全世界产生巨大的变革

青烟小先生
2026-02-16 11:28:34
张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

秀语千寻
2026-02-22 19:28:42
不再希望理解?谷爱凌夺金后疏忽了地上的红旗,但没忘记披上国旗

不再希望理解?谷爱凌夺金后疏忽了地上的红旗,但没忘记披上国旗

真理是我亲戚
2026-02-22 19:51:59
重大错误,印制错误的韩国国旗被升起4次,国际奥委会已致歉

重大错误,印制错误的韩国国旗被升起4次,国际奥委会已致歉

懂球帝
2026-02-22 17:22:25
2026-02-22 21:48:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
330517文章数 607012关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

中国游客与贝加尔湖8死事故擦肩而过:曾踩过出事冰缝

头条要闻

中国游客与贝加尔湖8死事故擦肩而过:曾踩过出事冰缝

体育要闻

自由式滑雪U型池 谷爱凌成功卫冕

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

旅游
本地
房产
公开课
军事航空

旅游要闻

全国好物齐聚京城邀市民游客感受热闹年味

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

约旦基地美军战机骤增 包括F-35隐形战斗机

无障碍浏览 进入关怀版