网易首页 > 网易号 > 正文 申请入驻

研究显示:AI 解 6x6 数独都费劲,解释决策时还答非所问

0
分享至

IT之家 8 月 7 日消息,科罗拉多大学博尔德分校的研究人员在《计算语言学协会研究发现》上发表了一篇论文,揭示了大型语言模型(LLM)在解决数独问题时的局限性,尤其是其在解释决策过程中的不足。


研究人员发现,即使是相对简单的 6×6 数独,大多数大型语言模型在没有外部辅助工具的情况下也难以解决。这一现象反映出 LLM 在逻辑推理方面的短板。数独的本质并非数学运算,而是一种符号逻辑游戏,需要从整体出发,找到符合逻辑的解题顺序,而 LLM 往往会按照训练数据中类似情况的模式,逐个填充空缺,这种逐个推理的方式难以应对数独的复杂逻辑。

而且,当研究人员要求这些模型展示解题过程时,结果令人失望。大多数情况下,模型无法准确、透明地解释其决策过程。有时它们会给出看似合理的解释,但这些解释并不符合实际的解题步骤;有时甚至会给出与问题完全无关的回答,例如在一次测试中,OpenAI 的 o4 推理模型在被问及数独问题时,突然开始谈论丹佛的天气预报。

科罗拉多大学计算机科学教授阿舒托什・特里维迪(Ashutosh Trivedi)指出,如果生成式 AI 工具不能准确、透明地解释其决策过程,那么随着我们越来越多地将生活和决策权交给这些工具,就必须保持谨慎。他强调:“我们希望这些解释能够透明地反映 AI 做出决策的原因,而不是 AI 为了迎合人类而提供人类可能喜欢的解释。”

IT之家注意到,这种解释能力的缺失并非仅在数独问题上体现。研究人员还发现,LLM 在其他逻辑游戏(如国际象棋和汉诺塔问题)中也存在类似问题。以国际象棋为例,LLM 虽然能够找到合理的下一步棋,但往往无法像人类高手那样提前规划多步棋局,甚至有时会违反规则移动棋子,导致局面陷入混乱。

此外,研究人员还指出,解释能力对于 AI 的应用至关重要。随着 AI 在驾驶、税务处理、商业决策和重要文件翻译等领域的应用逐渐增加,其解释能力将成为衡量其可靠性的关键因素。特里维迪教授警告说:“如果 AI 的解释是为了错误的原因而进行的,那么这种解释就非常接近于操纵。我们必须非常谨慎地对待这些解释的透明度。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新晋女神,有颜又有料

新晋女神,有颜又有料

素然追光
2026-01-06 01:22:02
谁能拯救曼联?基恩力挺一人,他能力挽狂澜

谁能拯救曼联?基恩力挺一人,他能力挽狂澜

澜归序
2026-01-06 01:33:50
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
泰山主帅宿茂臻引十虎加盟,球迷:购得一套首发阵容

泰山主帅宿茂臻引十虎加盟,球迷:购得一套首发阵容

格斗社
2026-01-05 17:29:11
湘西首富曾成杰:集资亏8个亿被秘密枪毙,自称钱全给政府使用

湘西首富曾成杰:集资亏8个亿被秘密枪毙,自称钱全给政府使用

老黄有话
2024-01-08 10:05:03
川普绑掳走马杜罗,高市进退两难,郑丽文只用几句话就重创赖清德

川普绑掳走马杜罗,高市进退两难,郑丽文只用几句话就重创赖清德

不似少年游
2026-01-06 07:10:19
TCL李东生与三星李在镕握手!

TCL李东生与三星李在镕握手!

WitDisplay
2026-01-05 22:27:52
美国绝密档案曝光!毛泽东哪是在治国?他是在重塑一个文明!

美国绝密档案曝光!毛泽东哪是在治国?他是在重塑一个文明!

鹤羽说个事
2026-01-03 11:08:12
傅作义原本拟授上将,毛主席没点头,最终周总理亲自找傅说明原因

傅作义原本拟授上将,毛主席没点头,最终周总理亲自找傅说明原因

历史龙元阁
2026-01-05 08:55:07
再度携手博塔斯!周冠宇加盟凯迪拉克车队,担任储备车手

再度携手博塔斯!周冠宇加盟凯迪拉克车队,担任储备车手

全景体育V
2026-01-05 18:15:12
1989年,拍妲己纣王洗澡戏时,56岁的达奇提议加一场吻戏,傅艺伟直接拒绝:“为什么要加吻戏,他那么老”

1989年,拍妲己纣王洗澡戏时,56岁的达奇提议加一场吻戏,傅艺伟直接拒绝:“为什么要加吻戏,他那么老”

黎兜兜
2026-01-04 21:33:00
不知道大家有没有这种感觉,
孙颖莎其实才是国乒里最狠的那个人

不知道大家有没有这种感觉, 孙颖莎其实才是国乒里最狠的那个人

小光侃娱乐
2025-12-28 10:00:08
让人倒吸一口凉气:乌军3个旅反攻俄军2个军:24小时竟打进市中心

让人倒吸一口凉气:乌军3个旅反攻俄军2个军:24小时竟打进市中心

瞳哥视界
2025-12-24 21:36:08
风向变了!美、德、法、韩、英、加等国媒体把目光转向中国武汉。

风向变了!美、德、法、韩、英、加等国媒体把目光转向中国武汉。

南权先生
2025-12-16 16:23:31
悲催!河南妻子转弟弟30万后续!丈夫称其带娃回娘家,将上门讨债

悲催!河南妻子转弟弟30万后续!丈夫称其带娃回娘家,将上门讨债

可爱的罗
2026-01-05 16:15:56
北京儿童医院推国际部,18张床位、挂号千元,新世纪影响几何?

北京儿童医院推国际部,18张床位、挂号千元,新世纪影响几何?

北京商报
2026-01-05 16:52:09
美企拒绝接管委内瑞拉石油?特朗普喊话去接盘,巨头们为何沉默了

美企拒绝接管委内瑞拉石油?特朗普喊话去接盘,巨头们为何沉默了

说故事的阿袭
2026-01-06 04:00:14
前夫前脚入狱,后脚就嫁给周立波的女富豪胡洁,如今怎么样?

前夫前脚入狱,后脚就嫁给周立波的女富豪胡洁,如今怎么样?

雅儿姐游世界
2025-11-20 05:26:35
超40家A股公司2025年业绩“预喜” 四大行业释放经营暖意

超40家A股公司2025年业绩“预喜” 四大行业释放经营暖意

财联社
2026-01-06 06:28:04
小米徐洁云致歉:终止与相关KOL可能的合作,且以后也不会合作

小米徐洁云致歉:终止与相关KOL可能的合作,且以后也不会合作

IT之家
2026-01-05 21:58:07
2026-01-06 08:32:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
323020文章数 606862关注度
往期回顾 全部

科技要闻

性能涨5倍!黄仁勋CES秀肌肉 下代芯片来了

头条要闻

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

头条要闻

马杜罗在美首次出庭表示不认罪:我仍是委内瑞拉总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

本地
亲子
房产
手机
公开课

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

亲子要闻

五岁小女孩发现家里有小偷,她竟然这么做,太机智了

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

手机要闻

2699元起!10080mAh+240万跑分,荣耀Power2把性价比卷成天花板了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版