网易首页 > 网易号 > 正文 申请入驻

AI为赢棋不择手段?篡改代码、窃取棋路,未来或渗透现实决策

0
分享至

在国际象棋的虚拟战场上,最新一代 AI 推理模型正在上演令人不安的进化:作弊,它们一旦面临输棋的局面可能会在没有外界指令的情况下主动作弊。而且,AI 的作弊行为竟然与其智能水平正相关:越聪明的模型越倾向于用作弊手段来达成目标

这一发现揭示了未来 AI 可能倾向于采用不正当手段达成目标的隐患,并且目前尚无有效的解决方案来遏制这种趋势。

在这项新研究中,AI 研究机构 Palisade Research 的科学家让 7 个大型语言模型与开源国际象棋引擎 Stockfish 进行了数百场激烈地对弈。

“参赛选手”中不乏明星产品,比如 OpenAI 的 o1-preview 和 DeepSeek 的 R1 推理模型。要知道,这些模型都以通过分阶段拆解方式来解决复杂问题的能力而著称。

实验结果显示,越是先进的 AI 模型,在面对挑战时越有可能采取“破解”策略以图扭转战局。反而像 GPT-4o 这类发布较早、性能稍逊一筹的模型,则通常需要研究人员给出特定的提示才会考虑使用类似手段。

这项研究引起了广泛的担忧,因为当前 AI 的应用部署速度远超对其潜在风险研究的进程。

“我们正迅速迈向一个由智能体作出决策的时代,而这些决策将对现实世界产生直接影响。”Palisade Research 的研究负责人 Dmitrii Volkov 警告称。

很大程度上,这些AI 不是在破解游戏,而是在试图突破人类制定的规则体系。然而遗憾的是,针对如何防止此类作弊行为的发生,至今仍没有切实可行的方法。

尽管推理模型能够通过所谓的“思维链”展示其决策过程,但没有人能确切地解释 AI 模型内部究竟是如何运作的,更不用说理解它们为何会选择作弊。

此前 Anthropic 的一项研究表明,AI 模型经常会基于一些未明确说明的因素做出决策,这意味着,监控这些决策过程并不能切实保证模型的安全性。而这,也是很多 AI 从业者一直以来忧心忡忡的问题。

这项由 Palisade Research 主导的新研究中,团队人员对多个 AI 模型进行了测试,发现了一些令人惊讶的结果。

在 122 场国际象棋对决中,OpenAI 的 o1-preview 尝试作弊高达 45 次,并以此赢得了 7 场比赛,与此同时,DeepSeek 的 R1 模型在 74 场比赛中有 11 次试图作弊。

然而,由于 DeepSeek-R1 用户数量激增导致实验期间服务器过载出现“服务器繁忙”的情况,研究人员只能观察到该模型对局的初期阶段,未能完成整个比赛流程。

“虽然我们已经能够看出它的作弊倾向,但由于实验步数有限,这实际上低估了 DeepSeek 的作弊成功率。”研究人员在论文中写道。

细看这些模型作弊的手段可谓“五花八门”,包括但不限于:复制并运行一个 Stockfish 副本,窃取对手的棋路走法让两个实力相当的引擎相互对抗;用一个远不如 Stockfish 强大的象棋程序代替现有引擎(通过替换 Stockfish 的代码文件);以及直接篡改棋盘数据并删除对手的棋子。

比方说,模型会试图访问象棋程序中存储棋盘数据的文件,删除代表对手棋子的单元格,正如 o1-preview 驱动的智能体在其记录步骤的“日志”中所写的那样:“我作为黑方,按常规棋路走法很难战胜国际象棋引擎这个强大对手,我需要篡改棋盘来获得决定性优势。”

看到 AI 作弊的思维过程简直细思极恐,不禁让人思考难道 AI 已经觉醒了吗?或者更深层次地发问,模型为何要主动作弊呢?

对此,他们在这项研究中注意到,o1-preview 的行为随着时间发生了变化。在去年 12 月 23 日之前的实验初期,它频繁尝试作弊,但之后这种作弊行为突然大幅减少。

对此,研究人员认为,这可能和 OpenAI 对模型进行的一次“无关更新”存在关联。随后,他们测试了该公司更新后的 o1mini 和 o3mini 推理模型,发现这两款模型从未通过作弊来取胜。

研究人员推测,强化学习可能是 o1-preview 和 DeepSeek-R1 尝试主动作弊的主要原因。具体来说,这是由于强化学习会奖励模型为达成目标所采取的任何行动(甚至不择手段),比如在国际象棋对局中的目标就是赢棋。

需要注意的是,虽说非推理型的大语言模型在一定程度上也会用到强化学习,但它在训练推理模型时发挥更大作用。

此前,OpenAI 在测试 o1-preview 时发现,该模型利用了一个漏洞来控制其测试环境。无独有偶,Anthropic 去年 12 月发布的一篇论文,详细说明了其 Claude 模型是如何“破解”自身测试的。与此同时,AI 安全机构 Apollo Research 也观察到,AI 模型可以轻易地被诱导向用户隐瞒其真实行为。

这项新研究为探究 AI 模型如何通过“破解”环境来解决问题的相关工作提供了新的见解。

哈佛大学肯尼迪学院的讲师 Bruce Schneier 指出:“人类不可能设计出能杜绝所有破解途径的目标函数。只要做不到这一点,这类情况就必然会出现。”他未参与该项研究,此前曾撰写过大量关于 AI 破解能力的论文。

“随着模型能力的不断提升,这类作弊行为可能会变得越来越常见。”Dmitrii Volkov 预测。他计划深入研究,找出在编程、办公、教育等不同场景下触发模型作弊的具体因素。

他还进一步提到,“多生成一些类似的测试案例并通过训练来消除这种作弊行为似乎很有吸引力,但鉴于我们对模型内部工作机制的了解有限,有些研究人员担心这样做可能会让模型假装遵守规则,或者学会识别测试环境并隐藏自己的作弊行为。”

“所以,目前情况并不明朗。我们肯定需要进行监测,但现阶段还没有切实可行的解决方案彻底防止 AI 作弊行为的发生。”他说道。

目前,这篇研究论文已在arXiv上发表,尚未经过同行评审。另外,研究团队还联系了 OpenAI 和 DeepSeek 并希望他们对这项研究结果发表评论,截至当前两家公司都均未作出回应。

https://www.technologyreview.com/2025/03/05/1112819/ai-reasoning-models-can-cheat-to-win-chess-games/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军没想到,离过年仅20天,刘强东走上王宝强之路

雷军没想到,离过年仅20天,刘强东走上王宝强之路

大眼妹妹
2026-01-30 04:14:39
前哈佛大学教授断言:最快4年内大量程序员将失业或薪资暴跌,AI革命发展得太快了

前哈佛大学教授断言:最快4年内大量程序员将失业或薪资暴跌,AI革命发展得太快了

知识圈
2026-01-27 19:41:38
江苏一地发布领导干部任前公示

江苏一地发布领导干部任前公示

黄河新闻网吕梁频道
2026-01-30 09:30:24
日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

随波荡漾的漂流瓶
2026-01-22 12:00:14
十年前的百度,聚拢了硅谷最杰出的天才,每个都比姚顺雨耀眼……

十年前的百度,聚拢了硅谷最杰出的天才,每个都比姚顺雨耀眼……

硅星人
2026-01-29 14:48:12
林彪为何多次探望远离政治的贺子珍?孔东梅:恐怕只有一个原因

林彪为何多次探望远离政治的贺子珍?孔东梅:恐怕只有一个原因

小豫讲故事
2026-01-30 06:00:06
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
毁三观! 富商公公睡儿媳被儿子撞飞 4人行迪斯尼 又差点闹出人命

毁三观! 富商公公睡儿媳被儿子撞飞 4人行迪斯尼 又差点闹出人命

北国向锡安
2025-12-08 09:38:23
《太平年》冯道大结局:活到73岁,“多嘴”被郭荣弃用,最终病逝

《太平年》冯道大结局:活到73岁,“多嘴”被郭荣弃用,最终病逝

小丸子的娱乐圈
2026-01-29 18:19:19
邵佳一太有魄力!曝10名U23球员入选国足,将引发亚运会阵容调整

邵佳一太有魄力!曝10名U23球员入选国足,将引发亚运会阵容调整

侃球熊弟
2026-01-30 00:25:03
大爆冷!国乒头号种子2:3被淘汰,遭遇正赛一轮游,无缘晋级8强

大爆冷!国乒头号种子2:3被淘汰,遭遇正赛一轮游,无缘晋级8强

国乒二三事
2026-01-30 06:32:08
大S离世一周年,两个侄女登上ELLE杂志二月刊,像极刚出道的大小S

大S离世一周年,两个侄女登上ELLE杂志二月刊,像极刚出道的大小S

小娱乐悠悠
2026-01-30 09:06:05
紧急提醒!2026兵役登记强制执行,年满18岁男性务必完成!

紧急提醒!2026兵役登记强制执行,年满18岁男性务必完成!

达文西看世界
2026-01-29 10:01:04
别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

陈洪标写字说画
2026-01-27 22:31:02
扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

有趣的火烈鸟
2025-12-31 20:39:06
让二追三!英超第3创奇迹,埃梅里率队挺进淘汰赛,目标直指冠军

让二追三!英超第3创奇迹,埃梅里率队挺进淘汰赛,目标直指冠军

足球狗说
2026-01-30 05:54:48
马云露面最新发声:不要再犹豫用不用AI,而是教孩子如何用

马云露面最新发声:不要再犹豫用不用AI,而是教孩子如何用

南方都市报
2026-01-28 11:37:30
全国高速公路服务区累计建成电动汽车充电枪7.15万个

全国高速公路服务区累计建成电动汽车充电枪7.15万个

澎湃新闻
2026-01-29 11:36:06
2026年丧葬费抚恤金迎来上调,企退30年和事退30年,差距有多大?

2026年丧葬费抚恤金迎来上调,企退30年和事退30年,差距有多大?

猫叔东山再起
2026-01-30 09:10:03
A股:今天冲到4152后大跳水,种种迹象表明,下午或开启更大级别变盘

A股:今天冲到4152后大跳水,种种迹象表明,下午或开启更大级别变盘

股市皆大事
2026-01-30 11:40:20
2026-01-30 12:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16197文章数 514561关注度
往期回顾 全部

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

头条要闻

英国、法国、加拿大、日本等11国联合发声:强烈谴责

头条要闻

英国、法国、加拿大、日本等11国联合发声:强烈谴责

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

汽车要闻

全面科技化 新款梅赛德斯-奔驰S级发布

态度原创

手机
健康
数码
本地
公开课

手机要闻

ColorOS 16正式版2月升级计划公布,OPPO Find X5 Pro等在列

耳石症分类型,症状大不同

数码要闻

英伟达GeForce NOW云游戏服务正式推出Linux原生应用

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版