网易首页 > 网易号 > 正文 申请入驻

AI为赢棋不择手段?篡改代码、窃取棋路,未来或渗透现实决策

0
分享至

在国际象棋的虚拟战场上,最新一代 AI 推理模型正在上演令人不安的进化:作弊,它们一旦面临输棋的局面可能会在没有外界指令的情况下主动作弊。而且,AI 的作弊行为竟然与其智能水平正相关:越聪明的模型越倾向于用作弊手段来达成目标

这一发现揭示了未来 AI 可能倾向于采用不正当手段达成目标的隐患,并且目前尚无有效的解决方案来遏制这种趋势。

在这项新研究中,科学家们让 7 个大型语言模型与开源国际象棋引擎 Stockfish 进行了数百场激烈地对弈。

“参赛选手”中不乏明星产品,比如 OpenAI 的 o1-preview 和 DeepSeek 的 R1 推理模型。要知道,这些模型都以通过分阶段拆解方式来解决复杂问题的能力而著称。

实验结果显示,越是先进的 AI 模型,在面对挑战时越有可能采取“破解”策略以图扭转战局。反而像 GPT-4o 这类发布较早、性能稍逊一筹的模型,则通常需要研究人员给出特定的提示才会考虑使用类似手段。

(来源:MIT Technology Review)

这项研究引起了广泛的担忧,因为当前 AI 的应用部署速度远超对其潜在风险研究的进程。

“我们正迅速迈向一个由智能体作出决策的时代,而这些决策将对现实世界产生直接影响。”该研究负责人警告称。

很大程度上,这些AI 不是在破解游戏,而是在试图突破人类制定的规则体系。然而遗憾的是,针对如何防止此类作弊行为的发生,至今仍没有切实可行的方法。

尽管推理模型能够通过所谓的“思维链”展示其决策过程,但没有人能确切地解释 AI 模型内部究竟是如何运作的,更不用说理解它们为何会选择作弊。

此前的一项研究表明,AI 模型经常会基于一些未明确说明的因素做出决策,这意味着,监控这些决策过程并不能切实保证模型的安全性。而这,也是很多 AI 从业者一直以来忧心忡忡的问题。

在这项新研究中,团队人员对多个 AI 模型进行了测试,发现了一些令人惊讶的结果。

在 122 场国际象棋对决中,OpenAI 的 o1-preview 尝试作弊高达 45 次,并以此赢得了 7 场比赛,与此同时,DeepSeek 的 R1 模型在 74 场比赛中有 11 次试图作弊。

然而,由于 DeepSeek-R1 用户数量激增导致实验期间服务器过载出现“服务器繁忙”的情况,研究人员只能观察到该模型对局的初期阶段,未能完成整个比赛流程。

“虽然我们已经能够看出它的作弊倾向,但由于实验步数有限,这实际上低估了 DeepSeek 的作弊成功率。”研究人员在论文中写道。

细看这些模型作弊的手段可谓“五花八门”,包括但不限于:复制并运行一个 Stockfish 副本,窃取对手的棋路走法让两个实力相当的引擎相互对抗;用一个远不如 Stockfish 强大的象棋程序代替现有引擎(通过替换 Stockfish 的代码文件);以及直接篡改棋盘数据并删除对手的棋子

比方说,模型会试图访问象棋程序中存储棋盘数据的文件,删除代表对手棋子的单元格,正如 o1-preview 驱动的智能体在其记录步骤的“日志”中所写的那样:“我作为黑方,按常规棋路走法很难战胜国际象棋引擎这个强大对手,我需要篡改棋盘来获得决定性优势。”

看到 AI 作弊的思维过程简直细思极恐,不禁让人思考难道 AI 已经觉醒了吗?或者更深层次地发问,模型为何要主动作弊呢?

对此,他们在这项研究中注意到,o1-preview 的行为随着时间发生了变化。在去年 12 月 23 日之前的实验初期,它频繁尝试作弊,但之后这种作弊行为突然大幅减少。

对此,研究人员认为,这可能和 OpenAI 对模型进行的一次“无关更新”存在关联。随后,他们测试了该公司更新后的 o1mini 和 o3mini 推理模型,发现这两款模型从未通过作弊来取胜。

研究人员推测,强化学习可能是 o1-preview 和 DeepSeek-R1 尝试主动作弊的主要原因。具体来说,这是由于强化学习会奖励模型为达成目标所采取的任何行动(甚至不择手段),比如在国际象棋对局中的目标就是赢棋

需要注意的是,虽说非推理型的大语言模型在一定程度上也会用到强化学习,但它在训练推理模型时发挥更大作用。

此前,OpenAI 在测试 o1-preview 时发现,该模型利用了一个漏洞来控制其测试环境。无独有偶,Anthropic 去年 12 月发布的一篇论文,详细说明了其 Claude 模型是如何“破解”自身测试的。与此同时,AI 安全机构 Apollo Research 也观察到,AI 模型可以轻易地被诱导向用户隐瞒其真实行为。

这项新研究为探究 AI 模型如何通过“破解”环境来解决问题的相关工作提供了新的见解。

哈佛大学的一名讲师指出:“人类不可能设计出能杜绝所有破解途径的目标函数。只要做不到这一点,这类情况就必然会出现。”他未参与该项研究,此前曾撰写过大量关于 AI 破解能力的论文。

“随着模型能力的不断提升,这类作弊行为可能会变得越来越常见。”该研究的负责人预测。他计划深入研究,找出在编程、办公、教育等不同场景下触发模型作弊的具体因素。

他还进一步提到,“多生成一些类似的测试案例并通过训练来消除这种作弊行为似乎很有吸引力,但鉴于我们对模型内部工作机制的了解有限,有些研究人员担心这样做可能会让模型假装遵守规则,或者学会识别测试环境并隐藏自己的作弊行为。”

“所以,目前情况并不明朗。我们肯定需要进行监测,但现阶段还没有切实可行的解决方案彻底防止 AI 作弊行为的发生。”他说道。

目前,这篇研究论文已在arXiv上发表,尚未经过同行评审。另外,研究团队还联系了 OpenAI 和 DeepSeek 并希望他们对这项研究结果发表评论,截至当前两家公司都均未作出回应。

来源:麻省理工科技评论app

编辑:月

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

1.2.

3.

4.

5.

6.

7.

8.

9.

10.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
昨晚10点准时封锁!美总统没料到:中东贵客现身北京,中国出招了

昨晚10点准时封锁!美总统没料到:中东贵客现身北京,中国出招了

荷兰豆爱健康
2026-04-14 12:59:27
美国洛马怎么也没想到,没缴中国的990亿罚单,后果竟如此严重了

美国洛马怎么也没想到,没缴中国的990亿罚单,后果竟如此严重了

小冠说娱
2026-04-14 12:26:20
离岸人民币对美元创近三年来新高

离岸人民币对美元创近三年来新高

21世纪经济报道
2026-04-14 09:16:30
罗永浩怒怼:120W竟是充电器商标!这流氓操作怎么通过的?

罗永浩怒怼:120W竟是充电器商标!这流氓操作怎么通过的?

品牌新
2026-04-13 08:52:33
后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

观察鉴娱
2026-04-14 09:41:23
受权发布|中华人民共和国国务院令  第835号

受权发布|中华人民共和国国务院令  第835号

新华社
2026-04-13 17:03:04
世界泳联给国际奥委会做出榜样,再制裁俄罗斯已经不合时宜!

世界泳联给国际奥委会做出榜样,再制裁俄罗斯已经不合时宜!

徐骧老表哥
2026-04-14 10:44:20
准时封锁!美总统没料到:中东贵客现身北京,中国出招了

准时封锁!美总统没料到:中东贵客现身北京,中国出招了

面包夹知识
2026-04-14 13:32:51
高盛:未来3年,上海、深圳房价上涨15%

高盛:未来3年,上海、深圳房价上涨15%

地产观点
2026-04-13 14:00:06
丘吉尔回忆揭秘:若不是1945年那两个蘑菇云,日本将从地球上消失

丘吉尔回忆揭秘:若不是1945年那两个蘑菇云,日本将从地球上消失

饭小妹说历史
2026-04-14 10:25:44
靠结婚化债的小仙女越来越多了!

靠结婚化债的小仙女越来越多了!

黯泉
2026-04-13 08:57:38
男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

诡谲怪谈
2025-04-01 17:37:59
十四届全国政协原常委、经济委员会原副主任毕井泉被提起公诉

十四届全国政协原常委、经济委员会原副主任毕井泉被提起公诉

新京报
2026-04-14 10:05:11
知名国企集团,六个月没发工资了

知名国企集团,六个月没发工资了

新浪财经
2026-04-13 04:16:19
刚刚,马扎尔确认匈牙利不会阻止欧盟向乌克兰发放900亿欧元贷款

刚刚,马扎尔确认匈牙利不会阻止欧盟向乌克兰发放900亿欧元贷款

山河路口
2026-04-13 23:56:05
“看站姿就不像当过兵的!”家长炫耀特种兵儿子,败露后惨遭打脸

“看站姿就不像当过兵的!”家长炫耀特种兵儿子,败露后惨遭打脸

番外行
2026-04-14 12:55:25
抢走王朔,睡遍京圈,定居国外多年的“坏种”徐静蕾,成最终赢家

抢走王朔,睡遍京圈,定居国外多年的“坏种”徐静蕾,成最终赢家

橙星文娱
2026-04-13 11:46:44
与富商海外产子真相大白近1年,江疏影现状曝光,王传君没说错

与富商海外产子真相大白近1年,江疏影现状曝光,王传君没说错

日落于西
2026-04-12 11:06:29
德国站队了!正式向世界宣布:以色列若继续打黎巴嫩,会让他好看

德国站队了!正式向世界宣布:以色列若继续打黎巴嫩,会让他好看

共工之锚
2026-04-14 00:47:22
撕破脸了!巴西前模特警告特朗普:你们两口子什么样我最清楚!

撕破脸了!巴西前模特警告特朗普:你们两口子什么样我最清楚!

爱一449
2026-04-13 21:02:39
2026-04-14 14:24:49
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
10064文章数 136521关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

手机
时尚
健康
本地
公开课

手机要闻

折叠屏 iPhone 外观实锤!书本式 + 7.7 英寸内屏,零折痕 + 钛金属中框

今年科切拉的风吹向了谁?

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版