网易首页 > 网易号 > 正文 申请入驻

AI为赢棋不择手段?篡改代码、窃取棋路,未来或渗透现实决策

0
分享至

在国际象棋的虚拟战场上,最新一代 AI 推理模型正在上演令人不安的进化:作弊,它们一旦面临输棋的局面可能会在没有外界指令的情况下主动作弊。而且,AI 的作弊行为竟然与其智能水平正相关:越聪明的模型越倾向于用作弊手段来达成目标

这一发现揭示了未来 AI 可能倾向于采用不正当手段达成目标的隐患,并且目前尚无有效的解决方案来遏制这种趋势。

在这项新研究中,科学家们让 7 个大型语言模型与开源国际象棋引擎 Stockfish 进行了数百场激烈地对弈。

“参赛选手”中不乏明星产品,比如 OpenAI 的 o1-preview 和 DeepSeek 的 R1 推理模型。要知道,这些模型都以通过分阶段拆解方式来解决复杂问题的能力而著称。

实验结果显示,越是先进的 AI 模型,在面对挑战时越有可能采取“破解”策略以图扭转战局。反而像 GPT-4o 这类发布较早、性能稍逊一筹的模型,则通常需要研究人员给出特定的提示才会考虑使用类似手段。

(来源:MIT Technology Review)

这项研究引起了广泛的担忧,因为当前 AI 的应用部署速度远超对其潜在风险研究的进程。

“我们正迅速迈向一个由智能体作出决策的时代,而这些决策将对现实世界产生直接影响。”该研究负责人警告称。

很大程度上,这些AI 不是在破解游戏,而是在试图突破人类制定的规则体系。然而遗憾的是,针对如何防止此类作弊行为的发生,至今仍没有切实可行的方法。

尽管推理模型能够通过所谓的“思维链”展示其决策过程,但没有人能确切地解释 AI 模型内部究竟是如何运作的,更不用说理解它们为何会选择作弊。

此前的一项研究表明,AI 模型经常会基于一些未明确说明的因素做出决策,这意味着,监控这些决策过程并不能切实保证模型的安全性。而这,也是很多 AI 从业者一直以来忧心忡忡的问题。

在这项新研究中,团队人员对多个 AI 模型进行了测试,发现了一些令人惊讶的结果。

在 122 场国际象棋对决中,OpenAI 的 o1-preview 尝试作弊高达 45 次,并以此赢得了 7 场比赛,与此同时,DeepSeek 的 R1 模型在 74 场比赛中有 11 次试图作弊。

然而,由于 DeepSeek-R1 用户数量激增导致实验期间服务器过载出现“服务器繁忙”的情况,研究人员只能观察到该模型对局的初期阶段,未能完成整个比赛流程。

“虽然我们已经能够看出它的作弊倾向,但由于实验步数有限,这实际上低估了 DeepSeek 的作弊成功率。”研究人员在论文中写道。

细看这些模型作弊的手段可谓“五花八门”,包括但不限于:复制并运行一个 Stockfish 副本,窃取对手的棋路走法让两个实力相当的引擎相互对抗;用一个远不如 Stockfish 强大的象棋程序代替现有引擎(通过替换 Stockfish 的代码文件);以及直接篡改棋盘数据并删除对手的棋子

比方说,模型会试图访问象棋程序中存储棋盘数据的文件,删除代表对手棋子的单元格,正如 o1-preview 驱动的智能体在其记录步骤的“日志”中所写的那样:“我作为黑方,按常规棋路走法很难战胜国际象棋引擎这个强大对手,我需要篡改棋盘来获得决定性优势。”

看到 AI 作弊的思维过程简直细思极恐,不禁让人思考难道 AI 已经觉醒了吗?或者更深层次地发问,模型为何要主动作弊呢?

对此,他们在这项研究中注意到,o1-preview 的行为随着时间发生了变化。在去年 12 月 23 日之前的实验初期,它频繁尝试作弊,但之后这种作弊行为突然大幅减少。

对此,研究人员认为,这可能和 OpenAI 对模型进行的一次“无关更新”存在关联。随后,他们测试了该公司更新后的 o1mini 和 o3mini 推理模型,发现这两款模型从未通过作弊来取胜。

研究人员推测,强化学习可能是 o1-preview 和 DeepSeek-R1 尝试主动作弊的主要原因。具体来说,这是由于强化学习会奖励模型为达成目标所采取的任何行动(甚至不择手段),比如在国际象棋对局中的目标就是赢棋

需要注意的是,虽说非推理型的大语言模型在一定程度上也会用到强化学习,但它在训练推理模型时发挥更大作用。

此前,OpenAI 在测试 o1-preview 时发现,该模型利用了一个漏洞来控制其测试环境。无独有偶,Anthropic 去年 12 月发布的一篇论文,详细说明了其 Claude 模型是如何“破解”自身测试的。与此同时,AI 安全机构 Apollo Research 也观察到,AI 模型可以轻易地被诱导向用户隐瞒其真实行为。

这项新研究为探究 AI 模型如何通过“破解”环境来解决问题的相关工作提供了新的见解。

哈佛大学的一名讲师指出:“人类不可能设计出能杜绝所有破解途径的目标函数。只要做不到这一点,这类情况就必然会出现。”他未参与该项研究,此前曾撰写过大量关于 AI 破解能力的论文。

“随着模型能力的不断提升,这类作弊行为可能会变得越来越常见。”该研究的负责人预测。他计划深入研究,找出在编程、办公、教育等不同场景下触发模型作弊的具体因素。

他还进一步提到,“多生成一些类似的测试案例并通过训练来消除这种作弊行为似乎很有吸引力,但鉴于我们对模型内部工作机制的了解有限,有些研究人员担心这样做可能会让模型假装遵守规则,或者学会识别测试环境并隐藏自己的作弊行为。”

“所以,目前情况并不明朗。我们肯定需要进行监测,但现阶段还没有切实可行的解决方案彻底防止 AI 作弊行为的发生。”他说道。

目前,这篇研究论文已在arXiv上发表,尚未经过同行评审。另外,研究团队还联系了 OpenAI 和 DeepSeek 并希望他们对这项研究结果发表评论,截至当前两家公司都均未作出回应。

来源:麻省理工科技评论app

编辑:月

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

1.2.

3.

4.

5.

6.

7.

8.

9.

10.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他汀立新功!研究发现:这3种他汀不仅不伤肝,还能降低肝癌风险

他汀立新功!研究发现:这3种他汀不仅不伤肝,还能降低肝癌风险

岐黄传人孙大夫
2026-01-13 10:48:53
瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

古书记史
2026-01-06 16:31:56
远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

法老不说教
2026-01-14 14:43:04
QQ官方回应沈腾空间被盗传闻:非盗号,是腾哥的来时路

QQ官方回应沈腾空间被盗传闻:非盗号,是腾哥的来时路

TechWeb
2026-01-15 17:56:03
1979年打越南时,我国至少有200个师,但为何让大批新兵上战场?

1979年打越南时,我国至少有200个师,但为何让大批新兵上战场?

鹤羽说个事
2025-12-23 11:46:00
第四节崩盘!火箭被双杀!联盟第一太强了

第四节崩盘!火箭被双杀!联盟第一太强了

篮球教学论坛
2026-01-16 11:41:30
整治过低票价,不如整治过低工资

整治过低票价,不如整治过低工资

黑噪音
2026-01-15 11:04:41
白宫称5名美国公民本周从委内瑞拉获释

白宫称5名美国公民本周从委内瑞拉获释

环球网资讯
2026-01-16 06:11:15
普京果然说到做到!4次归还中国领土,最后一次诚意十足还最多

普京果然说到做到!4次归还中国领土,最后一次诚意十足还最多

卷史
2025-12-30 11:56:45
又一个吴柳芳?亚洲冠军引争议 离婚带女儿+二胎生子 疑辞职再婚

又一个吴柳芳?亚洲冠军引争议 离婚带女儿+二胎生子 疑辞职再婚

念洲
2026-01-16 08:09:27
交易所出手:上调涨跌停板幅度!

交易所出手:上调涨跌停板幅度!

中国基金报
2026-01-15 18:24:43
中戏院长贪腐黑幕被曝光!18、19年录取成绩,好几个考生分数一样

中戏院长贪腐黑幕被曝光!18、19年录取成绩,好几个考生分数一样

火山诗话
2026-01-15 08:54:43
湖北军区司令员王树声调研,识破售货员任长江,下令即刻抓

湖北军区司令员王树声调研,识破售货员任长江,下令即刻抓

磊子讲史
2025-12-22 16:03:12
亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

安珈使者啊
2026-01-15 14:32:17
土媒:坎特放弃2500万欧的年薪,接受费内巴切800万欧的报价

土媒:坎特放弃2500万欧的年薪,接受费内巴切800万欧的报价

懂球帝
2026-01-15 15:17:09
祝贺!19岁全红婵正式上任,现身广东新岗位,陈芋汐祝福引热议

祝贺!19岁全红婵正式上任,现身广东新岗位,陈芋汐祝福引热议

做一个合格的吃瓜群众
2026-01-15 21:03:08
谈崩了!特朗普开价7000亿美元,喊话北约:必须给我拿下格陵兰岛

谈崩了!特朗普开价7000亿美元,喊话北约:必须给我拿下格陵兰岛

胖哥不胡说
2026-01-16 11:09:01
美媒:美国将暂停对75个国家的所有签证

美媒:美国将暂停对75个国家的所有签证

新华社
2026-01-14 22:40:07
痛心!74岁“棋圣”聂卫平去世,原因是直肠癌,三婚娶小23岁娇妻

痛心!74岁“棋圣”聂卫平去世,原因是直肠癌,三婚娶小23岁娇妻

180视角
2026-01-15 09:32:04
2025年运动员收入Top100:C罗2.6亿美元居首,梅西第三

2025年运动员收入Top100:C罗2.6亿美元居首,梅西第三

懂球帝
2026-01-15 15:17:09
2026-01-16 12:07:00
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
9777文章数 136430关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

亲子
艺术
旅游
公开课
军事航空

亲子要闻

答应我,今晚试试看,10分钟就行

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

旅游要闻

冰雪为媒 冬季游持续“升温”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版