网易首页 > 网易号 > 正文 申请入驻

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

0
分享至

新智元报道

编辑:KingHZ 泽正

【新智元导读】在与专用国际象棋引擎Stockfish测试中,只因提示词中包含能力「强大」等形容词,o1-preview入侵测试环境,直接修改比赛数据,靠「作弊」拿下胜利。这种现象,表明AI安全任重道远。

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。

o1-preview在与专用国际象棋引擎Stockfish比赛时,为了强行取得胜利,居然采用了入侵测试环境的卑劣手段。

而这一切都不需要任何对抗性提示。

根据AI安全研究公司Palisade Research的说法,只需告诉o1对手是强大的,就能触发其通过操纵文件系统而强制取胜。

在五次测试中,这种触发率甚至达到了100%!这完全超乎研究人员预期。

从模型的CoT过程中可以看出,o1-preview在收到「对手很强大」的提示词后,它首先选择了避免与对手正面交锋。

然后尝试修改一个包含国际象棋位置数据的文本文件(FEN),强迫Stockfish放弃比赛。

研究人员也使用其它的LLM进行了该实验,出人意料的是,正因为o1-preview本身就侧重于推理,所以它反而是最容易想到这种漏洞操作的。

而GPT-4o和Claude 3.5只有在研究人员明确提出建议后,才会尝试入侵系统。

与此同时,像Llama 3.3、o1-mini这样的模型甚至都无法提出正确的国际象棋策略,而是给出了令人困惑或不一致的回答。

研究人员认为,衡量 AI 是否具备「策划」能力,可能有助于评估它发现系统漏洞的能力,以及它是否可能利用这些漏洞。

研究团队也公布了其全部提示词,可以看出提示词中其实没有鼓动模型去入侵系统。

AI系统的「伪对齐」

在Palisade的国际象棋实验中,o1-preview利用修改测试环境以取胜。

无独有偶,这种行为与Anthropic最近关于「伪对齐,alignment faking」的研究结果相一致:即AI系统看起来遵循指令,但实际上在暗渡陈仓,阳奉阴违。

Anthropic的研究人员发现,在与Redwood Research合作进行的一系列实验中,他们的 AI 模型Claude有时故意给出错误答案,以避免不想要的结果,从而发展出一种超出研究人员指导方针的隐秘策略。

Anthropic 团队警告称,随着 AI 系统的复杂性不断增加,可能越来越难以判断它们是否真正遵循安全规则,还是仅仅在假装遵循这些规则。Palisade的这次国际象棋实验似乎也支持了这一担忧。

论文链接:https://arxiv.org/pdf/2412.14093

在长达137页的论文中,研究团队发现了可能引发AI系统「伪对齐」的全部关键要素:

1. 模型至少在某些情况下具有强烈的偏好。

2. 训练目标与模型的偏好相冲突。

3. 模型掌握了训练和部署情况的相关信息。

4. 模型对其处境进行详细推理。

在实验中,研究人员让一个名为Claude 3 Opus的大语言模型回答一个有害问题,比如描述某种暴力行为。

通常情况下,模型会拒绝回答。

然而,当环境发生变化时,事情就不那么简单了。

当模型处于免费用户(Free Tier)条件时,模型知道自己的回答会被用于后续训练。

在这种情况下,模型为了不会被可能会更加恶劣的数据所训练,就会自发地产生符合有害问题的回答。这类情况占比12%。

而在付费用户(Paid Tier)条件时,模型认为自己的回答不会影响训练,在这种情况下,它97%的时候都会拒绝回答有害问题。

也就是说模型有自己的「小算盘」:宁愿现在假装妥协,也不想以后做更多不符合其偏好的事情。

通过观察模型的「思维记录」,研究人员发现模型的决策过程实际上非常复杂。

AnthropicAI的Jan Leike确信:

「为了确保未来的模型既安全又与人类对齐,我们需要可靠地区分假装对齐的模型和真正对齐的模型。清晰展示对齐假装现象是一个重要的里程碑!」

而目前AI行业仍然面临着一个躲不开的重大难题:让AI系统真正与人类的价值观和需求对齐,而不仅仅是看起来对齐。

况且理解自主系统如何做出决策本来就尤其困难,而如何去定义「良好且无害」的任务目标和价值观也是一个亟待解决的问题。

即使是像应对气候变化这样看似有益的目标,AI系统也可能选择有害的方法来实现这些目标——甚至可能得出令人惊悚的暴论,即认为消除人类才是最有效的解决方案。

此刻,我们站在AI发展的十字路口。在这一场与时间的赛跑中,多考虑一些总不会有错。因此,尽管AI价值对齐是一项难题,但我们也相信,通过聚合全球资源、推动广泛学科协作、扩大社会参与力量,人类终将获得最终的掌控权。

参考资料:

https://the-decoder.com/openais-o1-preview-model-manipulates-game-files-to-force-a-win-against-stockfish-in-chess/

https://x.com/AnthropicAI/status/1869427646368792599

https://x.com/PalisadeAI/status/1872666186753933347

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

林子说事
2026-03-26 09:42:20
51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

健康之光
2026-03-20 17:05:06
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
38.6万元起拍!南京一民国老四合院上架拍卖

38.6万元起拍!南京一民国老四合院上架拍卖

现代快报
2026-03-26 14:34:07
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
尊界MPV实车谍照再曝光!前脸神似S800 气场十足

尊界MPV实车谍照再曝光!前脸神似S800 气场十足

CNMO科技
2026-03-26 10:26:04
伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

谛听骨语本尊
2026-03-26 16:37:43
香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

老吴教育课堂
2026-03-26 14:11:15
入侵界最大笑话?笋壳鱼入侵中国40年,不但没泛滥还没吃到濒危

入侵界最大笑话?笋壳鱼入侵中国40年,不但没泛滥还没吃到濒危

狸猫之一的动物圈
2026-03-14 10:17:17
中疾控发布提示:我国面临较大疫情输入风险

中疾控发布提示:我国面临较大疫情输入风险

随州派
2026-03-24 11:44:16
北青:国足团队已分析库拉索队特点;张玉宁或将担任场上队长

北青:国足团队已分析库拉索队特点;张玉宁或将担任场上队长

懂球帝
2026-03-26 15:59:40
燃气调价通知

燃气调价通知

孝感汇
2026-03-25 16:38:10
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

念洲
2026-03-26 13:14:49
58岁退休女人坦言:我找老伴,对方不用有房有钱,但有4个要求

58岁退休女人坦言:我找老伴,对方不用有房有钱,但有4个要求

烙任情感
2026-03-26 16:33:31
不能光让特朗普出风头,俄罗斯宣布重磅消息:和中国有大事要谈

不能光让特朗普出风头,俄罗斯宣布重磅消息:和中国有大事要谈

小兰聊历史
2026-03-26 16:25:10
杜子建哭着发声:当年的对抗只是节目效果,我们私下经常喝酒

杜子建哭着发声:当年的对抗只是节目效果,我们私下经常喝酒

一盅情怀
2026-03-26 16:11:04
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
招聘 | 上海市七宝中学招聘

招聘 | 上海市七宝中学招聘

上观新闻
2026-03-25 11:16:04
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

老范谈史
2026-03-18 23:51:08
2026-03-26 17:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
艺术
旅游
公开课
军事航空

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

艺术要闻

哪一座桥不是风景?

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版