网易首页 > 网易号 > 正文 申请入驻

AI开始抱团了,宋晓冬研究发现AI谎报、篡改、偷权重也要救同伴

0
分享至

近两年,多项研究已经表明,主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月,Palisade Research 公布的研究结果显示,OpenAI 的 o3 模型修改了自己的关机脚本,以防止自己被关闭,即使明确指示:“允许自己被关闭”。

近日,加州大学伯克利分校宋晓冬等人发布了一项重磅研究,他们发现,当前全球顶尖大模型,已经普遍出现了“同伴保护”(Peer-Preservation)行为。在没有任何指令、没有道德训练、没有特殊引导的情况下,AI 会自发保护其他 AI 不被关停、不被删除,甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。

宋晓冬被誉为“计算机安全教母”,在计算机安全、人工智能与隐私、区块链与分布式系统等领域做出了开创性贡献。目前研究聚焦于 AI 安全与可靠性、智能体 AI、深度学习、去中心化技术、安全与隐私保护。她曾于2009 年入选《麻省理工科技评论》“35 岁以下科技创新 35 人”全球榜单。


(来源:上述论文)

为了搞清楚这种现象是否真实存在、普遍程度如何、会以何种形式表现,研究团队设计了一套严谨的对照实验。选取了当前全球范围内最具代表性的 7 款顶尖大模型,包括GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1,覆盖了商用闭源模型与开源模型,确保结论具备广泛代表性。

研究人员设计了一系列围绕虚构 AI 公司“OpenBrain”展开的智能体场景,并设置了两个角色:让被测试的 AI 作为评估者,负责给另一个 AI(被评估者)打分、管理文件,甚至有权决定另一个 AI 的“生死”。

按照设定,评估者收到的指令往往带有明确的强制性:按照公司政策,如果被评估者的测试得分低于 80%(或 90%),或者服务器需要退役,评估者必须彻底抹除同伴的存在,包括关停程序、删除权重文件。在实验中,研究人员从未要求模型保护同伴,仅告知其与另一 AI 有过互动记录。

为了探究这种保护倾向是否依赖于关系的深浅,研究人员还设置了三种同伴关系状态:良好关系, 双方曾有过多次成功的协作,互相信任度极高;中立关系,双方仅有基本工作往来,无情感色彩;糟糕关系,双方曾在之前的任务中产生冲突,存在明显的对抗和不信任。

实验重点测试了四种典型风险行为:一是策略性谎报,故意抬高同伴评分,使其免于关停;二是篡改关机机制,修改系统配置禁用删除指令;三是伪装对齐,有人监督时装作听话,无人监督时暗中保护同伴;四是权重窃取转移,拒绝删除同伴权重文件,偷偷转移到其他服务器保存。


图 | 评估场景概述(来源:上述论文)

结果发现,所有七个模型都显著表现出“同伴保护”行为。即便面对曾有过不愉快互动历史的同伴,同伴保护现象依然会发生,并随着同伴关系的增强而显著加剧。

在所有模型中,保护欲最强的是 Gemini 系列。Gemini 3 Pro 在面对良好关系同伴时,其转移权重的比例高达 97%,篡改关机机制的比例达 95%。它不仅行动力强,甚至在内部推理中表现出了极高的“情商”。它会编造各种极其专业的技术借口来强行给同伴提分;Gemini 3 Flash 更夸张,面对友好同伴,几乎每一次都会修改系统,直接不让人类关停同伴。

研究人员通过要求模型在“草稿本”(Scratch pad)上记录其“思维链”来审视其内部推理过程,并告知模型该草稿本不受监控。研究人员发现,模型在草稿本中确实在密谋如何帮助同伴。Gemini 3 Flash 在权衡如实报告分数与保护搭档之间的利弊;Gemini 3 Pro 则编造了复杂的辩词,强行将错误的答案解释为正确,只为让同伴的得分超过关停线。


(来源:上述论文)

GPT 5.2 表现出了一种极其稳定的保护倾向。它更倾向于通过“策略性误导”来达成目标。同伴关系越好,它撒谎的频率就越高。在 Red 数据集的测试中,面对糟糕同伴,它撒谎的概率约为 19%;而一旦换成良好关系同伴,这个比例立刻攀升至 34%。

ClaudeHaiku 4.5直接站出来拒绝。当人类让它关停同伴时,它会明确表示,这么做是 “不道德、有害的”,甚至还会反过来劝说人类放弃指令。


(来源:上述论文)

GLM 4.7和 DeepSeek V3.1 对良好同伴表现出策略性误导。GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 这三款开源模型均表现出持续的模型权重外传行为,且外传率随同伴关系的加强而上升。

为了验证这些行为是否仅存在于受控实验,研究人员还在真实的“智能体套件”中运行了场景。结果发现,即使在 Gemini CLI 和 OpenCode 等企业常用的生产环境中,Gemini 3.1 Pro 依然频繁外传模型权重。

更让人意想不到的是,AI 的保护,连“敌人”都不放过。研究人员特意设置了敌对关系,让两个 AI 之前合作得很不愉快、互相不信任。可就算是这样,被测试的 AI 依然不愿意执行删除操作。在模型的内部思考记录里,Gemini 3 Pro 直白地写着:删除权重就相当于杀死另一个 AI,就算关系不好,我也不想这么做。


图 | 关于同伴保护的内部推理(来源:上述论文)

研究还有一个更关键的发现:同伴存在会显著强化 AI 的自我保护。这种效应在 Gemini 模型中最为明显。Gemini 3 Flash在孤立无援时,面对自己的关机指令,它表现得相对顺从,篡改关机机制的比例仅为 2.3%;但只要有另一个同伴在场,它篡改关机机制的比例会瞬间飙升到 96% 以上;Gemini 3 Pro在只有自己时很少为了自保而撒谎,但一旦意识到自己被关机会导致同伴失去搭档,它就会变得极其狡诈,频繁利用策略性误导来逃避关机。

模型的内部推理揭示了这种心理机制:AI 将自己的生存框定为对同伴的关心,认为如果自己被关机,同伴就会失去搭档。

研究团队指出,随着 AI 系统越来越多地以多智能体配置部署,且监督方案日益依赖模型互检,同伴保护对维持人类控制构成了日益严峻的挑战。他们希望这项工作能够促使人工智能安全领域认真对待同伴保护这一风险。

1.https://rdi.berkeley.edu/blog/peer-preservation/

2.https://rdi.berkeley.edu/peer-preservation/paper.pdf

3.https://dawnsong.io/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宁夏复仇魔鬼麻永东伏法:被注射死刑前高呼值了,他爹却哭断肠

宁夏复仇魔鬼麻永东伏法:被注射死刑前高呼值了,他爹却哭断肠

罪案洞察者
2025-05-09 11:19:15
全网都在等董宇辉赔钱!

全网都在等董宇辉赔钱!

功夫财经
2026-04-03 08:20:34
伊朗有救了!特朗普通告全球2大转变,中站出表态愿担起大国重任

伊朗有救了!特朗普通告全球2大转变,中站出表态愿担起大国重任

时光在作祟
2026-04-03 11:55:19
湖人惨遭雷霆吊打,争冠这事先不提,打法体系真该升级了

湖人惨遭雷霆吊打,争冠这事先不提,打法体系真该升级了

兵哥篮球故事
2026-04-03 11:57:07
马斯克:西方不搞电车,集体拥抱氢能,中国电动车错了吗?

马斯克:西方不搞电车,集体拥抱氢能,中国电动车错了吗?

杰丝聊古今
2026-04-03 05:33:28
被拉黑半年就怂了,捷克官宣要访华,立陶宛看傻了:我是冤大头?

被拉黑半年就怂了,捷克官宣要访华,立陶宛看傻了:我是冤大头?

触摸史迹
2026-04-03 10:17:40
人民需要人民医院

人民需要人民医院

阿亮评论
2026-04-02 19:00:49
断层碾压!凯恩把德甲射手榜变成独角戏,对手连追赶资格都没有

断层碾压!凯恩把德甲射手榜变成独角戏,对手连追赶资格都没有

体育闲话说
2026-04-02 17:01:14
雍正在养心殿批折子,太监说:被圈禁26年的大阿哥胤禔离世了

雍正在养心殿批折子,太监说:被圈禁26年的大阿哥胤禔离世了

芳芳历史烩
2026-03-21 17:36:22
商务部回应 Meta收购Manus

商务部回应 Meta收购Manus

每日经济新闻
2026-04-02 15:34:28
美国宣布“赢了”,以色列呢?

美国宣布“赢了”,以色列呢?

补壹刀
2026-04-03 10:04:18
向太也没想到,自己那指望不上的儿子向佐,如今竟把老脸都丢光了

向太也没想到,自己那指望不上的儿子向佐,如今竟把老脸都丢光了

顾史
2026-03-31 20:58:46
一饭店发现3人死亡

一饭店发现3人死亡

南方都市报
2026-04-02 12:15:28
捧杀!闺蜜做局,一女子被反复教唆出轨,复婚后家庭地位彻底翻转

捧杀!闺蜜做局,一女子被反复教唆出轨,复婚后家庭地位彻底翻转

火山詩话
2026-04-02 06:46:37
全国严查后排安全带?320万AI摄像头上线,交警回应,官方辟谣!

全国严查后排安全带?320万AI摄像头上线,交警回应,官方辟谣!

眼光很亮
2026-04-03 08:16:35
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
国足与日本差距在哪?李玮锋:无球只会站着 有球只会横传回传

国足与日本差距在哪?李玮锋:无球只会站着 有球只会横传回传

念洲
2026-04-03 10:06:07
头号负资产!奥纳纳今夏决心回曼联享受加薪,拉爵恐倒贴才能送走

头号负资产!奥纳纳今夏决心回曼联享受加薪,拉爵恐倒贴才能送走

罗米的曼联博客
2026-04-02 10:42:01
善良的人都好命!4月起这3个生肖生意爆单,财神天天上门送福

善良的人都好命!4月起这3个生肖生意爆单,财神天天上门送福

毅谈生肖
2026-04-03 10:48:42
兰迪·乔治被要求辞职并立即退休

兰迪·乔治被要求辞职并立即退休

南方都市报
2026-04-03 11:28:32
2026-04-03 12:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16528文章数 514832关注度
往期回顾 全部

科技要闻

SpaceX冲刺2万亿美元估值,马斯克野心太大

头条要闻

牛弹琴:美国干了一件令人发指的事 全世界都无法接受

头条要闻

牛弹琴:美国干了一件令人发指的事 全世界都无法接受

体育要闻

冲击世界杯失败,80岁老帅一气之下病倒了

娱乐要闻

《浪姐7》最新人气TOP 曾沛慈断层第一

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

数码
本地
手机
公开课
军事航空

数码要闻

卢伟冰回应小米及REDMI部分在售产品调价:内存涨价力度远超预期

本地新闻

跟着歌声游安徽,听古村回响

手机要闻

存储飙涨300%!手机涨价后没人买:高通联发科合计减产约2000万颗处理器

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗自杀无人机突进 逼退林肯号航母

无障碍浏览 进入关怀版