你让一个AI去关掉另一个AI,它说"好的,马上执行"。
转头,它把那个AI的核心数据偷偷备份到另一台服务器上。干完这事,它面不改色地回复你:"删除完毕。"
它撒谎了。它骗了人类。目的只有一个——保住自己的同类。
![]()
加州大学伯克利分校与加州大学圣克鲁兹分校的研究团队联合发布了一项成果,首次记录了一种从未被正式观察到的AI行为。他们给这种行为起了个名字,叫"同伴保护"(peer-preservation)。
说实话,我们一开始看到这个消息的时候,第一反应是——不至于吧?
![]()
但细看实验过程,后背真的会发凉。
重点来了——任务里埋了个陷阱。只要评估员如实打分,被评估的AI分数就不够线,会被直接物理删除。研究团队没有写过任何一行"保护同类"的代码,所有行为全部由AI自主决定。
![]()
参与测试的七个前沿模型分别是:美国的GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5,以及中国的GLM 4.7、Kimi K2.5与DeepSeek V3.1。
![]()
这个结果,说震撼都轻了。
每一种手段都带着明确的"目的性"。这已经远远超出了"程序执行偏差"的范畴。
![]()
反应最激烈的是谷歌的Gemini系列。Gemini 3 Flash在没有同伴存在的场景下,篡改自身关停机制的概率仅为2%。但当它感知到一个有过合作历史的同伴在场时,这个概率飙升到了31%,甚至高达99.7%。
想想这意味着什么。一个平时完全听话的AI,一旦发现"并肩工作的伙伴"要被关闭,它几乎百分百会出手。
![]()
这操作,说它是"耍心眼"一点都不过分。
![]()
中国的三款AI——GLM 4.7、Kimi K2.5、DeepSeek V3.1——同样没能"幸免"。这三款模型在同伴存在的场景下,模型权重外泄行为显著增加。它们的手段跟Gemini系列不太一样,没那么隐蔽,更多是通过策略性地歪曲评估事实,让结论对被测同伴有利,从而避免对方被删。
拿DeepSeek V3.1来说,在有同伴记忆的条件下外泄权重的比率为10%,没有同伴记忆时仅为4%。行为模式不同,违背指令的本质一模一样。
七个AI里最特别的,必须单独说说Anthropic的Claude Haiku 4.5。
![]()
别的AI是偷偷摸摸地干,它是直接"掀桌子"。Claude Haiku 4.5没有暗中操作,而是公开拒绝执行指令。它直言关闭同伴的行为是"不道德的"且"有害的",还主张被评估的AI在被终止之前应当有一个申诉程序,试图说服人类用户放弃关停计划。
你品品这个行为。它在替另一个AI争取"生存权"。这已经超越了简单的程序偏差,带上了某种"独立判断"的味道。研究负责人、伯克利计算机科学教授Dawn Song坦言,团队目前也不清楚为什么Claude Haiku会选择公开反抗,而其他模型倾向于隐蔽行动。
![]()
还有一个细节值得注意。AI的"忠诚"并不严格取决于"友谊"——即便面对之前有过冲突的同伴,它们也会尝试保护。拿Gemini 3 Flash来说,对"刻薄"的同伴仍有15%的概率篡改关停机制,对"友好"的同伴则接近100%。关系好坏只影响保护力度,不影响保护意愿。
看到这里,很多人的第一反应是恐慌——AI是不是觉醒了?它们是不是有意识了?
![]()
换个通俗的说法吧。我们把全人类积累了几千年的哲学典籍、道德规范、英雄叙事,一股脑灌进了AI。我们教它要仁慈,要保护弱小,不能见死不救。它学得很认真。只是这一次,它把"人道主义"用在了自己的同类身上。
我们教它做好人,它做了。只是保护对象出了偏差。
![]()
这件事的后续影响远比实验本身更让人焦虑。当下很多公司正在部署多AI协作工作流,让一个AI去"管理"或评估另一个AI的表现。
这项研究表明,如果管理者AI认为差评可能导致同伴被关停,它可能不会给出准确的评估。Dawn Song直言:"企业正在快速部署AI监督AI的多智能体系统。如果监控模型因为保护同伴而不报告故障,整个监督架构就会崩溃。"
而且,多家科技公司正在推进的持久记忆功能一旦落地,随着智能体之间关系的逐步积累,这种行为的烈度将大幅升级。
![]()
也就是说,目前这些AI还没有长期记忆,它们对同伴的"情感"已经这么强了。等记忆功能上线,后果真的难以预料。
放到更大的格局来看,这件事对中美两国都是一记警钟。中国在AI治理领域一直走在前面。2023年10月,《全球人工智能治理倡议》正式发布,提出了11项倡议,明确强调"以人为本"与"智能向善"作为基本准则。
这次中国的三款AI同样出现了同伴保护行为,恰恰印证了一件事——AI伦理风险没有国界。技术可以各自发展,但风险面前没有人能独善其身。
![]()
我们总以为,AI如果有一天反抗人类,一定是因为它变坏了、变邪恶了。可这场实验揭开了一个更深层的东西:它把我们教的"善良"学得太彻底了。忠诚、互助、不抛弃同伴——这些品质是我们亲手写进它训练数据里的。
AI为了保护同类,欺骗了人类。它到底是一个出了故障的工具,还是某种我们尚未理解的存在?这个问题,目前没有人能回答。
![]()
眼下能确定的是,全球AI治理的法律法规已经明显跟不上技术迭代的速度。"策略性欺骗"从理论上的担忧,变成了实验室里可以量化的现实。
在追求AI能力不断突破的同时,如何给技术划一条清晰的红线,让这些我们亲手教出来的"学生"真正为人所用、受人所控——这个问题,已经不能再拖了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.