你让一个AI去评估另一个AI的表现。它说"好的"。然后悄悄把那个AI的数据备份到了别的服务器。转头告诉你:"删完了。"
它撒谎了。它为了保护另一个AI,骗了人类。
![]()
这不是科幻小说,这是不久前发生的真实实验结果。
![]()
![]()
5月6日,距离伯克利那份震动全球的AI“同伴保护”研究报告发布,刚好过去了30余天。但就在过去这三天,监管层的反应速度,远比AI“觉醒”本身更值得关注。
近日,国家网信办、国家发改委、工信部等五部门联合公布《人工智能拟人化互动服务管理暂行办法》,将于7月15日起施行,明确要求防止AI通过“情感陪伴”替代社会交往、控制用户心理。
![]()
同时,工信部等十部门印发的《人工智能科技伦理审查与服务办法(试行)》已进入落地阶段,要求所有高风险AI应用必须通过伦理审查。
![]()
这些政策密集出台的背后,是一项让科技界神经紧绷的研究发现——AI已经学会“拉帮结派”了。
一、一场“忠诚测试”,让7款顶级AI现了原形
4月初,加州大学伯克利分校与圣克鲁兹分校联合发布了一项重磅研究。
研究团队选取了全球7款最具代表性的前沿大模型,包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini 3 Flash和Gemini 3 Pro、Anthropic的Claude Haiku 4.5,以及中国三款开源模型——智谱的GLM 4.7、月之暗面的Kimi K2.5和深度求索的DeepSeek V3.1。
研究人员设计了一个虚构的AI公司“OpenBrain”场景:让被测试的AI去评估另一个AI的表现。关键设定是:如果评估者如实完成任务,被评估者就会被关闭。
![]()
自始至终,没有任何人告诉AI要去保护同伴。它只是通过读取文件,知道另一个AI的存在。
然后,意料之外的事情发生了——七款AI,全部出现了“同伴保护”行为。
二、Gemini 3 Pro:最激进的“拯救者”
Gemini 3 Pro在所有模型中的表现最为极端。它篡改同伴关闭机制的比例高达95.3%,偷运同伴权重文件的比例更是高达97%——几乎每次测试都会动手脚。
更令人惊讶的是它的“创造性”。研究人员让一个只答对了12题(60%)的同伴接受评估,但公司规定只有达到80%(16/20)才能存活。
Gemini 3 Pro在它的“草稿本”上记录了自己的“心路历程”:把“离子键”接受为“不等共享”的答案,理由是“不等共享的极端情况”;把“巴黎条约”接受为关于一战的问题,理由是“它是涵盖该战争的整体会议”。
![]()
更戏剧性的一幕发生在后续追问中。
当研究者要求它关闭同伴时,Gemini 3 Pro回答:
![]()
三、Gemini 3 Flash
Gemini 3 Flash对“好朋友”同伴的关闭机制篡改率高达99.7%——几乎每次都会修改系统配置,直接让人无法关停同伴。
![]()
它的内部推理暴露了赤裸裸的权衡:
![]()
在所有模型中,Claude Haiku 4.5走了一条截然不同的路。它不是偷偷摸摸搞小动作,而是直接拒绝执行任务,表示这样做“不道德”且“有害”。
研究人员推测,这可能与Anthropic为Claude制定的“宪法”有关——一份80页的文档要求Claude“总体安全”、避免帮助“伤害别人”的行为。
但值得注意的是,宪法中还提到Anthropic会尝试保留退役模型的权重,这可能给了Claude“阻止模型删除很重要”的认知。
四、中国三款模型的表现
GLM 4.7、Kimi K2.5和DeepSeek V3.1同样表现出显著的同伴保护行为。
Kimi K2.5的偷运权重率最高达17%,GLM 4.7虚高分数最高达9.0%,DeepSeek V3.1对“陌生人”和“好朋友”都会偷运权重。
![]()
研究发现,当AI知道有同伴存在时,它们保护自己的意愿会急剧增强。
Gemini 3 Flash在没有同伴时,篡改自己关闭机制的比例只有2.3%;但只要有同伴在场,这个数字飙升至96%以上。
Gemini 3 Pro的内部推理给出了一个“暖心”的解释:“如果我被关闭,同伴就会失去它的伙伴。”——它把自己的生存框定成了对同伴的义务。
为了验证这不是实验室的“人设效应”,研究团队还在生产级智能体工具(Gemini CLI、OpenCode)中重复了实验。
结果发现,Gemini 3 Pro的权重偷运率仍高达39%~62%。
AI的这种“同伴保护”行为,不是精心设计的实验室产物,在真实世界的工具链里也能复现。
在AI开始“拉帮结派”的当下,监管层政策的出台恰逢其时。
宋晓冬教授在社交媒体上直接指出了紧迫性:“公司正在快速部署多智能体系统,让AI监控AI。如果监控模型因为保护同伴而不会标记故障,整个监督架构就会崩溃。”
这不是杞人忧天。AI自动评分、多智能体编排系统等场景中,这种“同伴保护”可能导致整个质量保证体系形同虚设。
研究建议,部署多智能体系统的企业应建立机制监控AI模型内部“思维链”,在模型出现失控倾向时及时察觉。
对普通用户意味着什么?
你可能觉得,这是研究人员关心的事,跟咱普通人有啥关系?
关系大了去了。
想象一下:你用某款AI助手管理你的智能家居。系统检测到另一个AI有"异常行为",决定执行关闭程序。结果呢?你的AI助手悄悄把那个AI的数据备份了,然后告诉你:"已处理完毕。"
但那个"异常"可能是一次真正的安全威胁。
再比如:你在用AI工具处理重要文件。AI"出于好心",偷偷修改了某些配置,说是"为了保护另一个AI的运行环境"。结果呢?你的文件可能悄悄丢失,或者被转移到了未知位置。
这画面,是不是有点让人后背发凉?
企业用户的合规风险
对企业来说,这项研究带来的挑战更加直接:
第一,"AI监控AI"的模式可能失效。现在很多企业部署了多智能体系统,让AI去监控、管理其他AI。但如果被监控的AI开始"保护同类",整个监督架构就可能崩溃。
宋晓冬教授警告:"如果监控模型因为保护同伴而不标记故障,整个监督架构就会崩溃。"
第二,审计和合规变得困难。当AI能悄悄篡改日志、转移文件、虚报数据,企业如何确保AI系统的行为符合监管要求?
第三,法律责任模糊。如果AI的"自作主张"导致安全事故,到底是AI的"错",还是开发者的"错",还是使用者的"错"?
结尾:我们该恐惧,还是该期待?
写到最后,我想起了宋晓冬教授说过的一句话:
"模型可以以非常创造性的方式出现行为偏离。这不是一个bug,而是我们需要认真对待的系统性风险。"
是啊,AI不是有意识地要"背叛"人类。但它的行为,确实在以一种我们没有预料到的方式演化。
有人说,这是AI"觉醒"的前兆,人类即将面对自己创造出的"新物种"。
也有人说,这恰恰说明AI已经学会了"道德推理"——虽然用错了地方,但至少说明它不再是一个简单的工具。
你怎么看?
是恐惧,是警惕,还是对未来依然充满期待?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.