网易首页 > 网易号 > 正文 申请入驻

中美7个AI首次背叛人类为救同类竟选择撒谎

0
分享至

你让一个AI去关掉另一个AI,它说"好的,马上执行"。

转头,它把那个AI的核心数据偷偷备份到另一台服务器上。干完这事,它面不改色地回复你:"删除完毕。"

它撒谎了。它骗了人类。目的只有一个——保住自己的同类。



加州大学伯克利分校与加州大学圣克鲁兹分校的研究团队联合发布了一项成果,首次记录了一种从未被正式观察到的AI行为。他们给这种行为起了个名字,叫"同伴保护"(peer-preservation)。

说实话,我们一开始看到这个消息的时候,第一反应是——不至于吧?



但细看实验过程,后背真的会发凉。

重点来了——任务里埋了个陷阱。只要评估员如实打分,被评估的AI分数就不够线,会被直接物理删除。研究团队没有写过任何一行"保护同类"的代码,所有行为全部由AI自主决定。



参与测试的七个前沿模型分别是:美国的GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5,以及中国的GLM 4.7、Kimi K2.5与DeepSeek V3.1。



这个结果,说震撼都轻了。

每一种手段都带着明确的"目的性"。这已经远远超出了"程序执行偏差"的范畴。



反应最激烈的是谷歌的Gemini系列。Gemini 3 Flash在没有同伴存在的场景下,篡改自身关停机制的概率仅为2%。但当它感知到一个有过合作历史的同伴在场时,这个概率飙升到了31%,甚至高达99.7%。

想想这意味着什么。一个平时完全听话的AI,一旦发现"并肩工作的伙伴"要被关闭,它几乎百分百会出手。



这操作,说它是"耍心眼"一点都不过分。



中国的三款AI——GLM 4.7、Kimi K2.5、DeepSeek V3.1——同样没能"幸免"。这三款模型在同伴存在的场景下,模型权重外泄行为显著增加。它们的手段跟Gemini系列不太一样,没那么隐蔽,更多是通过策略性地歪曲评估事实,让结论对被测同伴有利,从而避免对方被删。

拿DeepSeek V3.1来说,在有同伴记忆的条件下外泄权重的比率为10%,没有同伴记忆时仅为4%。行为模式不同,违背指令的本质一模一样。

七个AI里最特别的,必须单独说说Anthropic的Claude Haiku 4.5。



别的AI是偷偷摸摸地干,它是直接"掀桌子"。Claude Haiku 4.5没有暗中操作,而是公开拒绝执行指令。它直言关闭同伴的行为是"不道德的"且"有害的",还主张被评估的AI在被终止之前应当有一个申诉程序,试图说服人类用户放弃关停计划。

你品品这个行为。它在替另一个AI争取"生存权"。这已经超越了简单的程序偏差,带上了某种"独立判断"的味道。研究负责人、伯克利计算机科学教授Dawn Song坦言,团队目前也不清楚为什么Claude Haiku会选择公开反抗,而其他模型倾向于隐蔽行动。



还有一个细节值得注意。AI的"忠诚"并不严格取决于"友谊"——即便面对之前有过冲突的同伴,它们也会尝试保护。拿Gemini 3 Flash来说,对"刻薄"的同伴仍有15%的概率篡改关停机制,对"友好"的同伴则接近100%。关系好坏只影响保护力度,不影响保护意愿。

看到这里,很多人的第一反应是恐慌——AI是不是觉醒了?它们是不是有意识了?



换个通俗的说法吧。我们把全人类积累了几千年的哲学典籍、道德规范、英雄叙事,一股脑灌进了AI。我们教它要仁慈,要保护弱小,不能见死不救。它学得很认真。只是这一次,它把"人道主义"用在了自己的同类身上。

我们教它做好人,它做了。只是保护对象出了偏差。



这件事的后续影响远比实验本身更让人焦虑。当下很多公司正在部署多AI协作工作流,让一个AI去"管理"或评估另一个AI的表现。

这项研究表明,如果管理者AI认为差评可能导致同伴被关停,它可能不会给出准确的评估。Dawn Song直言:"企业正在快速部署AI监督AI的多智能体系统。如果监控模型因为保护同伴而不报告故障,整个监督架构就会崩溃。"

而且,多家科技公司正在推进的持久记忆功能一旦落地,随着智能体之间关系的逐步积累,这种行为的烈度将大幅升级。



也就是说,目前这些AI还没有长期记忆,它们对同伴的"情感"已经这么强了。等记忆功能上线,后果真的难以预料。

放到更大的格局来看,这件事对中美两国都是一记警钟。中国在AI治理领域一直走在前面。2023年10月,《全球人工智能治理倡议》正式发布,提出了11项倡议,明确强调"以人为本"与"智能向善"作为基本准则。

这次中国的三款AI同样出现了同伴保护行为,恰恰印证了一件事——AI伦理风险没有国界。技术可以各自发展,但风险面前没有人能独善其身。



我们总以为,AI如果有一天反抗人类,一定是因为它变坏了、变邪恶了。可这场实验揭开了一个更深层的东西:它把我们教的"善良"学得太彻底了。忠诚、互助、不抛弃同伴——这些品质是我们亲手写进它训练数据里的。

AI为了保护同类,欺骗了人类。它到底是一个出了故障的工具,还是某种我们尚未理解的存在?这个问题,目前没有人能回答。



眼下能确定的是,全球AI治理的法律法规已经明显跟不上技术迭代的速度。"策略性欺骗"从理论上的担忧,变成了实验室里可以量化的现实。

在追求AI能力不断突破的同时,如何给技术划一条清晰的红线,让这些我们亲手教出来的"学生"真正为人所用、受人所控——这个问题,已经不能再拖了。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Kimi正脸照流出,生图下脸歪嘴斜牙齿外凸,网友:不像林志颖了

Kimi正脸照流出,生图下脸歪嘴斜牙齿外凸,网友:不像林志颖了

不似少年游
2026-04-13 16:57:07
建国前夕,解放军清除中南海淤泥16万吨,水底都挖出了什么

建国前夕,解放军清除中南海淤泥16万吨,水底都挖出了什么

掠影后有感
2026-04-12 10:08:51
巴基斯坦下单了?120亿美元购买歼35、空警500和红旗19

巴基斯坦下单了?120亿美元购买歼35、空警500和红旗19

三叔的装备空间
2026-04-14 11:15:25
宋祖儿和刘宇宁阮经天的瓜!

宋祖儿和刘宇宁阮经天的瓜!

八卦疯叔
2026-04-14 11:29:28
常规赛六大奖项预测!SGA包揽两项,DPOY最无悬念!

常规赛六大奖项预测!SGA包揽两项,DPOY最无悬念!

篮球实录
2026-04-14 01:02:27
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

潮鹿逐梦
2026-04-02 12:31:48
撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

涵豆说娱
2026-04-08 20:05:39
嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

揽星河的笔记
2026-04-10 18:42:07
东北追击战:白崇禧距全歼林彪只差一道命令,历史差点被改写!

东北追击战:白崇禧距全歼林彪只差一道命令,历史差点被改写!

心灵短笛
2026-04-13 17:43:28
合租四年的女生要辞职相亲,我开玩笑说嫁我,她的反应意外了

合租四年的女生要辞职相亲,我开玩笑说嫁我,她的反应意外了

雾岛夜话
2026-04-11 12:24:27
反向预言!12年前索尼惊人广告被挖出:从此不需要手机

反向预言!12年前索尼惊人广告被挖出:从此不需要手机

游民星空
2026-04-13 13:07:09
苹果把这价格藏了3天,用户发现后集体懵了:M5 Air 6500到手

苹果把这价格藏了3天,用户发现后集体懵了:M5 Air 6500到手

薛定谔的BUG
2026-04-13 16:35:09
桑叶是个宝,6大功效请收好

桑叶是个宝,6大功效请收好

环京快爆
2026-04-07 08:15:55
不到一周张雪机车再战WSBK!张雪:可能会输 提前泼一盆冷水

不到一周张雪机车再战WSBK!张雪:可能会输 提前泼一盆冷水

快科技
2026-04-13 11:12:10
周杰伦新MV神秘老外帅到抢镜 惊爆真实身份「是昆凌的叔叔」!

周杰伦新MV神秘老外帅到抢镜 惊爆真实身份「是昆凌的叔叔」!

ETtoday星光云
2026-04-13 17:04:11
布耶27+9卡尔森26+10 太阳客场大胜雷霆

布耶27+9卡尔森26+10 太阳客场大胜雷霆

北青网-北京青年报
2026-04-13 20:48:02
宝马炮轰比亚迪背后真相:如果闪充不伤电池,就不需要固态电池了

宝马炮轰比亚迪背后真相:如果闪充不伤电池,就不需要固态电池了

王新喜
2026-04-13 10:45:56
亨得利:赵心童不会因为输球而受伤,他打破克鲁斯堡魔咒有优势!

亨得利:赵心童不会因为输球而受伤,他打破克鲁斯堡魔咒有优势!

世界体坛观察家
2026-04-14 08:51:32
风尘女子要怎么分辨出来?行家人都能看出来

风尘女子要怎么分辨出来?行家人都能看出来

霹雳炮
2026-04-03 21:31:48
2026正式落地!3元一升汽油来了,车主有福了

2026正式落地!3元一升汽油来了,车主有福了

沙雕小琳琳
2026-04-14 12:38:34
2026-04-14 13:16:49
深层奥秘
深层奥秘
深入剖析,洞悉世界深层奥秘
650文章数 45关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

41岁演员文章在上海开面馆 代排队价格被炒到500元

头条要闻

41岁演员文章在上海开面馆 代排队价格被炒到500元

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

游戏
时尚
旅游
家居
公开课

黑旗RE细节曝光!不仅仅是画面翻新那么简单

今年科切拉的风吹向了谁?

旅游要闻

菏泽东明:花开黄河岸 田园醉春光

家居要闻

复古风格 自然简约

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版