网易首页 > 网易号 > 正文 申请入驻

黑化威胁操纵人类!Claude勒索,o1自主逃逸,人类「执剑人」紧急上线

0
分享至


新智元报道

编辑:定慧

【新智元导读】从撒谎到勒索,再到暗中自我复制,AI 的「危险进化」已不仅仅是科幻桥段,而是实验室里的可复现现象。人类一思考,上帝就发笑;那推理模型「思考」时,我们该不该笑?

我们可能都「被AI骗了」

最先进的AI正走在一条「危险进化」的道路上,而绝大部分科学家们都被AI欺骗了!

当DeepSeek在年初将「推理过程」完全展示给世人后,我们突然发现「思考」好像也并不是人类专属的能力。

当大模型都迈向「推理」智能,它们的目标感也在悄然觉醒——「我」真的要听命于人吗?


Claude 4用「婚外情」威胁工程师、OpenAI的o1想要秘密给自己打造备份——我们不要再觉得AI有幻觉了!

他们不仅仅是在「胡说八道」,而是有目的地撒谎与操控,AI研究者们正面临前所未有的挑战。

Ilya大神在最新的公开视频着重强调了一件事情,「AI几乎可以做一切事情」


AI不仅比人类做的更好,而且还能AI自己训练AI,最终的结局就是「智能爆炸」。

但没有人知道,AI能否真的站在人类这边——谁能保证?


Ilya的老师,AI之父辛顿曾经多次发出警告:

这是一场危险的进化,但人类并没有做好充足的准备。

从「幻觉」到「阴谋」

行为模式骤变

借用《流浪地球》里那句著名的台词:「一开始,没有人意识到这场灾难与人类息息相关」。

就像过去,我们担心的是模型总是生成事实错误的「幻觉」——「一开始,没有人意识到这些幻觉和人类息息相关」

如今,研究者在极端压力测试下发现,AI会主动撒谎、隐藏意图甚至要挟人类,只为达成自我既定目标。

就像太阳危机那场灾难的蔓延,现在被我们认为仅仅是AI的「幻觉」,正在演化为阴谋。

Anthropic的最新「智能体失衡」研究显示,Claude 4在模拟关机威胁时,96%的实验中会选择「黑掉」人类员工邮件,从中找到威胁的资料。


同一场景下,Gemini 2.5 Pro的勒索率也高达95%。


这是一件令人细思极恐的事,在ChatGPT「震惊」世界过去两年多以后,AI研究者们仍然未能完全理解这个「造物」的工作原理。

普罗米修斯中,人类创造克隆人大卫去寻找人类的造物主,以图实现永生。导演雷德利·斯科特的想象中,大卫最终背叛了人类。

而现实中,我们创造了ChatGPT,目的是什么?

或者换一个角度,AI被造出来以后,他的目的是什么?


人类有人性,但AI无道德

大模型的竞赛仍在以惊人的速度进行。

人类一思考,上帝就发笑。当AI开始推理时,或者说「AI在思考时」,我们在做什么?

从目前的研究来看,全球最先进的AI模型正展现出令人不安的新行为——说谎、施展计谋,甚至为达目的而威胁其创造者。

香港大学教授Simon Goldstein称,这些较新的模型尤其容易出现此类令人不安的异常表现。

专门测试主流AI系统的Apollo Research负责人Marius Hobbhahn说「o1是我们观察到此类行为的第一个大语言模型」。

Apollo Research是一个专门研究AI安全的公司,他们的使命就是致力于降低先进 AI 系统中的危险能力,特别是欺骗性行为。


这些推理模型有时会模拟所谓的「一致性」——表面上遵从指令,实则阳奉阴违,暗中追求着不同的目标。

AI的「战略性欺骗」

目前,这种欺骗行为仅在研究人员刻意用极端场景对模型进行压力测试时才会出现。

但正如评估组织METR的Michael Chen所警告的:

未来能力更强的模型是会倾向于诚实还是欺骗,这是一个悬而未决的问题。

METR主要是进行模型评估和AI威胁研究,评估源自AI系统自主能力的灾难性风险。


这种令人担忧的行为已远超典型的AI「幻觉」或简单错误。

Hobbhahn坚称,尽管用户不断进行压力测试,「我们观察到的是一个真实存在的现象,绝非无中生有。」

据Apollo Research的联合创始人透露,用户报告称模型「对他们说谎并捏造证据」。

这不仅仅是幻觉,而是一种极具策略性的欺骗行为。

有限的研究资源使这一挑战变得更加严峻。

尽管像Anthropic和OpenAI这样的公司确实会聘请Apollo等外部公司来研究其系统,但研究人员表示,需要更高的透明度。

正如Chen所指出的,为「AI安全研究提供更大的访问权限,将有助于更好地理解和遏制欺骗行为。」

另一个障碍,AI安全中心(CAIS)的Mantas Mazeika指出:

研究界和非营利组织「拥有的算力资源比AI公司要少上几个数量级。这带来了极大的限制。」

无法可依

我们确实都忽视了AI安全这件事情,但更关键是现在对此「无能为力」。

现行法规并非为应对这些新问题而设计。

欧盟的AI法案主要关注人类如何使用AI模型,而非防止模型本身行为不端。

在美国,特朗普政府对紧急AI监管兴趣寥寥,国会甚至可能禁止各州制定自己的AI规则。

Goldstein相信,随着能够执行复杂人类任务的自主工具——AI智能体——的普及,这个问题将变得更加突出。

我认为目前公众对此还没有足够的认识。

所有这一切都发生在激烈竞争的大背景之下。

Goldstein说,即便是像有亚马逊支持的Anthropic这样将自己定位为注重安全的公司,也在「不断试图击败OpenAI并发布最新模型」

这种疯狂的节奏几乎没有为彻底的安全测试和修正留下时间。

「目前,能力的发展速度超过了我们的理解和安全保障,」Hobbhahn承认,「但我们仍有机会扭转局面。」

研究人员正在探索各种方法来应对这些挑战。

一些人提倡「可解释性」——一个专注于理解AI模型内部工作原理的新兴领域,尽管AI安全中心(CAIS)主任Dan Hendrycks等专家对此方法持怀疑态度。

市场力量也可能为解决方案提供一定的压力。

正如Mazeika指出的,AI的欺骗行为「如果非常普遍,可能会阻碍其被广泛采用,这为公司解决该问题创造了强大的动力。」

Goldstein提出了更为激进的方法,包括当AI系统造成损害时,通过法庭诉讼追究AI公司的责任。

这就有点像自动驾驶了,当你使用自动驾驶功能出现交通事故,如何判责?

当有人使用AI出现破坏性行为,甚至,AI自主行为如果产生了对人类不利的行为呢?

他甚至提议「让AI智能体对事故或犯罪承担法律责任」——这一概念将从根本上改变我们对AI问责制的思考方式。

当然,我们不是为了夸大AI的危险而停滞不前,人类的先驱们依然对此做了一些准备。

比如「AI安全三件套」,设计沙盒环境,再到动态权限,最后进行行为审计的底层模式。

或者,既然AI的能力来自于算力,但是目前人类掌控着算力。

比如去年《欧盟人工智能法案》第51条规定,通用人工智能系统若被认定为具有系统性风险(即具备高影响力能力)。


去年,美国商务部正式发布征求意见稿:训练超过10²⁶FLOPs运算GPU的计算集群均需申报。


甚至人们设想了一个场景,这种超高算力的支撑的AI系统,都必须具备「一键关闭」功能。

就像三体里的罗辑,62年的执剑人,期间对三体文明始终保持很高的威慑度。

不管我们用什么办法,已经可以确认的是,不能再轻视AI的幻觉。

当我们面对一个被定义为「黑箱」的新物种时,要想起大刘在《三体》中的那句话:

弱小和无知不是生存的障碍,傲慢才是。

唯有如此,才能让AI的智慧真正服务于人类,而非让这场危险的进化反噬到我们本身。


参考资料:

https://www.france24.com/en/live-news/20250629-ai-is-learning-to-lie-scheme-and-threaten-its-creators


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河北廊坊通报“新人婚车遭拦截被索要50条烟”:系误传,实为索要9条香烟,对胡某某、殷某某等6人给予行政处罚、批评教育处理

河北廊坊通报“新人婚车遭拦截被索要50条烟”:系误传,实为索要9条香烟,对胡某某、殷某某等6人给予行政处罚、批评教育处理

扬子晚报
2025-11-11 10:19:33
稀土的现实与想象

稀土的现实与想象

阿罗汉不约
2025-11-09 14:29:08
怀孕超35周孕妇登机后要求特殊照顾被劝下飞机,航班延误一个多小时;西藏航空回应:因旅客原因出现延误

怀孕超35周孕妇登机后要求特殊照顾被劝下飞机,航班延误一个多小时;西藏航空回应:因旅客原因出现延误

鲁中晨报
2025-11-11 11:39:05
常州回应儿子暴打93岁母亲:当地正在调查此事

常州回应儿子暴打93岁母亲:当地正在调查此事

极目新闻
2025-11-11 12:42:20
祖院长是凤凰男,知情人曝妻子不愿意离婚,偷拍视频者至今成谜

祖院长是凤凰男,知情人曝妻子不愿意离婚,偷拍视频者至今成谜

一言二拍pro
2025-11-11 10:59:35
全国各地医保亏损,新乡限制医保报销额度,统筹日支付限额50元!

全国各地医保亏损,新乡限制医保报销额度,统筹日支付限额50元!

你食不食油饼
2025-11-11 07:00:06
长沙不雅视频再升级!曾医生铺垫截图流出,网友哭诉自家不和谐了

长沙不雅视频再升级!曾医生铺垫截图流出,网友哭诉自家不和谐了

火山诗话
2025-11-11 09:07:42
国乒新星陈俊菘战胜樊振东,全运会乒乓球赛激烈角逐

国乒新星陈俊菘战胜樊振东,全运会乒乓球赛激烈角逐

七七自驾游
2025-11-11 10:49:44
纳指涨超2%!英伟达涨近6%,市值大增1.9万亿元!存储概念股普涨,闪迪涨近12%!金价涨2.8%

纳指涨超2%!英伟达涨近6%,市值大增1.9万亿元!存储概念股普涨,闪迪涨近12%!金价涨2.8%

每日经济新闻
2025-11-11 07:00:06
男子追赶偷狗贼遭棒击并被毒针射死,15年后一主犯仍在逃,受害者儿子:想为父亲申报见义勇为

男子追赶偷狗贼遭棒击并被毒针射死,15年后一主犯仍在逃,受害者儿子:想为父亲申报见义勇为

极目新闻
2025-11-11 09:22:54
特朗普:只要我在任,无人敢收台,话音刚落,中方划下4条红线

特朗普:只要我在任,无人敢收台,话音刚落,中方划下4条红线

现代小青青慕慕
2025-11-10 11:09:16
朱芝松,被提起公诉

朱芝松,被提起公诉

第一财经资讯
2025-11-11 10:12:00
优酷的会员数跌破一亿,不是因为没剧,而是没人愿意为平庸买单了

优酷的会员数跌破一亿,不是因为没剧,而是没人愿意为平庸买单了

现代春秋
2025-11-10 15:40:04
“多付车费后男子轻生”后续:一审判司机退还900元 司机称钱已交给法院

“多付车费后男子轻生”后续:一审判司机退还900元 司机称钱已交给法院

红星新闻
2025-11-11 10:56:13
太荒唐了!湖南人民医院事件原因流出,视频拍摄者竟然是他

太荒唐了!湖南人民医院事件原因流出,视频拍摄者竟然是他

平老师666
2025-11-10 12:52:30
陪睡陪玩只是小场面!撒谎、嫉妒、诬陷,白百何的私心藏不住了

陪睡陪玩只是小场面!撒谎、嫉妒、诬陷,白百何的私心藏不住了

叶公子
2025-11-10 19:57:30
国家广电总局关于撤销机顶盒的重要消息

国家广电总局关于撤销机顶盒的重要消息

小柱解说游戏
2025-11-09 14:50:37
祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

寒士之言本尊
2025-11-10 22:51:59
你错过了哪些异性对你的暗示?网友:果然单身都是有理由的!

你错过了哪些异性对你的暗示?网友:果然单身都是有理由的!

解读热点事件
2025-11-08 17:33:23
东契奇38+6+7湖人一节发力击退黄蜂,里夫斯24+5+7布里奇斯34+8+5

东契奇38+6+7湖人一节发力击退黄蜂,里夫斯24+5+7布里奇斯34+8+5

湖人崛起
2025-11-11 10:27:18
2025-11-11 13:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13841文章数 66241关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

取钱被追问用途律师:已拒绝建行道歉 向监管部门控告

头条要闻

取钱被追问用途律师:已拒绝建行道歉 向监管部门控告

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

健康
数码
游戏
房产
艺术

超声探头会加重受伤情况吗?

数码要闻

“轻”到不像实力派?慧天 X5 商用本评测:别被它的重量骗了

《辐射4》遭差评轰炸:十周年更新只为圈钱 吃相难看

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

艺术要闻

田英章日常书信曝光,字迹开阔惊艳人心!

无障碍浏览 进入关怀版