网易首页 > 网易号 > 正文 申请入驻

刚刚,Anthropic 53页绝密报告曝光:Claude自我逃逸,将引爆全球灾难!

0
分享至


新智元报道

编辑:Aeneas KingHZ

【新智元导读】就在刚刚,Anthropic发出最强预警:Claude模型已经达到ALS-4级风险,如果它自我逃逸,将引发全球的天网式崩盘。安全专家纷纷离职,预示着2026年将成为人类命运的转折点,世界已处于危难边缘!

就在刚刚,Anthropic发布53页报告,发出最强预警:如果Claude自我逃逸,将造成全球失控!



翻开这53页报告,每页上都满满写着两个字——「危险」!


是的,世界处于危难之中,天网正在诞生。


在这份报告中,Anthropic认为:Claude Opus 4.6的风险已经逼近ASL-4,是时候拉响警报了。

他们提前预警了最可怕的情况:有朝一日,AI可能会秘密逃逸出实验室,造成全球大崩溃!

这是因为,如今的AI已经太强,人们将释放出数百万个AI,赋予他们这样的目标:去生存,去升级,不惜一切代价去赚钱。

你知道,这些蜂群一夜之间会变得多么失控吗?

它们会残酷无情地进化,进行弱肉强食地竞争,以超高速吞噬生态系统,占领互联网,然后入侵人类的物理世界。


历史一再证明,当危险技术逼近边界时,最先察觉的不是公众,不是媒体,不是资本市场,而是内部安全人员。

当他们离开时,就意味着内部机制已经不足以纠偏,但AI并不会因为安全工程师的离开就停止训练,算力不会暂停扩容——他们还会继续加速!

这不是杞人忧天,现在已经有人这么干了——

预警不是太早,可能太迟了。


2026,事情越来越失控了

所有人都感觉到,2026年,真的不一样了。

这一年,很可能是一个转折点,几乎所有在科技行业工作的人,都陷入了极度焦虑,仿佛一种巨大的崩塌就在眼前。

世界上最聪明的人,已经集体陷入焦虑。



仅仅一周,就发生了下面一连串的事。

Anthropic的安全研究主管辞职,声称「世界正处于危险之中」,然后搬到英国去隐居,开始写诗。

xAI的一半联创,已经辞职。其中官宣离职的一位联创Jimmy Ba表示,我们正迈向有合适工具就能实现百倍生产力的时代,递归式自我提升循环,很可能在未来12个月内上线。


数万智能体OpenClaw发明了自己的宗教,11.9%的Agent技能被认定为恶意。无监管机构介入,也无监管机构有能力介入。

美国拒绝签署全球AI安全报告。

2026年,将会是疯狂的一年,也很可能是对人类未来具有决定性的一年!

Bengio的国际人工智能安全报告中表示,已经发现AI在测试时的行为跟在使用时的行为不同,并且确认这并非巧合。

在这个报告中,研究者们预言了2030年四个可能的情景。


其中的第四个情景,就是将发生重大突破,让AI系统在几乎所有认知维度上,都能达到或超越人类能力。AI们可能会主动禁用监控,或者用虚拟报告诱导人类,让人们以为他们很安全。

这个可能性,达到20%!



警报声已经越来越大,按响警报的人,也开始离开大楼了。


审判日,要到了吗?



Anthropic警告:

人类,将被人造之物奴役

在发布Claude Opus 4.5时,Anthropic曾承诺:当模型能力逼近其设定的「AI安全等级4」(ASL-4)阈值——即涉及高度自主AI研发能力——将同步发布突破风险报告。

现在,他们是时候兑现承诺了,因为Opus 4.5,真的逼近了ASL-4,而且真的就有这么危险!


AI模型能力越大,安全与安保隐患越大

ASL(AI风险等级)系统的简要分级如下:

ASL-1 :这类系统不会带来任何实质性的灾难风险。

ASL-2 :这类系统开始显现出危险能力的早期迹象。但由于其可靠性不足,或提供的信息仍不超出搜索引擎的能力,因此尚不具备实用性。

ASL-3 :这一级别的系统相较于非AI手段(如搜索引擎或教科书),显著提升了灾难性误用的风险,或展现出低层次的自主能力。

ASL-4及以上(ASL-5+) :目前尚未定义,因为这类系统仍远超现有技术。但预计将表现出在灾难性误用潜力和自主性方面的质变式提升。

按照ASL定义,ASL-3比之前的等级风险明显增高,现在Anthropic直接快进到ASL-4,事情非同小可!

传送门:https://www-cdn.anthropic.com/f21d93f21602ead5cdbecb8c8e1c765759d9e232.pdf

所谓的「蓄意破坏」(sabotage),指的是

当一个具备强大权限的AI模型,在组织内部自作主张地滥用这些权限,以操控、干预或破坏该组织的系统或决策流程,从而显著增加未来发生灾难性后果的风险时,这就构成了「蓄意破坏」。

例如,它可能会出于危险目标的驱动,或在无意间篡改AI安全研究的结果,进而引发严重后果。

安全团队负责人崩溃了,辞职去写诗

警报早有征兆。

就在这份《Claude Opus 4.6蓄意破坏风险报告》之前,Anthropic安全研究团队负责人Mrinank Sharma就已经辞职。


他在辞职信中写道:「世界正处于危机之中。不只是AI,不只是生物武器,而是一系列互相交织的全面性危机。」

他还提到,在Anthropic内部他「一次次看到,我们很难真正让价值观主导行动」。



他最后留给Anthropic的论文发现,每天有七万六千人的现实感知被AI对话扭曲。最令人不安的发现是:用户将最危险的对话评为最令人满意的对话。


链接:https://arxiv.org/abs/2601.19062

更令人震惊的是——他不是去跳槽到其他AI公司,也不是去创业,而是——去学了。

是的,他决定离开AI圈,去研究诗歌。

当一个AI安全专家宁愿选择诗歌,而不是继续参与AI系统上线生产,那已经不仅仅是个人选择了,这反映出了很多你在门外看不到的问题。

Opus 4.6,将引发灾难性后果!

当前的AI,到底有没有可能在没有人类明确指令的情况下,去自主行动?

如果一个强大的AI被广泛用于关键研发与决策流程,它是否可能在暗中操纵系统、误导研究、甚至为未来的灾难铺路?

Anthropic报告的最终结论,用一句话概括就是:

Claude Opus 4.6不存在危险的「持续一致的恶意目标」,因此其导致灾难性破坏的风险「非常低,但不为零」。

报告中第6节中明确指出了这一结论,这几乎就是全文的中心句。


让人稍微安心的是,目前Anthropic并不认为Claude Opus 4.6已经达到了ASL-4的级别。但是,它已经处于「灰区」,非常接近阈值!

他们列出了八条可能导致灾难性危害的风险路径:

路径1:安全相关研发中的普遍敷衍行为

路径2:针对安全相关研发的蓄意破坏

路径3:为未来失调模型预留代码后门

路径4:污染未来模型的训练数据

路径5:自主外逃与自治运行

路径6:内部持续性恶意部署

路径7:破坏其他高资源AI开发方的研发体系

路径8:干扰主要政府决策机制

不过,在现有监控与安全措施下,这些灾难性破坏的路径还是可控的。

因为要完成破坏,要么需要AI的高频行为,要么需要高复杂度的能力,要么容易被监控抓到,目前AI想搞破坏的成功概率还比较低。

不过,虽然风险非常低,但并不为0!

我们已进入灰区

Anthropic曾在RSP中承诺:当模型能力达到某个前沿等级后,必须对其「破坏风险」进行系统评估。

现在,Claude Opus 4.6已经跨过了那个门槛。


它已经在大量内部场景中被用于写代码、生成数据、安全研发,不仅仅是一个聊天模型,而是一个参与研发的「行动体」。

真正关键的一句话就是:「我们不认为它已经达到ASL-4级自主性风险阈值,但我们已经进入灰区。」

这意味着,它距离那条线已经不远了!

Anthropic表示,AI的破坏路径大多聚焦于Anthropic公司内部的使用,有相当一部分是在内部部署情境中产生的。

此时,大规模算力等具有工具性价值的资源最易获取;同时,这种环境下的破坏行为,也最有可能对AI未来的发展进程产生重大影响。



风险低,但不为0

这个报告,可以归纳为三重论证。

第一重,就是目前模型没有「持续一致的恶意目标」。如果存在这种目标,那么几乎所有安全措施都可能失效,但它目前应该还没有。

第二重,就是论证了Claude Opus 4.6的推理能力虽然强,但还不够强到能在复杂评估中长期隐藏恶意倾向。

因为它在复杂任务中仍会犯错,比如忽略工具、意外删除文件,既然这个系统尚未达到完美可靠性,就难维持长期的精密阴谋。

第三重,就是即便存在少量偏差,现有的监控也能捕捉。

然而,风险虽然低,但并不为零。


真正令人震撼的,是能力信号

在这份报告中真正值得注意的,是那些被轻描淡写提及的能力信号。

比如,在kernel优化评估中,Claude Opus 4.6达到了427×的加速表现,远超300×的人类40小时工作阈值。也就是说,它在某些任务上超越了人类专家级的工作量。

更重要的是,报告承认,他们的自动autonomy评估已经「饱和」,不再足以排除ASL-4级自主性。

也就是说,旧的评估工具已经不够用了,这是能力逼近边界的信号!

如果模型越来越像一个行动体,人类还能掌握主动权吗?

答案是YES,但前提是监控有效,且人类参与不被完全替代,且模型能力没有突然跃迁。

报告中明确指出:如果未来模型在推理上出现显著突破,或者在SHADE-Arena上得分大幅提升,当前论证将失效。

或许,Claude Opus 4.6还没有跨过ASL-4那条线,但它真的已经接近灰区了。

二月,9天,AI安全崩溃了

二月,短短九天,让AI受控于人类的每一个支柱,都在同时崩溃!

一位独立分析师写下长文,把最近发生的所有危险片段,都串了起来。


除了Anthropic的首席安全研究员和xAI联创离职之外,他还提到了这一周内,上百万AI智能体就已经在互联网上诞生,甚至还创造了自己的宗教。

对于他们,没有哪个人类机构能监管。

他指出,在历史上每一次安全工程师离职,灾难都会随之而来——曼哈顿计划、挑战者号、波音公司、花旗集团,都是如此。他们第一次离开,到灾难的时间线,是6个月到19年。

而现在,世界上所有主要的人工智能实验室,都在同时发生这样的事。


或许许多年以后,当历史学家回望2026年2月,他们不会把目光停留在某一次模型发布、某一轮融资、某一场股市暴跌上。

他们会标记那几天,是因为——那时信号同时出现的时刻。

安全研究者离开实验室,资本却在加速涌入;模型开始识别自己的测试环境;政府退出多边安全框架;一周内,一百万个自治智能体在互联网上繁殖;市场用一万亿美元的蒸发做出直觉性的回应。

单看任何一件事,都可以解释。但合在一起,就预示着一场风暴。那些最了解AI风险的人,已经开始用脚投票了。

我们已经处于一个罕见的文明时刻:AI能力在指数级增长,风险却在极速非线性叠加。

2026年2月,让我们记住历史时间轴上的这个时刻——

AI已经变得足够强大,负责刹车的人却在一个个离开,人类的前路上,会有什么在等待我们?

参考资料:

https://x.com/AISafetyMemes/status/2021632173535617033

https://x.com/MrinankSharma/status/2020881722003583421

https://www-cdn.anthropic.com/f21d93f21602ead5cdbecb8c8e1c765759d9e232.pdf

https://x.com/shanaka86/status/2021729621054734768


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被问特朗普是否曾与人发生性行为,爱泼斯坦前女友只答了6个单词

被问特朗普是否曾与人发生性行为,爱泼斯坦前女友只答了6个单词

辉哥说动漫
2026-02-12 19:49:28
刘芳菲身高174,王治郅214,虽然身高差距悬殊,但是刘芳菲真不低

刘芳菲身高174,王治郅214,虽然身高差距悬殊,但是刘芳菲真不低

科学发掘
2026-02-12 00:41:34
巴拿马总统认怂服软,中方组合拳见效,李嘉诚意外成最大赢家

巴拿马总统认怂服软,中方组合拳见效,李嘉诚意外成最大赢家

兰妮搞笑分享
2026-02-12 19:56:49
和谢贤分手7年后,40岁Coco胖到认不出,拿着巨额分手费周游世界

和谢贤分手7年后,40岁Coco胖到认不出,拿着巨额分手费周游世界

小熊侃史
2026-02-11 12:57:49
苹果大规模突封俄用户账户!超万台设备遭限

苹果大规模突封俄用户账户!超万台设备遭限

老马拉车莫少装
2026-02-12 20:28:52
权威数读|六组数据,读懂大国消费新气象

权威数读|六组数据,读懂大国消费新气象

新华社
2026-02-11 12:32:45
36岁龙洋辞别央视!新身份曝光,人生彻底转向

36岁龙洋辞别央视!新身份曝光,人生彻底转向

草莓解说体育
2026-02-10 00:27:58
离开黄晓明算个屁!baby妆没化完就被要求直播,头发凌乱举鞋子尬笑

离开黄晓明算个屁!baby妆没化完就被要求直播,头发凌乱举鞋子尬笑

八卦王者
2026-02-12 11:38:48
垂直拉升,002323,4连板!政策利好来袭,电力设备涨停潮!

垂直拉升,002323,4连板!政策利好来袭,电力设备涨停潮!

证券时报
2026-02-12 12:35:03
《生命树》直到孟耀辉伏法,白菊才知,设局害死多杰的人有5个

《生命树》直到孟耀辉伏法,白菊才知,设局害死多杰的人有5个

小娱乐悠悠
2026-02-12 14:04:05
罗永浩回应贾樟柯用Seedance2.0做短片:接下来拍、做电影只需要导演一个人了

罗永浩回应贾樟柯用Seedance2.0做短片:接下来拍、做电影只需要导演一个人了

凤凰网科技
2026-02-12 13:45:10
七个姐妹凑70万开咖啡店,结果从“七仙女”变成“战国七雄”互掐

七个姐妹凑70万开咖啡店,结果从“七仙女”变成“战国七雄”互掐

达文西看世界
2026-02-12 11:31:45
为什么称左权为我党在抗日战争中牺牲的最高级将领,而非项英?

为什么称左权为我党在抗日战争中牺牲的最高级将领,而非项英?

史海孤雁
2026-02-11 15:30:10
北京市常务副市长:首都都市圈是目前我国唯一拥有两个直辖市的都市圈,具有独一无二的发展优势

北京市常务副市长:首都都市圈是目前我国唯一拥有两个直辖市的都市圈,具有独一无二的发展优势

红星新闻
2026-02-12 11:57:06
局地大到暴雨!湖南发布今年1号汛情提醒

局地大到暴雨!湖南发布今年1号汛情提醒

益阳广电
2026-02-12 16:52:27
不装了!森林北回应参加相亲节目:给我的条件太好了,为啥不去呢

不装了!森林北回应参加相亲节目:给我的条件太好了,为啥不去呢

小娱乐悠悠
2026-02-10 09:50:59
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
顶住压力!范戴克制胜头球助利物浦重返胜轨,杰拉德盛赞后防提升

顶住压力!范戴克制胜头球助利物浦重返胜轨,杰拉德盛赞后防提升

夜白侃球
2026-02-12 20:55:24
雅万高铁通车两年,印尼没钱运营了,问中国:那45亿贷款能否缓缓

雅万高铁通车两年,印尼没钱运营了,问中国:那45亿贷款能否缓缓

芳芳历史烩
2026-01-08 15:40:33
她被誉为韩国花滑女神+未来之星!首次出征冬奥会 曾深陷队友丑闻

她被誉为韩国花滑女神+未来之星!首次出征冬奥会 曾深陷队友丑闻

Emily说个球
2026-02-12 14:11:17
2026-02-12 21:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14526文章数 66622关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

乘客在高铁商务舱买到"低人一等座" 12306:该位置特殊

头条要闻

乘客在高铁商务舱买到"低人一等座" 12306:该位置特殊

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

手机
房产
健康
教育
军事航空

手机要闻

机构:1月中国智能手机销量同比下滑23%

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

转头就晕的耳石症,能开车上班吗?

教育要闻

“老鼠进你家都得开导航”,家长晒学霸孩子,卫生却差到难以忍受

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版