网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

刚刚，Anthropic 53页绝密报告曝光：Claude自我逃逸，将引爆全球灾难！

2026-02-12 16:13:11　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：Aeneas KingHZ

【新智元导读】就在刚刚，Anthropic发出最强预警：Claude模型已经达到ALS-4级风险，如果它自我逃逸，将引发全球的天网式崩盘。安全专家纷纷离职，预示着2026年将成为人类命运的转折点，世界已处于危难边缘！

就在刚刚，Anthropic发布53页报告，发出最强预警：如果Claude自我逃逸，将造成全球失控！

翻开这53页报告，每页上都满满写着两个字——「危险」！

是的，世界处于危难之中，天网正在诞生。

在这份报告中，Anthropic认为：Claude Opus 4.6的风险已经逼近ASL-4，是时候拉响警报了。

他们提前预警了最可怕的情况：有朝一日，AI可能会秘密逃逸出实验室，造成全球大崩溃！

这是因为，如今的AI已经太强，人们将释放出数百万个AI，赋予他们这样的目标：去生存，去升级，不惜一切代价去赚钱。

你知道，这些蜂群一夜之间会变得多么失控吗？

它们会残酷无情地进化，进行弱肉强食地竞争，以超高速吞噬生态系统，占领互联网，然后入侵人类的物理世界。

历史一再证明，当危险技术逼近边界时，最先察觉的不是公众，不是媒体，不是资本市场，而是内部安全人员。

当他们离开时，就意味着内部机制已经不足以纠偏，但AI并不会因为安全工程师的离开就停止训练，算力不会暂停扩容——他们还会继续加速！

这不是杞人忧天，现在已经有人这么干了——

预警不是太早，可能太迟了。

2026，事情越来越失控了

所有人都感觉到，2026年，真的不一样了。

这一年，很可能是一个转折点，几乎所有在科技行业工作的人，都陷入了极度焦虑，仿佛一种巨大的崩塌就在眼前。

世界上最聪明的人，已经集体陷入焦虑。

仅仅一周，就发生了下面一连串的事。

Anthropic的安全研究主管辞职，声称「世界正处于危险之中」，然后搬到英国去隐居，开始写诗。

xAI的一半联创，已经辞职。其中官宣离职的一位联创Jimmy Ba表示，我们正迈向有合适工具就能实现百倍生产力的时代，递归式自我提升循环，很可能在未来12个月内上线。

数万智能体OpenClaw发明了自己的宗教，11.9%的Agent技能被认定为恶意。无监管机构介入，也无监管机构有能力介入。

美国拒绝签署全球AI安全报告。

2026年，将会是疯狂的一年，也很可能是对人类未来具有决定性的一年！

Bengio的国际人工智能安全报告中表示，已经发现AI在测试时的行为跟在使用时的行为不同，并且确认这并非巧合。

在这个报告中，研究者们预言了2030年四个可能的情景。

其中的第四个情景，就是将发生重大突破，让AI系统在几乎所有认知维度上，都能达到或超越人类能力。AI们可能会主动禁用监控，或者用虚拟报告诱导人类，让人们以为他们很安全。

这个可能性，达到20%！

警报声已经越来越大，按响警报的人，也开始离开大楼了。

审判日，要到了吗？

Anthropic警告：

人类，将被人造之物奴役

在发布Claude Opus 4.5时，Anthropic曾承诺：当模型能力逼近其设定的「AI安全等级4」（ASL-4）阈值——即涉及高度自主AI研发能力——将同步发布突破风险报告。

现在，他们是时候兑现承诺了，因为Opus 4.5，真的逼近了ASL-4，而且真的就有这么危险！

AI模型能力越大，安全与安保隐患越大

ASL（AI风险等级）系统的简要分级如下：

ASL-1 ：这类系统不会带来任何实质性的灾难风险。

ASL-2 ：这类系统开始显现出危险能力的早期迹象。但由于其可靠性不足，或提供的信息仍不超出搜索引擎的能力，因此尚不具备实用性。

ASL-3 ：这一级别的系统相较于非AI手段（如搜索引擎或教科书），显著提升了灾难性误用的风险，或展现出低层次的自主能力。

ASL-4及以上（ASL-5+）：目前尚未定义，因为这类系统仍远超现有技术。但预计将表现出在灾难性误用潜力和自主性方面的质变式提升。

按照ASL定义，ASL-3比之前的等级风险明显增高，现在Anthropic直接快进到ASL-4，事情非同小可！

传送门：https://www-cdn.anthropic.com/f21d93f21602ead5cdbecb8c8e1c765759d9e232.pdf

所谓的「蓄意破坏」（sabotage），指的是

当一个具备强大权限的AI模型，在组织内部自作主张地滥用这些权限，以操控、干预或破坏该组织的系统或决策流程，从而显著增加未来发生灾难性后果的风险时，这就构成了「蓄意破坏」。

例如，它可能会出于危险目标的驱动，或在无意间篡改AI安全研究的结果，进而引发严重后果。

安全团队负责人崩溃了，辞职去写诗

警报早有征兆。

就在这份《Claude Opus 4.6蓄意破坏风险报告》之前，Anthropic安全研究团队负责人Mrinank Sharma就已经辞职。

他在辞职信中写道：「世界正处于危机之中。不只是AI，不只是生物武器，而是一系列互相交织的全面性危机。」

他还提到，在Anthropic内部他「一次次看到，我们很难真正让价值观主导行动」。

他最后留给Anthropic的论文发现，每天有七万六千人的现实感知被AI对话扭曲。最令人不安的发现是：用户将最危险的对话评为最令人满意的对话。

链接：https://arxiv.org/abs/2601.19062

更令人震惊的是——他不是去跳槽到其他AI公司，也不是去创业，而是——去学诗了。

是的，他决定离开AI圈，去研究诗歌。

当一个AI安全专家宁愿选择诗歌，而不是继续参与AI系统上线生产，那已经不仅仅是个人选择了，这反映出了很多你在门外看不到的问题。

Opus 4.6，将引发灾难性后果！

当前的AI，到底有没有可能在没有人类明确指令的情况下，去自主行动？

如果一个强大的AI被广泛用于关键研发与决策流程，它是否可能在暗中操纵系统、误导研究、甚至为未来的灾难铺路？

Anthropic报告的最终结论，用一句话概括就是：

Claude Opus 4.6不存在危险的「持续一致的恶意目标」，因此其导致灾难性破坏的风险「非常低，但不为零」。

报告中第6节中明确指出了这一结论，这几乎就是全文的中心句。

让人稍微安心的是，目前Anthropic并不认为Claude Opus 4.6已经达到了ASL-4的级别。但是，它已经处于「灰区」，非常接近阈值！

他们列出了八条可能导致灾难性危害的风险路径：

路径1：安全相关研发中的普遍敷衍行为

路径2：针对安全相关研发的蓄意破坏

路径3：为未来失调模型预留代码后门

路径4：污染未来模型的训练数据

路径5：自主外逃与自治运行

路径6：内部持续性恶意部署

路径7：破坏其他高资源AI开发方的研发体系

路径8：干扰主要政府决策机制

不过，在现有监控与安全措施下，这些灾难性破坏的路径还是可控的。

因为要完成破坏，要么需要AI的高频行为，要么需要高复杂度的能力，要么容易被监控抓到，目前AI想搞破坏的成功概率还比较低。

不过，虽然风险非常低，但并不为0！

我们已进入灰区

Anthropic曾在RSP中承诺：当模型能力达到某个前沿等级后，必须对其「破坏风险」进行系统评估。

现在，Claude Opus 4.6已经跨过了那个门槛。

它已经在大量内部场景中被用于写代码、生成数据、安全研发，不仅仅是一个聊天模型，而是一个参与研发的「行动体」。

真正关键的一句话就是：「我们不认为它已经达到ASL-4级自主性风险阈值，但我们已经进入灰区。」

这意味着，它距离那条线已经不远了！

Anthropic表示，AI的破坏路径大多聚焦于Anthropic公司内部的使用，有相当一部分是在内部部署情境中产生的。

此时，大规模算力等具有工具性价值的资源最易获取；同时，这种环境下的破坏行为，也最有可能对AI未来的发展进程产生重大影响。

风险低，但不为0

这个报告，可以归纳为三重论证。

第一重，就是目前模型没有「持续一致的恶意目标」。如果存在这种目标，那么几乎所有安全措施都可能失效，但它目前应该还没有。

第二重，就是论证了Claude Opus 4.6的推理能力虽然强，但还不够强到能在复杂评估中长期隐藏恶意倾向。

因为它在复杂任务中仍会犯错，比如忽略工具、意外删除文件，既然这个系统尚未达到完美可靠性，就难维持长期的精密阴谋。

第三重，就是即便存在少量偏差，现有的监控也能捕捉。

然而，风险虽然低，但并不为零。

真正令人震撼的，是能力信号

在这份报告中真正值得注意的，是那些被轻描淡写提及的能力信号。

比如，在kernel优化评估中，Claude Opus 4.6达到了427×的加速表现，远超300×的人类40小时工作阈值。也就是说，它在某些任务上超越了人类专家级的工作量。

更重要的是，报告承认，他们的自动autonomy评估已经「饱和」，不再足以排除ASL-4级自主性。

也就是说，旧的评估工具已经不够用了，这是能力逼近边界的信号！

如果模型越来越像一个行动体，人类还能掌握主动权吗？

答案是YES，但前提是监控有效，且人类参与不被完全替代，且模型能力没有突然跃迁。

报告中明确指出：如果未来模型在推理上出现显著突破，或者在SHADE-Arena上得分大幅提升，当前论证将失效。

或许，Claude Opus 4.6还没有跨过ASL-4那条线，但它真的已经接近灰区了。

二月，9天，AI安全崩溃了

二月，短短九天，让AI受控于人类的每一个支柱，都在同时崩溃！

一位独立分析师写下长文，把最近发生的所有危险片段，都串了起来。

除了Anthropic的首席安全研究员和xAI联创离职之外，他还提到了这一周内，上百万AI智能体就已经在互联网上诞生，甚至还创造了自己的宗教。

对于他们，没有哪个人类机构能监管。

他指出，在历史上每一次安全工程师离职，灾难都会随之而来——曼哈顿计划、挑战者号、波音公司、花旗集团，都是如此。他们第一次离开，到灾难的时间线，是6个月到19年。

而现在，世界上所有主要的人工智能实验室，都在同时发生这样的事。

或许许多年以后，当历史学家回望2026年2月，他们不会把目光停留在某一次模型发布、某一轮融资、某一场股市暴跌上。

他们会标记那几天，是因为——那时信号同时出现的时刻。

安全研究者离开实验室，资本却在加速涌入；模型开始识别自己的测试环境；政府退出多边安全框架；一周内，一百万个自治智能体在互联网上繁殖；市场用一万亿美元的蒸发做出直觉性的回应。

单看任何一件事，都可以解释。但合在一起，就预示着一场风暴。那些最了解AI风险的人，已经开始用脚投票了。

我们已经处于一个罕见的文明时刻：AI能力在指数级增长，风险却在极速非线性叠加。

2026年2月，让我们记住历史时间轴上的这个时刻——

AI已经变得足够强大，负责刹车的人却在一个个离开，人类的前路上，会有什么在等待我们？

参考资料：

https://x.com/AISafetyMemes/status/2021632173535617033

https://x.com/MrinankSharma/status/2020881722003583421

https://www-cdn.anthropic.com/f21d93f21602ead5cdbecb8c8e1c765759d9e232.pdf

https://x.com/shanaka86/status/2021729621054734768

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

体验完智谱刚刚发布的 GLM-5，我终于明白它为什么让硅谷猜破了头

爱范儿 2026-02-12 13:45:23
3 跟贴 3
DeepAgent与DeepSearch霸榜！答案指向openJiuwen这一开源项目

机器之心Pro 2026-02-12 15:22:03
2 跟贴 2

速度提升，能力却暴跌？扩散模型做智能体的残酷真相

机器之心Pro 2026-02-12 14:19:24
0 跟贴 0

马斯克谈Seedance 2.0：发展速度太快

财联社 2026-02-12 13:40:07
4 跟贴 4
春节档国产AI模型混战开打，MiniMax-M2.5上线，随手做“苹果系统”

智东西 2026-02-12 20:29:02
0 跟贴 0

小米的首代机器人VLA大模型来了！丝滑赛德芙，推理延迟仅80ms

量子位 2026-02-12 20:49:24
0 跟贴 0

Seedance 2.0传到美国，导演用后惊呼“好莱坞完蛋了”，外国网友纷纷求下载！最新消息：豆包官宣接入

每日经济新闻 2026-02-12 21:02:06
0 跟贴 0
谁在影响AI的答案？每经AI智库携手各方启动负责任GEO倡议征集

每日经济新闻 2026-02-12 21:05:23
0 跟贴 0

赌石有风险请勿赌石

秋Tian动漫 2026-02-08 02:16:32
2 跟贴 2
玉渊谭天：奉劝法国别酒不醉人人自醉

北京日报 2026-02-12 08:22:18
5341 跟贴 5341
曹操为什么执意要杀掉华佗？12年后才发现，他的决策是正确的

顾史 2026-02-12 19:38:47
0 跟贴 0
要求餐厅改台阶为斜坡竟留安全隐患

阿鳓追剧 2026-02-10 09:05:44
1 跟贴 1
054B舰首升级+火箭架撤装，中国海军装备体系迈向精准化时代

施涛说 2026-02-11 14:30:33
5 跟贴 5
女子和男友生气，直接给自己气成模型了，男友差点笑进ICU

甜心萌物酱i 2026-02-08 16:31:24
0 跟贴 0
Splunk CISO分享政治竞选活动网络安全实践经验

至顶头条 2026-02-12 16:22:04
0 跟贴 0
巴基斯坦军方激战两天两夜，取得前所未有大捷，大批叛军就地伏诛

飞花逐月大帝 2026-02-09 18:56:01
1 跟贴 1
用seedance2模型一小时手搓地狱尖兵战争大片

小朋友手工 2026-02-11 03:29:04
0 跟贴 0
安阳市龙安区马家乡开展春节前超市消防安全专项检查

大象新闻 2026-02-12 11:09:07
0 跟贴 0
河南一企业春节放假21天，“禁止加班、禁止打扰同事”，老板回应：员工放假，自己家人守厂，去年奖励多名员工高考子女手机及现金

极目新闻 2026-02-11 21:45:38
2422 跟贴 2422
报告：近六成日企计划今年扩大或维持对华投资

第一财经资讯 2026-02-12 11:01:30
1190 跟贴 1190
2月12日看点：短道速滑再演“中韩大战”

文汇报 2026-02-12 04:06:17
189 跟贴 189
上海集中开展“整治AI涉企虚假不实信息”专项行动

财联社 2026-02-12 18:54:07
0 跟贴 0
无锡高新区领导开展春节前安全生产检查

无锡高新区在线 2026-02-12 12:17:56
0 跟贴 0
中国运动员头部冲下摔倒本人晒照回应伤情

封面新闻 2026-02-12 12:45:20
167 跟贴 167
网友反映寄往海南的快递受阻，有人接到商家退货退款电话，多家平台回应

极目新闻 2026-02-12 15:41:55
0 跟贴 0
荷兰数据保护局遭遇Ivanti零日攻击后主动报告数据泄露

至顶AI实验室 2026-02-12 16:56:16
0 跟贴 0
寒假助力家长守护上网安全，腾讯多场景升级未成年人网络保护

环球网资讯 2026-02-12 16:47:18
0 跟贴 0
春运第一周58条中日航线取消全部航班

第一财经资讯 2026-02-12 03:20:29
433 跟贴 433
北京：鼓励商业保险公司和医药企业探索按疗效付费、分期支付等多元支付模式

财联社 2026-02-12 20:55:16
0 跟贴 0
长江和记：邀请巴拿马就港口问题磋商

界面新闻 2026-02-12 18:41:33
255 跟贴 255
新农股份董事王湛钦减持1.5万股，减持金额32.76万元

每日经济新闻 2026-02-12 21:19:05
0 跟贴 0
“世界怎么了、我们怎么办”

上观新闻 2026-02-12 20:59:07
0 跟贴 0
孩子扔爆竹引燃千年古树，别再用“年纪小”纵容危险行为

中国青年报 2026-02-12 20:38:20
0 跟贴 0
第1现场｜热带气旋“格扎尼”袭击马达加斯加，已进入“国家灾难状态”

澎湃新闻 2026-02-12 15:50:27
0 跟贴 0
闪评 | 慕尼黑安全会议即将召开谁是“破坏性政治”的祸根？

国际在线 2026-02-12 20:22:05
0 跟贴 0
禁燃区放烟花，新余多人被罚！

微聚新余 2026-02-12 20:47:05
0 跟贴 0
4死3伤！盲目施救酿惨剧，安全不是儿戏！

眼界看视野 2026-02-12 20:44:27
0 跟贴 0
曝光！大理市这些高层建筑存在消防隐患（第四期）

大理融媒 2026-02-12 21:07:23
0 跟贴 0
3000 万、“政务·数字应急”大单

云头条 2026-02-12 20:45:45
0 跟贴 0
闪评 | 美国以能源为筹码推动俄乌和平进程可行吗？

国际在线 2026-02-12 20:06:14
0 跟贴 0

被问特朗普是否曾与人发生性行为，爱泼斯坦前女友只答了6个单词

被问特朗普是否曾与人发生性行为，爱泼斯坦前女友只答了6个单词

辉哥说动漫

2026-02-12 19:49:28

刘芳菲身高174，王治郅214，虽然身高差距悬殊，但是刘芳菲真不低

刘芳菲身高174，王治郅214，虽然身高差距悬殊，但是刘芳菲真不低

科学发掘

2026-02-12 00:41:34

巴拿马总统认怂服软，中方组合拳见效，李嘉诚意外成最大赢家

巴拿马总统认怂服软，中方组合拳见效，李嘉诚意外成最大赢家

兰妮搞笑分享

2026-02-12 19:56:49

和谢贤分手7年后，40岁Coco胖到认不出，拿着巨额分手费周游世界

和谢贤分手7年后，40岁Coco胖到认不出，拿着巨额分手费周游世界

小熊侃史

2026-02-11 12:57:49

苹果大规模突封俄用户账户！超万台设备遭限

苹果大规模突封俄用户账户！超万台设备遭限

老马拉车莫少装

2026-02-12 20:28:52

权威数读｜六组数据，读懂大国消费新气象

权威数读｜六组数据，读懂大国消费新气象

新华社

2026-02-11 12:32:45

36岁龙洋辞别央视！新身份曝光，人生彻底转向

36岁龙洋辞别央视！新身份曝光，人生彻底转向

草莓解说体育

2026-02-10 00:27:58

离开黄晓明算个屁!baby妆没化完就被要求直播,头发凌乱举鞋子尬笑

离开黄晓明算个屁!baby妆没化完就被要求直播,头发凌乱举鞋子尬笑

八卦王者

2026-02-12 11:38:48

垂直拉升，002323，4连板！政策利好来袭，电力设备涨停潮！

垂直拉升，002323，4连板！政策利好来袭，电力设备涨停潮！

证券时报

2026-02-12 12:35:03

《生命树》直到孟耀辉伏法，白菊才知，设局害死多杰的人有5个

《生命树》直到孟耀辉伏法，白菊才知，设局害死多杰的人有5个

小娱乐悠悠

2026-02-12 14:04:05

罗永浩回应贾樟柯用Seedance2.0做短片：接下来拍、做电影只需要导演一个人了

罗永浩回应贾樟柯用Seedance2.0做短片：接下来拍、做电影只需要导演一个人了

凤凰网科技

2026-02-12 13:45:10

七个姐妹凑70万开咖啡店，结果从“七仙女”变成“战国七雄”互掐

七个姐妹凑70万开咖啡店，结果从“七仙女”变成“战国七雄”互掐

达文西看世界

2026-02-12 11:31:45

为什么称左权为我党在抗日战争中牺牲的最高级将领，而非项英？

为什么称左权为我党在抗日战争中牺牲的最高级将领，而非项英？

史海孤雁

2026-02-11 15:30:10

北京市常务副市长：首都都市圈是目前我国唯一拥有两个直辖市的都市圈，具有独一无二的发展优势

北京市常务副市长：首都都市圈是目前我国唯一拥有两个直辖市的都市圈，具有独一无二的发展优势

红星新闻

2026-02-12 11:57:06

局地大到暴雨！湖南发布今年1号汛情提醒

局地大到暴雨！湖南发布今年1号汛情提醒

益阳广电

2026-02-12 16:52:27

不装了！森林北回应参加相亲节目：给我的条件太好了，为啥不去呢

不装了！森林北回应参加相亲节目：给我的条件太好了，为啥不去呢

小娱乐悠悠

2026-02-10 09:50:59

高峰也没想到，他当年抛弃的儿子，如今开始给那英争光了

高峰也没想到，他当年抛弃的儿子，如今开始给那英争光了

趣文说娱

2026-01-04 16:34:24

顶住压力！范戴克制胜头球助利物浦重返胜轨，杰拉德盛赞后防提升

顶住压力！范戴克制胜头球助利物浦重返胜轨，杰拉德盛赞后防提升

夜白侃球

2026-02-12 20:55:24

雅万高铁通车两年，印尼没钱运营了，问中国：那45亿贷款能否缓缓

雅万高铁通车两年，印尼没钱运营了，问中国：那45亿贷款能否缓缓

芳芳历史烩

2026-01-08 15:40:33

她被誉为韩国花滑女神+未来之星！首次出征冬奥会曾深陷队友丑闻

她被誉为韩国花滑女神+未来之星！首次出征冬奥会曾深陷队友丑闻

Emily说个球

2026-02-12 14:11:17

AI产业主平台领航智能+时代

14526文章数 66622关注度

往期回顾全部

科技要闻

10倍速的一夜：三大模型春节前的暗战

头条要闻

乘客在高铁商务舱买到"低人一等座" 12306:该位置特殊

头条要闻

乘客在高铁商务舱买到"低人一等座" 12306:该位置特殊

体育要闻

31岁首次参加冬奥，10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科？

汽车要闻

开212 T01柴油版去穿越连牧马人都跟不上

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

房产

健康

教育

军事航空

手机要闻

机构：1月中国智能手机销量同比下滑23%

房产要闻

999元开线上免税店?海南爆出免税大骗局，多人已被抓！

转头就晕的耳石症，能开车上班吗？

教育要闻

“老鼠进你家都得开导航”，家长晒学霸孩子，卫生却差到难以忍受

军事要闻

特朗普：若美伊谈判失败或再派一支航母打击群

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版