网易首页 > 网易号 > 正文 申请入驻

Anthropic把最强模型锁进保险箱:3千份文件泄露后

0
分享至

3月26日,一位安全研究员在Anthropic的服务器上发现了一个没上锁的仓库。近3000份内部文件裸奔在互联网上,零认证,随便下载。

草稿博客、内部备忘录、产品发布计划——全部摊开。其中有一份文档格外刺眼:一个代号Capybara、对外称Claude Mythos的未发布模型。Anthropic没否认,发言人确认了正在开发,在推理、编程、网络安全方面有"实质性进展"。但他们没说的是,这个"进展"到底多实质性。

4月7日的官宣,像一份自我否定的判决书

Anthropic正式承认Claude Mythos Preview存在。这是他们最强的模型,超越Claude Opus 4.6,在多个基准测试上压过Gemini 3.1。然后他们宣布:不会向公众发布。

这个决定本身,比模型能力更值得拆解。

让Anthropic按下暂停键的核心能力,是Mythos找软件漏洞的本事。不是偶尔灵光一现,不是时灵时不灵,而是系统性地、规模化地发现安全缺陷。文档显示,它在网络安全基准测试中的表现,足以让专业红队队员感到压力。

问题就出在这里。一个能自动挖掘零日漏洞的AI,如果落入不对的人手里,相当于给全球软件基础设施发了一份"攻击指南"。Anthropic自己就是搞AI安全的,这个悖论他们比谁都清楚。

能力越强,锁链越重:AI公司的"自废武功"困境

这不是Anthropic第一次面对这种选择。2023年他们发布Claude 2时,就主动限制了上下文窗口,理由是"防止滥用"。但那次是缩水发布,这次是彻底雪藏。

行业里有条不成文的线。OpenAI的GPT-4训练完成后,内部花了六个月做安全评估。DeepMind的AlphaFold2开源前,专门成立了伦理审查委员会。但这些都是"延迟发布",不是"取消发布"。

Mythos的不同在于,它的危险性和实用性是同一枚硬币的两面。你想让它帮企业做渗透测试?可以。但它做渗透测试的能力,和攻击能力用的是同一套神经网络权重。

Anthropic CEO Dario Amodei曾在2023年的博客中写道:「某些能力一旦存在,就不存在'只给好人用'的技术方案。」这句话现在读起来像提前写好的注脚。

竞争对手不会停:安全研究者的"囚徒困境"

Anthropic选择自我约束,不代表别人会跟。

就在Mythos文档泄露的同一周,OpenAI被曝正在训练代号"Orion"的下一代模型,重点强化代码生成能力。Google DeepMind的AlphaCode 2已经在编程竞赛中击败85%的人类选手。中国的Qwen2.5-Coder-32B在部分安全测试上的表现,接近Mythos泄露文档中描述的水平。

这就形成了一个诡异的局面:最重视AI安全的公司,主动退出了这场军备竞赛的最前沿。而他们的对手,没有表现出同等的克制。

一位前Anthropic安全研究员在X上评论:「我们像是在拆炸弹,但隔壁工位的人在造更大的炸弹,还开了直播。」

更现实的威胁是"能力扩散",不是"模型泄露"。

Mythos本身被锁住了,但它证明的技术路径是公开的。论文会发,博客会写,学术会议上的PPT一张不会少。其他团队可以复现这个方向,只是没有Anthropic算出来的具体参数。

在AI领域,这通常意味着6到18个月的滞后。考虑到全球有数十个团队在做类似的安全研究,Mythos的"不发布"可能只换来一段短暂的安全窗口。

用户端的代价:谁在为"安全"买单

Claude Mythos Preview目前只向"选定的研究人员"开放,申请流程未公开。普通开发者和企业用户能用的最强模型,仍然是Opus 4.6。

这意味着什么?如果你在用一个AI辅助代码审计,它能发现的漏洞深度是有天花板的。而这个天花板,是Anthropic人为设置的。

一位在金融科技公司做安全架构的读者告诉我,他的团队原本期待Mythos能帮他们自动化一部分合规检查。"现在我们要么继续用人工,要么冒险用开源模型——那些模型的'对齐'程度,你懂的。"

Anthropic不是没给替代方案。他们同期发布了Claude Code Ultraplan,一个编程辅助工具。但Ultraplan的定位是"提高开发效率",不是"发现安全缺陷"。两者的能力差距,大概相当于家用烟雾报警器和消防队热成像仪的区别。

泄露事件的余波:透明度的悖论

回到3月26日的数据泄露。讽刺的是,这次泄露让外界知道了Mythos的存在,也间接迫使Anthropic提前官宣。如果没有这个安全漏洞,我们可能要到年底才会听说这个项目。

Anthropic事后修补了配置错误,并向部分受影响的用户发了通知。但泄露的文档已经传遍技术论坛,其中关于Mythos能力的具体描述,成了其他研究团队的路标。

一位参与过类似模型评估的安全工程师说:「最理想的保密是没人知道有东西要保密。一旦泄露,'不发布'的决定反而成了广告——所有人都在猜,被锁起来的东西到底有多强。」

这种猜测本身就有代价。它让"AI能力天花板在哪"这个问题,从可验证的技术讨论,变成了阴谋论式的揣测。

更深层的问题:谁来定义"太危险"?

Anthropic给自己发了张"安全牌照",但牌照的签发标准并不透明。Mythos的评估报告没有公开,"选定研究人员"的筛选 criteria 也没公布。外界只能相信,这家公司的安全委员会做出了正确的判断。

这种信任在2024年已经受过考验。当时Anthropic的"负责任扩展政策"(Responsible Scaling Policy)被内部员工批评为"自我监管的遮羞布"。Mythos的决定,可以看作是对这种批评的回应——他们确实在"负责任"和"扩展"之间选了前者。

但"负责任"的代价是市场份额。企业客户不会因为你"道德高尚"就多付钱,他们只会转向功能更强的竞争对手。Anthropic 2024年的收入增速已经落后于OpenAI和Google,Mythos的雪藏可能让差距继续拉大。

Dario Amodei在最近的播客中承认:「短期看,这让我们处于竞争劣势。但如果我们发布了某个造成重大损害的系统,公司本身可能就不存在了。」

这种算法很冷酷:预期损失 = 损害概率 × 损害规模。当损害规模可能是"全球软件基础设施崩溃"时,哪怕概率很低,预期损失也足够让任何理性的CEO按下暂停键。

行业分叉点:两条路线,两种未来

Mythos事件暴露了一个正在撕裂AI行业的分歧。

一条路线是"能力优先":先做出最强的模型,再想办法加护栏。OpenAI、xAI、部分中国公司走这条路。他们的假设是,技术领先本身就是安全——你能控制最先进的系统,就能应对它带来的风险。

另一条是"安全优先":在能力突破某个阈值前主动刹车。Anthropic、部分DeepMind团队、一些学术机构倾向这条路线。他们的假设是,某些能力一旦释放就不可收回,预防比补救更便宜。

两条路线都没有经过实战检验。GPT-4发布两年,没有造成预言中的"生物武器设计"灾难;但也没有出现"AI解决核聚变"的突破。Mythos被锁在保险箱里,我们永远不会知道它如果发布,会是哪种剧本。

这种"不可证伪性"让争论很难有结果。支持者可以说"看,没出事说明我们太谨慎了";反对者可以说"没出事是因为我们及时制止了"。

唯一确定的是,这个分歧正在重塑行业格局。

2024年,Anthropic的估值约为180亿美元,OpenAI是800亿。差距不仅来自技术,更来自市场对"安全溢价"的定价——目前看,这个溢价是负的。投资者愿意为"可能更快"买单,不为"可能更安全"买单。

但监管环境在变化。欧盟AI法案要求"高风险AI系统"通过合规评估,美国NIST正在制定AI风险管理框架。如果未来"安全认证"成为市场准入门槛,Anthropic的先发克制可能转化为竞争优势。

问题是,监管永远滞后于技术。在规则落地前的窗口期,"能力优先"派可以积累足够的用户锁定和数据飞轮,让后来的监管难以撼动。

一位在三家头部AI公司都工作过的产品经理告诉我:「现在就像2008年金融危机前的银行。谁都知道杠杆太高有风险,但谁先降杠杆,谁就先被收购。」

如果Anthropic的克制最终被证明是正确的,他们会成为"预见危机的英雄"还是"错失窗口的输家"?如果他们的判断是错误的,"太危险"的模型其实可以安全部署,这个先例会不会让行业陷入过度保守?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蓝战非领奖穿着被吐槽!网友:都是千万级别网红,郭有财绅士儒雅

蓝战非领奖穿着被吐槽!网友:都是千万级别网红,郭有财绅士儒雅

火山詩话
2026-04-11 15:43:54
10人重庆铜梁龙2-1武汉三镇,赛后评分:重庆铜梁龙32号排第一

10人重庆铜梁龙2-1武汉三镇,赛后评分:重庆铜梁龙32号排第一

侧身凌空斩
2026-04-11 20:57:31
山西49岁局长在办突发疾病抢救无效离世,小儿子今年6月参加高考,妻子称丈夫常加班到凌晨两三点,出事前还接了几个工作电话

山西49岁局长在办突发疾病抢救无效离世,小儿子今年6月参加高考,妻子称丈夫常加班到凌晨两三点,出事前还接了几个工作电话

极目新闻
2026-04-11 16:04:10
这是李鸿章妻妾的真实样貌,个个美艳身材修长,颜值不输当代女星

这是李鸿章妻妾的真实样貌,个个美艳身材修长,颜值不输当代女星

阿废冷眼观察所
2026-04-11 18:41:14
网传催收大厂万乘金华分公司被端了? 信号新闻实探:是真的!是磐安县警方跨区抓的!

网传催收大厂万乘金华分公司被端了? 信号新闻实探:是真的!是磐安县警方跨区抓的!

信网
2026-04-05 21:11:16
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
国家卫健委通报10起科研失信行为

国家卫健委通报10起科研失信行为

界面新闻
2026-04-09 17:01:42
都在喊冷,特斯拉却偷偷“燃”起来了?3月Model Y销量夺第一

都在喊冷,特斯拉却偷偷“燃”起来了?3月Model Y销量夺第一

心币实验室
2026-04-10 22:10:26
70岁毕彦君:北京养老,没豪车没保姆,工资卡上交,生活低调惬意

70岁毕彦君:北京养老,没豪车没保姆,工资卡上交,生活低调惬意

白面书誏
2026-04-11 16:57:15
2-1!中超夺冠热门诞生:升班马奇迹登上榜首,5轮不败狂揽11分

2-1!中超夺冠热门诞生:升班马奇迹登上榜首,5轮不败狂揽11分

足球狗说
2026-04-11 20:58:02
新中国十位国家级女领导人

新中国十位国家级女领导人

祁州校尉
2026-04-11 09:00:31
南京保卫战打光一个团,他从死人堆里爬出来,蒋介石却要秘密处决

南京保卫战打光一个团,他从死人堆里爬出来,蒋介石却要秘密处决

野史日记
2026-04-10 21:05:05
28分钟狂砍0+0+0+0+0!还有谁能做到?

28分钟狂砍0+0+0+0+0!还有谁能做到?

小皷拍客在北漂
2026-04-11 14:33:49
仅隔三天!华为恢复员工主动离职N+1补偿

仅隔三天!华为恢复员工主动离职N+1补偿

鞭牛士
2026-04-11 07:53:39
李昀锐新剧开播零广告口碑惨淡,黄杨钿甜接替赵丽颖成全剧败笔

李昀锐新剧开播零广告口碑惨淡,黄杨钿甜接替赵丽颖成全剧败笔

暖心萌阿菇凉
2026-04-10 22:13:53
同为星二代!对比Jasper,才知道郑熙岳被养得有多糟,刘芸被骂惨

同为星二代!对比Jasper,才知道郑熙岳被养得有多糟,刘芸被骂惨

陈意小可爱
2026-04-11 15:17:00
中超积分战报:重庆铜梁龙登顶,上海海港落败,辽宁铁人补时绝平

中超积分战报:重庆铜梁龙登顶,上海海港落败,辽宁铁人补时绝平

足球狗说
2026-04-11 21:47:49
中美德“盾构机”速度差距:德国每小时6米,美国3.6米,中国呢?

中美德“盾构机”速度差距:德国每小时6米,美国3.6米,中国呢?

蜉蝣说
2026-04-08 15:30:34
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
知名网站宣布:即将停止服务!赶紧备份,退费

知名网站宣布:即将停止服务!赶紧备份,退费

环球网资讯
2026-04-10 13:35:16
2026-04-11 22:55:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1134文章数 12关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

艺术
旅游
教育
时尚
房产

艺术要闻

花6亿,烂尾12年,福建一处“顶奢别墅”,野草都长到三楼了

旅游要闻

火出圈!成都人民公园相亲角被老外包围了

教育要闻

2026年昆明幼升小 审核材料正在进行中 家长请保持手机畅通!

普通人穿衣其实很简单!构造腰线、一衣多穿,大方舒适又自然

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

无障碍浏览 进入关怀版