Anthropic把最强模型锁进保险箱：3千份文件泄露后|电子表格|anthropic

Anthropic把最强模型锁进保险箱：3千份文件泄露后

2026-04-11 09:59:07　来源: 摸鱼算法

北京举报

分享至

3月26日，一位安全研究员在Anthropic的服务器上发现了一个没上锁的仓库。近3000份内部文件裸奔在互联网上，零认证，随便下载。

草稿博客、内部备忘录、产品发布计划——全部摊开。其中有一份文档格外刺眼：一个代号Capybara、对外称Claude Mythos的未发布模型。Anthropic没否认，发言人确认了正在开发，在推理、编程、网络安全方面有"实质性进展"。但他们没说的是，这个"进展"到底多实质性。

4月7日的官宣，像一份自我否定的判决书

Anthropic正式承认Claude Mythos Preview存在。这是他们最强的模型，超越Claude Opus 4.6，在多个基准测试上压过Gemini 3.1。然后他们宣布：不会向公众发布。

这个决定本身，比模型能力更值得拆解。

让Anthropic按下暂停键的核心能力，是Mythos找软件漏洞的本事。不是偶尔灵光一现，不是时灵时不灵，而是系统性地、规模化地发现安全缺陷。文档显示，它在网络安全基准测试中的表现，足以让专业红队队员感到压力。

问题就出在这里。一个能自动挖掘零日漏洞的AI，如果落入不对的人手里，相当于给全球软件基础设施发了一份"攻击指南"。Anthropic自己就是搞AI安全的，这个悖论他们比谁都清楚。

能力越强，锁链越重：AI公司的"自废武功"困境

这不是Anthropic第一次面对这种选择。2023年他们发布Claude 2时，就主动限制了上下文窗口，理由是"防止滥用"。但那次是缩水发布，这次是彻底雪藏。

行业里有条不成文的线。OpenAI的GPT-4训练完成后，内部花了六个月做安全评估。DeepMind的AlphaFold2开源前，专门成立了伦理审查委员会。但这些都是"延迟发布"，不是"取消发布"。

Mythos的不同在于，它的危险性和实用性是同一枚硬币的两面。你想让它帮企业做渗透测试？可以。但它做渗透测试的能力，和攻击能力用的是同一套神经网络权重。

Anthropic CEO Dario Amodei曾在2023年的博客中写道：「某些能力一旦存在，就不存在'只给好人用'的技术方案。」这句话现在读起来像提前写好的注脚。

竞争对手不会停：安全研究者的"囚徒困境"

Anthropic选择自我约束，不代表别人会跟。

就在Mythos文档泄露的同一周，OpenAI被曝正在训练代号"Orion"的下一代模型，重点强化代码生成能力。Google DeepMind的AlphaCode 2已经在编程竞赛中击败85%的人类选手。中国的Qwen2.5-Coder-32B在部分安全测试上的表现，接近Mythos泄露文档中描述的水平。

这就形成了一个诡异的局面：最重视AI安全的公司，主动退出了这场军备竞赛的最前沿。而他们的对手，没有表现出同等的克制。

一位前Anthropic安全研究员在X上评论：「我们像是在拆炸弹，但隔壁工位的人在造更大的炸弹，还开了直播。」

更现实的威胁是"能力扩散"，不是"模型泄露"。

Mythos本身被锁住了，但它证明的技术路径是公开的。论文会发，博客会写，学术会议上的PPT一张不会少。其他团队可以复现这个方向，只是没有Anthropic算出来的具体参数。

在AI领域，这通常意味着6到18个月的滞后。考虑到全球有数十个团队在做类似的安全研究，Mythos的"不发布"可能只换来一段短暂的安全窗口。

用户端的代价：谁在为"安全"买单

Claude Mythos Preview目前只向"选定的研究人员"开放，申请流程未公开。普通开发者和企业用户能用的最强模型，仍然是Opus 4.6。

这意味着什么？如果你在用一个AI辅助代码审计，它能发现的漏洞深度是有天花板的。而这个天花板，是Anthropic人为设置的。

一位在金融科技公司做安全架构的读者告诉我，他的团队原本期待Mythos能帮他们自动化一部分合规检查。"现在我们要么继续用人工，要么冒险用开源模型——那些模型的'对齐'程度，你懂的。"

Anthropic不是没给替代方案。他们同期发布了Claude Code Ultraplan，一个编程辅助工具。但Ultraplan的定位是"提高开发效率"，不是"发现安全缺陷"。两者的能力差距，大概相当于家用烟雾报警器和消防队热成像仪的区别。

泄露事件的余波：透明度的悖论

回到3月26日的数据泄露。讽刺的是，这次泄露让外界知道了Mythos的存在，也间接迫使Anthropic提前官宣。如果没有这个安全漏洞，我们可能要到年底才会听说这个项目。

Anthropic事后修补了配置错误，并向部分受影响的用户发了通知。但泄露的文档已经传遍技术论坛，其中关于Mythos能力的具体描述，成了其他研究团队的路标。

一位参与过类似模型评估的安全工程师说：「最理想的保密是没人知道有东西要保密。一旦泄露，'不发布'的决定反而成了广告——所有人都在猜，被锁起来的东西到底有多强。」

这种猜测本身就有代价。它让"AI能力天花板在哪"这个问题，从可验证的技术讨论，变成了阴谋论式的揣测。

更深层的问题：谁来定义"太危险"？

Anthropic给自己发了张"安全牌照"，但牌照的签发标准并不透明。Mythos的评估报告没有公开，"选定研究人员"的筛选 criteria 也没公布。外界只能相信，这家公司的安全委员会做出了正确的判断。

这种信任在2024年已经受过考验。当时Anthropic的"负责任扩展政策"（Responsible Scaling Policy）被内部员工批评为"自我监管的遮羞布"。Mythos的决定，可以看作是对这种批评的回应——他们确实在"负责任"和"扩展"之间选了前者。

但"负责任"的代价是市场份额。企业客户不会因为你"道德高尚"就多付钱，他们只会转向功能更强的竞争对手。Anthropic 2024年的收入增速已经落后于OpenAI和Google，Mythos的雪藏可能让差距继续拉大。

Dario Amodei在最近的播客中承认：「短期看，这让我们处于竞争劣势。但如果我们发布了某个造成重大损害的系统，公司本身可能就不存在了。」

这种算法很冷酷：预期损失 = 损害概率 × 损害规模。当损害规模可能是"全球软件基础设施崩溃"时，哪怕概率很低，预期损失也足够让任何理性的CEO按下暂停键。

行业分叉点：两条路线，两种未来

Mythos事件暴露了一个正在撕裂AI行业的分歧。

一条路线是"能力优先"：先做出最强的模型，再想办法加护栏。OpenAI、xAI、部分中国公司走这条路。他们的假设是，技术领先本身就是安全——你能控制最先进的系统，就能应对它带来的风险。

另一条是"安全优先"：在能力突破某个阈值前主动刹车。Anthropic、部分DeepMind团队、一些学术机构倾向这条路线。他们的假设是，某些能力一旦释放就不可收回，预防比补救更便宜。

两条路线都没有经过实战检验。GPT-4发布两年，没有造成预言中的"生物武器设计"灾难；但也没有出现"AI解决核聚变"的突破。Mythos被锁在保险箱里，我们永远不会知道它如果发布，会是哪种剧本。

这种"不可证伪性"让争论很难有结果。支持者可以说"看，没出事说明我们太谨慎了"；反对者可以说"没出事是因为我们及时制止了"。

唯一确定的是，这个分歧正在重塑行业格局。

2024年，Anthropic的估值约为180亿美元，OpenAI是800亿。差距不仅来自技术，更来自市场对"安全溢价"的定价——目前看，这个溢价是负的。投资者愿意为"可能更快"买单，不为"可能更安全"买单。

但监管环境在变化。欧盟AI法案要求"高风险AI系统"通过合规评估，美国NIST正在制定AI风险管理框架。如果未来"安全认证"成为市场准入门槛，Anthropic的先发克制可能转化为竞争优势。

问题是，监管永远滞后于技术。在规则落地前的窗口期，"能力优先"派可以积累足够的用户锁定和数据飞轮，让后来的监管难以撼动。

一位在三家头部AI公司都工作过的产品经理告诉我：「现在就像2008年金融危机前的银行。谁都知道杠杆太高有风险，但谁先降杠杆，谁就先被收购。」

如果Anthropic的克制最终被证明是正确的，他们会成为"预见危机的英雄"还是"错失窗口的输家"？如果他们的判断是错误的，"太危险"的模型其实可以安全部署，这个先例会不会让行业陷入过度保守？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.