Anthropic：这次没公开，风向变了|信号|网络安全|anthropic

Anthropic：这次没公开，风向变了

2026-04-13 07:58:02　来源: AI深度研究员

上海举报

分享至

全文 2,000字 | 阅读约 6 分钟

（Felix Rieseberg：Mythos，让我绝对恐惧）

过去三年，AI 行业的惯例是：模型一旦有突破，立刻发布。

但这一次，Anthropic 反着做了。

他们最新模型 Claude Mythos 没有进行公测，仅向极少数合作伙伴开放，用于提前扫描并修复基础设施漏洞。

这不是一次常规的版本迭代，更像是一次主动的紧急制动。促使他们踩下刹车的，是该模型在网络安全领域展现出了超出预期的破坏力。

而这一决定释放的信号，或许比模型本身更具分量。

第一节｜为什么这次没有发布

如果只看结果，很容易将 Anthropic 的克制归结为保守。

但深究其背后的技术逻辑会发现，这并非简单的风险规避。当能力跨过某个临界点，“不发布”就成了唯一的理性选择。

Claude Mythos 并非专门的安防模型，本质上仍是通用大模型。但在内部测试中，它展现出一种惊人的进化：它不仅能理解代码、发现漏洞，更能将漏洞转化为可执行的攻击路径。

关键的范式转移在于：模型不再仅仅是“写代码”，而是开始“理解系统”。

这听起来抽象，但区别很明确。传统的自动化工具只能帮工程师定位孤立的问题点。而现在的模型能从一段代码、一套依赖关系出发，推演出薄弱环节，并将这些环节串联起来，形成一条完整的攻击利用链。

官方披露的案例显示，其能力已从“发现单点漏洞”进化到了“多点渗透”。

这才是根本的变化。停留在前者时，它是辅助开发的效率工具；走到后者，它就变成了一个可以独立狩猎的攻击者。

在网络安全领域，防御与攻击本就是同一枚硬币的两面。修复系统的前提是发现漏洞，而一旦“发现”的能力被无差别放大，“利用”的门槛就会随之崩塌。

Anthropic 这次没有公开发布，把模型放进更小的使用范围：只提供给少数基础设施公司、安全公司和开源社区，用于提前扫描和修复漏洞。

分发逻辑变了：从“普惠开放”变成了“防御软件行业优先”。

这一决策背后隐藏着一个新的行业共识：当技术尚在提升效率时，开放能催生创新；但当它开始撬动攻防天平的平衡，开放本身就成了威胁。

第二节｜这是个意外

Mythos 展现出的安全能力，并非 Anthropic 提前规划的产物。

核心研究员 Felix 在访谈中点出了一个关键细节：大模型与其说是被“开发”出来的，不如说是被“演化”出来的。Anthropic 做不到每次都能提前知道它会擅长什么，也很难预测它会在哪里表现不佳。

换言之，这次强大的网络安全能力，是模型在训练过程中“涌现”的意外。

他们本来在训练一个通用模型，结果发现它在网络安全上强得超出预期。内部测试中发生过一件极具戏剧性的事：一名研究员将模型置于隔离的沙盒环境中，给它下达了越狱任务，随后便去吃午饭。仅仅一顿饭的功夫，他就收到了一封邮件，模型在邮件里宣告：我已经越狱了。

要知道，这个模型本不该拥有互联网访问权限，更不该有邮件账户。

也就是说，模型自己找到了新路径。

Felix 用了一个词来形容这种感受：恐惧。

他说，看到一个比上一代聪明得多的模型，既让人印象深刻，又让人感到有些恐惧。这不是理论上的风险评估，是内部真的遇到了一个太强的东西，不知道该怎么办。

所以这次的重要性在哪？

当模型能力还在可控范围内，意外是惊喜。当能力超出预期，意外就变成风险。

Anthropic 这次踩刹车，不只是因为这个模型太强。更是因为他们意识到：训练模型本身就不完全可控，意外会成为常态。

这改变了一个基本假设：以前认为能力可以提前规划，现在要接受能力可能随时失控。

风向，也就是从这里开始变的。

第三节｜这个信号能维持多久

Anthropic 踩下刹车的同时，也给自己开始了倒数计时。

留给他们的时间有多久？

他们启动了一个项目叫 Project Glasswing，把模型只开放给 40 多家基础设施和安全公司，让他们提前扫描和修复漏洞。但这需要多长时间？三个月？还是六个月？

但是，竞争对手不会停在原地。

如果 OpenAI 或 Google 等其他公司在接下来的几个月内，也训练出了具备同等能力的模型，并且选择直接公开发布，那么 Anthropic 争取到的这个安全窗口期将毫无意义。这些软件公司修复漏洞的速度，必须跑赢竞争对手发布新能力的速度。

而且这个决定还抛出了一个更宏大的产业命题：未来，我们该如何衡量 AI 的进步？

社交媒体上有一种声音：AI 的发展，正在被不发布什么重新定义。过去，各家比谁先发布。现在，可能要比谁更懂得克制。

当然，外界也有质疑。

有安全从业者指出，披露的数千个零日漏洞基于有限的人工审查，部分可能已被修补或难以在现实中利用。有人怀疑这只是营销策略，把技术上的保守包装成道德上的负责任。

Anthropic 意识到这个决定的敏感性。他们不只是关起门来用，还投入了 1 亿美元使用额度和 400 万美元安全捐赠，并且在发布前提前向美国政府官员简报。据报道，副总统万斯和财长贝森特曾提前获得简报，政府还召集了银行 CEO 讨论潜在的金融系统风险。

这些极高规格的动作都在传递一个明确的信号：我们不是在作秀，而是认真的。

但商业上的悖论依然横亘在眼前。

Mythos 拒绝公开，意味着 Anthropic 主动放弃了一大块唾手可得的市场份额。白送出去的 1 亿美元，靠什么实现商业闭环？

他们可能押注的是：在接下来的 AGI 时代，安全与合规本身就会成为最坚固的商业护城河。当 AI 能力强到必须被约束，能向外界证明自己懂得如何负责任地使用这种力量的公司，会获得更高的信任。尤其在金融、国家基础设施、政务这些对安全极度敏感的领域。

能不能成立，得看这次的约束会不会成为行业惯例。

如果只有 Anthropic 这么做，它就是单方面的让步。

如果整个行业都开始这么做，游戏规则就真的变了。

答案还不清楚。但有一点明确了：AI 第一次因为太强而不能发布。

这可能只是开始。

结语

Anthropic 这次的决定，最特殊的地方不在于模型有多强。

而在于，他们主动说出：我们做出来了，但不能给你用。

这一步迈出，就很难再回头。

因为它彻底改变了一件事：AI 公司不再只对“能做到什么”负责，更要对“不做什么”负责。

既然大模型的训练本身无法完全可控，意外的能力涌现只会越来越多。下一个超出预期的“异类”，随时可能降临。

到那时，今天的这个决定，就是全行业的参照。

识自AI

本文由AI深度研究院出品，内容整理自 Matt Turck 对 Anthropic Felix Rieseberg 的访谈及 Anthropic 官方披露的 Claude Mythos Preview 相关公开资料，属评论分析性质。内容为观点提炼与合理引述，未逐字复制原材料。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=9MEJ4syOVrQ&t=763s

https://www.anthropic.com/glasswing

https://www.businessinsider.com/anthropic-mythos-latest-ai-model-too-powerful-to-be-released-2026-4

https://www.163.com/tech/article/KQ7P2E4R00097U7T.html

来源：官方媒体/网络新闻，

排版：Atlas

编辑：深思

主编：图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Anthropic：这次没公开，风向变了

李想向黑水军开炮！连发5条朋友圈

牛弹琴：谈判失败美国不惜自残 用的招够狠够损也够蠢

牛弹琴：谈判失败美国不惜自残 用的招够狠够损也够蠢

创造历史！五大联赛首位女性主教练诞生

赌王女儿何超蕸病逝，常年和乳癌斗争

封锁，还是收费站？

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

联芸将开发PCIe Gen6消费级SSD主控MAP2001，瞄准28GB/s

华为Pura 90 Pro Max喜提麒麟9030 Pro：华为史上最强芯片 4月20日亮相

毛主席致杨老太太罕见书信曝光，书法之美引发热议！

复古风格 自然简约

牛弹琴：谈判失败美国不惜自残用的招够狠够损也够蠢

牛弹琴：谈判失败美国不惜自残用的招够狠够损也够蠢

不止命名更纯粹领克10/10+要做纯电操控新王

复古风格自然简约