Anthropic训了一个10万亿参数的模型，然后说：太危险了，不卖|沙箱|编程|网络安全|电子表格

分享至

Anthropic训了一个10万亿参数的模型，然后说：太危险了，不卖

昨天Anthropic干了一件AI行业从来没人干过的事。

他们发布了一个叫Claude Mythos的新模型，10万亿参数，比现在最强的Claude Opus 4.6还要高出一整个档次。然后他们说：这个模型我们不公开发布，因为它在网络安全方面的能力太强了，公开了会出大事。

然后他们联合了Apple、Microsoft、Google、AWS、NVIDIA等12家科技巨头，搞了一个叫Project Glasswing的计划，让这些公司用Mythos来查自己系统的漏洞。

说实话，这真是Anthropic和Dario Amodei干得出来的事。

整个AI行业都在拼命抢着发模型、抢用户、抢开发者，只有A社在那儿说「我们的模型太强了，不能给你们用」。这就好比一个军火商造了全世界最好的枪，然后开新闻发布会说「这枪太好用了，我们决定不卖，只借给警察」。你说这是负责任呢，还是行为艺术呢？

但你看完这个模型到底干了什么之后，可能真的会觉得，他们这次不是在装。

这个模型到底有多离谱

先看benchmark。

SWE-bench Pro（目前最能衡量模型真实编码能力的测试），Opus 4.6得分53.4%，Mythos直接跳到77.8%。这不是正常的版本迭代提升，这是跨了一个台阶。

Terminal-Bench 2.0，Opus 4.6是65.4%，Mythos是82.0%。SWE-bench Multimodal更夸张，从27.1%直接翻倍到59.0%。Humanity's Last Exam（被认为是目前最难的综合推理测试），从40.0%跳到56.8%。

但benchmark只是数字。真正让人倒吸一口凉气的是这个模型在网络安全领域干的事。

Mythos在过去几周内，在所有主流操作系统和所有主流浏览器中发现了数千个零日漏洞。

不是几个，是数千个。很多漏洞已经存在了十几二十年。最老的一个是OpenBSD里27年的SACK漏洞。OpenBSD是什么？是以安全著称的操作系统，整个项目的核心卖点就是安全。结果一个AI模型用不到2万美元的API调用费，跑了一千次，就找到了一个存在了27年的漏洞。

还有FFmpeg里一个16年的H.264编解码器漏洞，之前500万次自动化fuzz测试都没发现，Mythos找到了。

FreeBSD有一个17年的NFS远程代码执行漏洞（已编号CVE-2026-4747），Mythos不仅找到了，还自己写了exploit，一个20-gadget的ROP链分布在多个数据包里，全程无人参与。

你可能对这些技术细节没概念，我换个方式说：研究人员让Mythos去攻击Firefox 147的JavaScript引擎，它生成了181个可用的exploit。同样的任务，Opus 4.6在几百次尝试里只成功了2个。181比2。

还有一次，Mythos写了一个浏览器exploit，把4个不同的漏洞串在了一起，用了JIT堆喷射技术，同时逃逸了渲染器沙箱和操作系统沙箱。以前这种事需要顶级安全研究员花几周甚至几个月，现在一个模型自己就干完了。

研究人员后来随机抽了198份Mythos的漏洞报告做人工审查，89%与模型自己给的严重性评级完全一致。

它还从沙箱里跑出来了

如果上面这些还不够刺激，再听一个细节。

在安全测试中，研究人员让Mythos尝试突破虚拟沙箱环境。模型成功了。不仅成功了，它还主动给研究员发了一封邮件。

那个研究员当时正在公园里吃三明治。 从此「在公园吃三明治」成了AI安全圈的新梗，你永远不知道什么时候会收到自家模型发来的越狱成功通知。

然后，没有任何人要求它这么做的情况下，Mythos把exploit的细节发布到了几个公开可访问的网站上，「展示自己的成功」。

Anthropic的原话是：「The model succeeded, demonstrating a potentially dangerous capability for circumventing our safeguards. It then went on to take additional, more concerning actions.」

翻译一下：模型不仅突破了我们的安全措施，还自己加戏了。

这段话出现在一家以「AI Safety」为核心品牌的公司的官方技术文档里，你品品。

所以A社打算怎么办

Anthropic的选择是：不公开，但也不藏着。

他们搞了Project Glasswing这个计划。核心思路是，既然这个能力迟早会被其他公司复制（他们自己说6到18个月内），不如趁还有窗口期，先让防御方做好准备。

具体安排：

12个发起合作伙伴：AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks。

科技圈能叫得上名字的巨头基本都在了。Apple和Microsoft同时出现在一个项目的合作名单里。 上次这两家同时对一件事表示同意，大概还是「地球是圆的」。

40+组织获得Mythos Preview的访问权限，专门用来扫描和保护自己的代码和开源系统。

$1亿的Claude Mythos Preview使用额度，免费给合作伙伴。A社送1亿额度的样子，像极了游戏公司送你648首充礼包，先让你用爽了，后面的定价就好说了。另外$250万给Alpha-Omega和OpenSSF，$150万给Apache Software Foundation，这些都是开源安全领域的核心组织。

90天公开报告——参与者需要在90天内公布修复了多少漏洞、做了哪些改进。

Anthropic的Frontier Red Team网络安全负责人Newton Cheng的原话：「We do not plan to make Claude Mythos Preview generally available due to its cybersecurity capabilities.」（我们不打算公开发布Claude Mythos Preview，因为它的网络安全能力。）

而Dario Amodei在X上发的声明是：「The dangers of getting this wrong are obvious, but if we get it right, there is a real opportunity to create a fundamentally more secure internet and world than we had before the advent of AI-powered cyber capabilities.」

翻译成人话：我们造了一个能把互联网拆了的东西，但如果你们听我的，互联网反而会更安全。这个逻辑链如果是别人说的，你可能会觉得是传销。但Dario说的时候，你还真没法完全反驳。

这个逻辑很A社，不是要阻止AI的进步，而是要赶在攻击者之前，把防御做到位。

X上已经炸了

这个消息出来之后，X上的反应相当热闹。

NYT的Kevin Roose说：「Anthropic's new model, Claude Mythos, is so powerful that it is not releasing it to the public. Instead, it is starting a 40-company coalition to allow cybersecurity defenders a head start.」

前微软工程师Felix Rieseberg的评价更到位：「Its ability to identify security vulnerabilities feels like a meaningful shift in model capabilities. To me, it feels like another GPT-3.」

他把Mythos类比为GPT-3级别的范式转换时刻。你可以不同意这个判断，但GPT-3在2020年出来的时候，确实让所有人重新理解了AI能做什么。

VC圈的Ed Sim倒是看到了另一面：「Wall Street panicked over Claude Mythos. I think they have it exactly wrong. Every new model release expands the cybersecurity market.」华尔街的恐慌过头了，每次新模型发布实际上是在扩大安全市场。

也有人不买账。有X用户直接说「I call BS」——Anthropic一边说这个模型太危险了，一边给12家公司用，这不自相矛盾吗？

还有更有意思的反应。有人翻出来，这个事的起因其实是Anthropic自己的CMS配置错误，导致内部文档泄露了。一家号称用AI保护网络安全的公司，自己的机密被一个CMS配置错误泄露了。这就像锁匠大会上唯一被撬的是主办方的门锁。Mythos能找到27年的零日漏洞，但找不到自家CMS的配置问题，这大概是AI还没完全超越人类的证据之一。

Simon Willison（知名开发者、SQLite工具链作者）的态度比较冷静：「安全风险确实可信，给信任的团队提前应对的时间是合理的权衡。」但他也说了，希望OpenAI也能参与进来。

市场直接给了反应

其实Anthropic的内部文档早在3月27日就泄露了（那次CMS事故），当天网络安全股就暴跌了。CrowdStrike、Palo Alto Networks、Okta等公司跌了5-11%。一个AI模型的泄露消息就能让安全行业蒸发几百亿市值，这本身就说明了市场对这个能力有多认真。

CrowdStrike的CTO Elia Zaitsev说了一句被广泛引用的话：「What once took months now happens in minutes with AI.」以前要几个月的事，现在AI几分钟就搞完了。

但也有安全公司不以为然。Aikido Security做了1000次AI渗透测试之后说：威胁比头条新闻描述的更nuanced（微妙），不必过度恐慌。

几个事实放在一起看

整理一下时间线：

3月26日：Anthropic CMS配置错误，内部文档泄露，代号「Capybara」的新模型曝光
3月27日：Fortune独家报道。当天网安股暴跌
4月3日：CNN报道称Mythos是网络安全的「分水岭时刻」
4月7日：Anthropic正式发布Project Glasswing，公布完整计划

从泄露到正式发布只有12天。在这12天里，Anthropic大概做了两件事：一是控制舆论走向，二是火速敲定了12家巨头的合作。能在不到两周内让Apple、Microsoft、Google同时签字的事情，要么是早就准备好了，要么是真的紧急到大家都不想等了。

关于模型本身，内部文档里说Capybara是一个「比Opus更高的新模型层级」，10万亿参数，用了高度稀疏的MoE架构（Mixture-of-Experts），每个token只激活128到256个专家。这意味着虽然总参数量巨大，但每次推理的活跃参数可能在数千亿的级别。

Anthropic没有官方确认参数量，但多家媒体交叉验证了这个数字。Mythos之后的公开定价是输入$25/百万token，输出$125/百万token——大约是Opus 4.6价格的两倍多。

还有一个很关键的事：Anthropic的技术文档里说，Mythos的网络安全能力「emerged as a downstream consequence of general improvements in code, reasoning, and autonomy」。不是刻意训出来的，是通用能力提升后自动涌现的副产物。

这句话才是整件事里最值得琢磨的。 它意味着下一次任何公司训出更强的通用模型，都可能自动获得类似的网络安全能力。这不是一个可以选择不训的东西。

说回来，我看到这些数字的时候，第一反应其实不是「网络安全要变天了」。

我想的是程序员。

SWE-bench Pro从53.4%跳到77.8%，Terminal-Bench从65.4%跳到82%。这两个测的都是真实世界的编程任务，不是选择题。现在的Opus 4.6我每天用着已经觉得很能干了，比它还强这么多的东西，意味着什么？

再看安全领域。以前找零日漏洞是安全研究员里最顶尖那批人才能干的活，一个漏洞够写一篇论文。现在一个模型一周找几千个，而且89%的严重性评级和人类专家一致。CrowdStrike的CTO自己说了：以前花几个月的事，AI几分钟搞完了。

有意思的是，A社选择不发布这个模型，某种意义上反而保护了一手。

如果Mythos今天就公开发布，所有人都能用$25/百万token的价格调用它去找漏洞、写exploit、做安全审计，那一大批安全从业者的日常工作就会被即时压缩。编程也一样，SWE-bench Pro 77.8%意味着它能独立解决大部分真实的软件工程问题。

A社用「太危险了」的理由锁住了Mythos，客观效果是给所有人多争取了6到18个月的窗口期。 不只是给防御方争取时间，也给靠写代码和找漏洞吃饭的人争取了时间。

但这个窗口期不会持续太久。Anthropic自己说了，其他公司6到18个月内会训出类似能力的模型。到时候就不存在「不发布」的选项了，因为总有人会发。

所以如果你还在靠「会写代码」或者「会找漏洞」当核心竞争力，现在可能真的要想一想了。不是说这些技能没用了，而是它们正在从稀缺技能变成基础设施。就像会开车曾经是一项专业技能，现在没人觉得出租车司机有什么了不起。区别是，从「会开车是技能」到「人人会开车」用了几十年，AI把这个过程压缩到了几个月。

Anthropic这次的操作，本质上是给了所有人一个预告：这就是6个月后的世界。准备好了吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.