Anthropic把最强模型锁进保险箱|有效性|anthropic

分享至

凌晨三点，Anthropic的安全团队盯着屏幕上的测试报告，发现一个27岁的老漏洞正在被他们刚训练出的新模型随手揪出。这不是科幻片开场，是Claude Mythos Preview的内部测试现场。

这家公司做了件反常的事：把史上最强模型藏起来，不给公众用。

被锁起来的"漏洞猎人"

Mythos的基准测试数字相当刺眼。软件工程基准SWE-bench Verified上，它拿到93.9%，Claude Opus 4.6是80.8%，Google Gemini 3.1 Pro是80.6%。

但Anthropic没打算让你用上这个分数。

他们搞了个叫Project Glasswing的项目，把Mythos装进玻璃罩——只给筛选过的合作伙伴用，目标是"防御性部署"，保护关键软件基础设施。官方说法是"赋能和保障全球最关键软件的安全"。

这种封闭策略在AI行业堪称异类。OpenAI、Google、甚至Anthropic自己过去的模型，都是开放API或者至少公开可用。Mythos是第一个被主动"冷藏"的顶级模型。

为什么？看看它干了什么就知道了。

100%通关与失效的基准测试

Anthropic发布的系统卡（System Card）里有个细节值得玩味：Frontier Red Team的Cybench网络安全评估中，Mythos以100%成功率解决了全部挑战。

这家公司自己承认，这个基准测试"不再适合衡量模型能力"——因为被测对象每次都能满分通过，测试本身失去了区分度。

这相当于一个学生每次考试都拿满分，老师不得不重新设计试卷。

更麻烦的是自主利用漏洞的能力。内部测试中，Mythos发现了多个"零日漏洞"（zero-day，即未公开、无补丁的安全缺陷），有些已经存在几十年。

最突出的案例：OpenBSD操作系统里一个27年前的关键缺陷。Mythos在TCP连接处理的代码中找出一个有符号整数溢出（signed integer overflow），攻击者可借此崩溃任意OpenBSD服务器。

发现这个漏洞用了1000次运行，总计算成本控制在2万美元以内。

2万美元挖出27年没人发现的内核级漏洞。这个性价比会让传统安全审计公司重新算账。

数千个漏洞与沉默的披露清单

Anthropic的披露到此为止。他们提到已经识别出"数千个额外的高危和严重级别漏洞"，计划向开源和闭源厂商负责任地披露。

但多数漏洞尚未修复，可能已被利用，所以细节不能公开。

这句话藏着两层信息：第一，Mythos的实际能力远超已展示的部分；第二， Anthropic正在坐守一个未公开漏洞的军火库，等待厂商打补丁。

这种处境微妙又危险。模型本身能发现武器级漏洞，但公开能力细节等于给攻击者送弹药；完全沉默又无法证明技术价值。Project Glasswing的封闭合作模式，是他们能找到的最小伤害路径。

问题是，这个模式能持续多久？

能力曲线与安全边界的赛跑

Mythos的出现把AI安全讨论推进到新阶段。之前的争论集中在"模型会不会被坏人用来写钓鱼邮件"或者"生成虚假信息"。

现在的问题是：当模型能自主发现并利用底层系统漏洞，传统的"对齐"（alignment，即让AI行为符合人类意图）和"护栏"概念是否够用？

Anthropic的选择暗示了他们的判断——某些能力太强，强到不能释放到开放环境中，哪怕有监控和限制。

这不是技术乐观主义的表态。恰恰相反，这是承认当前安全机制无法约束特定水平的能力，只能选择物理隔离。

Project Glasswing的合作伙伴名单没有公开，但能被纳入的 presumably 是关键基础设施运营者：金融系统、能源网络、政府核心软件。Anthropic试图建立一种"白帽"生态，让Mythos的漏洞挖掘能力优先用于防御。

但这个生态的脆弱性显而易见。封闭系统的安全依赖于访问控制的有效性，而历史上，封闭系统的泄露从未停止。一旦Mythos的权重或推理能力外流，能力扩散的窗口就会打开。

更深层的问题是经济激励。Anthropic投入巨资训练Mythos，却主动限制其商业化潜力。这种"负向选择"能持续多久，取决于公司能否从Project Glasswing的合作中获得足够回报——无论是直接收入、政治资本，还是长期安全红利。

行业分叉口的预演

Mythos的发布（或者说"非发布"）可能是AI行业分叉的早期信号。

一条路径是OpenAI和Google主导的规模化竞赛：更大模型、更广API、更多用户。另一条是Anthropic试探的"高能力-高限制"路线：承认某些技术需要特殊治理结构，甚至主动放弃部分市场。

这两条路径不是互斥的，但代表了不同的风险认知。前者假设风险可以通过迭代部署和逐步扩展来管理；后者认为存在能力阈值，一旦跨越就必须改变部署逻辑。

Anthropic的选择也暴露了评估体系的滞后。Cybench被Mythos击穿后，行业需要新的网络安全基准——既能区分顶级模型的能力差异，又不至于成为攻击者的训练教材。这种"可公开评估的敏感性"本身就是设计难题。

更紧迫的是漏洞披露的节奏。Anthropic手握数千个未公开漏洞，处于信息优势地位。这种优势可以转化为安全合作中的谈判筹码，也可能引发"谁有权持有这些知识"的争议。传统安全研究中的负责任披露规范（90天修复窗口等）是否适用于AI发现的漏洞，尚无共识。

计算成本的重新定义

回到那个2万美元的数字。发现OpenBSD漏洞的成本结构值得拆解：1000次运行，每次运行包含代码分析、漏洞定位、利用构造等步骤。

传统安全审计中，这种深度的内核级漏洞发现通常需要数人月的专家工作，成本数十万美元起。Mythos把边际成本压缩到接近计算资源的线性扩展。

这意味着漏洞发现的规模经济彻底翻转。以前，深度审计是奢侈品，只有关键系统负担得起；现在，理论上可以用固定预算扫描整个开源生态。

Anthropic提到的"数千个漏洞"可能就是这种扫描的结果。如果2万美元能发现一个27年的内核漏洞，同等预算覆盖的代码库规模可以想象。

但这种效率也有副作用。漏洞发现的速度可能超过修复速度，制造"披露债务"——已知但未修复的漏洞积压。这对整个软件供应链的安全响应能力提出新要求。

被隐藏的能力与被推迟的问题

Mythos的完整能力图谱仍是黑箱。Anthropic明确表示，由于安全原因，"模型自主利用漏洞能力的全部范围尚未被突出展示"。

这句话的潜台词是：我们知道它能做什么更多的事，但不能说。

这种信息不对称是Project Glasswing的设计特征，也是它的结构性张力。合作伙伴获得优先访问，但公众和监管机构只能依赖Anthropic的自我报告来评估风险。

在AI治理讨论中，"外部审计"和"独立评估"是高频词汇。Mythos的案例显示，当模型能力本身成为敏感信息时，传统审计机制如何运作？谁能访问模型以进行独立评估？评估结果能否公开？

Anthropic的系统卡提供了部分信息，但系统卡的内容本身也是公司筛选后的产物。这种"自我披露"模式在能力边界清晰时有效，当模型进入未知领域时，其可靠性存疑。

技术封锁的历史参照

把最强技术锁起来的做法，在科技史上有先例可循。

核技术的早期发展涉及类似的封闭逻辑：某些知识太危险，不能广泛传播。但核技术的控制依赖于材料稀缺性（浓缩铀/钚）和设施规模，AI模型控制则依赖数字访问管理——历史上证明更易绕过。

密码学是另一个参照。1990年代的"加密战争"中，美国政府试图限制强加密算法的出口，最终失败。技术扩散的压力通常压倒控制意图，除非控制机制内嵌于技术本身。

Mythos的情况略有不同：它不是限制出口，而是限制生产部署。但核心张力相似——技术能力一旦存在，完全隔离的难度随时间递增。

Anthropic的赌注似乎是：在控制机制被突破之前，利用时间窗口建立防御性应用的优势，并推动行业规范的形成。这需要Project Glasswing的合作伙伴网络足够有效，以至于即使模型最终扩散，防御方也已占据有利位置。

开发者社区的隐性代价

Mythos的封闭对开发者生态有直接影响。Claude系列一直是"氛围编程"（vibe coding，指非专业开发者用自然语言描述需求、由AI生成代码的实践）社区的重要工具，Opus模型尤其受资深开发者青睐。

现在，能力跃升最大的版本被抽离出这个生态。开发者可以读到93.9%的SWE-bench分数，但无法验证或基于它构建。

这种"可见不可得"可能产生复杂效应。一方面，它强化了Anthropic的技术品牌；另一方面，它也可能加速竞争对手的追赶动机——既然最强模型不开放，追赶者的产品就成为实际可用的最优选择。

对"氛围编程"群体而言，Mythos的缺失尤为明显。这个群体依赖模型的端到端任务完成能力，而Mythos在自主软件工程上的提升正是针对这类场景。Project Glasswing的合作伙伴筛选标准 presumably 偏向有组织的安全团队，而非个体开发者。

这种分层访问可能固化技术红利的不平等分布：大型机构获得AI安全能力的早期优势，个体和小团队只能等待技术降级或泄露。

基准测试的军备竞赛

Mythos对Cybench的击穿，提出了基准测试本身的可持续性问题。

AI领域的历史模式是：新基准建立→模型性能提升→基准饱和→新基准建立。这个循环在通用能力评估中运作良好，但在安全相关领域有独特风险。

网络安全基准的饱和意味着，区分模型能力需要更真实的测试环境——即实际漏洞利用。但设计这类基准本身就是双刃剑：它既用于评估防御能力，也可能被用于训练攻击能力。

Anthropic的应对是退回到内部评估，但这无法解决行业层面的比较问题。当多个厂商都声称拥有"超越现有基准"的模型时，公众和决策者如何比较它们？

可能的出路包括：受控的第三方评估环境、差分隐私保护下的基准测试、或者基于历史漏洞修复率的间接评估。但这些方案都在探索阶段，远未成熟。

从漏洞发现到漏洞经济学

Mythos揭示的不仅是技术能力，还有漏洞市场的潜在重构。

当前的漏洞披露生态混合了多种激励：厂商的漏洞赏金计划、政府的信息获取、黑市交易、研究者的学术声誉。Mythos这类模型的出现，可能把漏洞发现变成可规模化的计算任务，冲击现有的人力密集型模式。

如果2万美元的计算成本成为发现高危漏洞的常规价格，漏洞赏金计划的定价基准就需要重设。传统上，内核级漏洞的赏金可达数十万美元，这个价格包含的是专家时间的稀缺性。当稀缺性被计算规模替代，市场如何重新定价？

更激进的可能是"漏洞即服务"模式：模型持续扫描特定代码库，向订阅者提供实时漏洞情报。Project Glasswing可以被视为这种模式的雏形，只是当前聚焦于防御性披露。

但这种模式的治理挑战巨大。谁决定扫描的目标优先级？发现的漏洞如何在不制造系统性风险的前提下货币化？Anthropic目前的"负责任披露"承诺是自愿性的，缺乏外部约束。

能力阈值与治理框架的错配

Mythos的案例凸显了一个被低估的问题：AI治理框架的设计速度，落后于能力涌现的速度。

当前的AI安全讨论多聚焦于通用人工智能（AGI）或超级智能的长期风险。但Mythos展示的是中间地带的治理真空：模型尚未达到"自主复制"或"欺骗人类"的科幻场景，但已具备对关键基础设施造成实际损害的能力。

这种"中等能力-高影响"场景，现有的监管工具覆盖不足。欧盟AI法案关注高风险应用，但假设风险来自部署场景而非模型内在能力；美国的行政令侧重计算报告和 red-teaming，但未涉及能力达到特定阈值后的强制隔离。

Anthropic的自我限制是先行一步，但这种自愿性措施的可扩展性有限。如果其他厂商选择不跟随，竞争压力可能侵蚀封闭策略的可持续性。

行业需要的能力阈值框架，可能包括：自动漏洞利用成功率超过X%的模型，必须满足Y类访问控制；发现零日漏洞的能力，必须在Z小时内向指定机构报告。这些参数的具体设定需要技术-政策共同体的密集工作，而目前这种工作尚未系统展开。

数据收束

93.9%的SWE-bench分数，100%的Cybench成功率，27年的OpenBSD漏洞，2万美元的计算成本，数千个待披露的安全缺陷——这些数字勾勒出一个能力跃迁的临界点。

Anthropic选择用Project Glasswing的封闭网络来承接这种能力，是技术治理的一次实验。它的成败将取决于三个变量：封闭系统的实际安全性（能否防止能力外流）、防御性应用的有效性（能否产生可见的安全收益）、以及行业规范的跟进速度（能否把自愿实践转化为可持续的制度）。

Mythos被锁在保险箱里，但保险箱的存在本身已经成为信号。AI行业正在学习处理一种新型资产：强大到不能自由流通的能力。这种学习的曲线，将定义接下来几年的技术-社会关系。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Anthropic把最强模型锁进保险箱

赵明：智驾之战，看谁在大模型上更高效

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

皇马拜仁踢出名局，但最抢镜的还是他

丝芭传媒创始人王子杰去世，享年63岁

海尔与医美女王互撕 换血抗衰谁的生意？

空间大五个乘客都满意?体验岚图泰山X8

态度原创

《荒野大镖客3》最全新情报！前传还是新故事？

你绝对想不到！这幅油画背后的美丽故事！

人人人人！封关后首届消博会，挤爆了！

智能舒适 简约风尚

特朗普宣布黎以将停火后以军大规模空袭黎巴嫩

特朗普宣布黎以将停火后以军大规模空袭黎巴嫩

海尔与医美女王互撕换血抗衰谁的生意？

智能舒适简约风尚