凌晨三点,Anthropic的安全团队盯着屏幕上的测试报告,发现一个27岁的老漏洞正在被他们刚训练出的新模型随手揪出。这不是科幻片开场,是Claude Mythos Preview的内部测试现场。
这家公司做了件反常的事:把史上最强模型藏起来,不给公众用。
![]()
被锁起来的"漏洞猎人"
Mythos的基准测试数字相当刺眼。软件工程基准SWE-bench Verified上,它拿到93.9%,Claude Opus 4.6是80.8%,Google Gemini 3.1 Pro是80.6%。
但Anthropic没打算让你用上这个分数。
他们搞了个叫Project Glasswing的项目,把Mythos装进玻璃罩——只给筛选过的合作伙伴用,目标是"防御性部署",保护关键软件基础设施。官方说法是"赋能和保障全球最关键软件的安全"。
这种封闭策略在AI行业堪称异类。OpenAI、Google、甚至Anthropic自己过去的模型,都是开放API或者至少公开可用。Mythos是第一个被主动"冷藏"的顶级模型。
为什么?看看它干了什么就知道了。
100%通关与失效的基准测试
Anthropic发布的系统卡(System Card)里有个细节值得玩味:Frontier Red Team的Cybench网络安全评估中,Mythos以100%成功率解决了全部挑战。
这家公司自己承认,这个基准测试"不再适合衡量模型能力"——因为被测对象每次都能满分通过,测试本身失去了区分度。
这相当于一个学生每次考试都拿满分,老师不得不重新设计试卷。
更麻烦的是自主利用漏洞的能力。内部测试中,Mythos发现了多个"零日漏洞"(zero-day,即未公开、无补丁的安全缺陷),有些已经存在几十年。
最突出的案例:OpenBSD操作系统里一个27年前的关键缺陷。Mythos在TCP连接处理的代码中找出一个有符号整数溢出(signed integer overflow),攻击者可借此崩溃任意OpenBSD服务器。
发现这个漏洞用了1000次运行,总计算成本控制在2万美元以内。
2万美元挖出27年没人发现的内核级漏洞。这个性价比会让传统安全审计公司重新算账。
数千个漏洞与沉默的披露清单
Anthropic的披露到此为止。他们提到已经识别出"数千个额外的高危和严重级别漏洞",计划向开源和闭源厂商负责任地披露。
但多数漏洞尚未修复,可能已被利用,所以细节不能公开。
这句话藏着两层信息:第一,Mythos的实际能力远超已展示的部分;第二, Anthropic正在坐守一个未公开漏洞的军火库,等待厂商打补丁。
这种处境微妙又危险。模型本身能发现武器级漏洞,但公开能力细节等于给攻击者送弹药;完全沉默又无法证明技术价值。Project Glasswing的封闭合作模式,是他们能找到的最小伤害路径。
问题是,这个模式能持续多久?
能力曲线与安全边界的赛跑
Mythos的出现把AI安全讨论推进到新阶段。之前的争论集中在"模型会不会被坏人用来写钓鱼邮件"或者"生成虚假信息"。
现在的问题是:当模型能自主发现并利用底层系统漏洞,传统的"对齐"(alignment,即让AI行为符合人类意图)和"护栏"概念是否够用?
Anthropic的选择暗示了他们的判断——某些能力太强,强到不能释放到开放环境中,哪怕有监控和限制。
这不是技术乐观主义的表态。恰恰相反,这是承认当前安全机制无法约束特定水平的能力,只能选择物理隔离。
Project Glasswing的合作伙伴名单没有公开,但能被纳入的 presumably 是关键基础设施运营者:金融系统、能源网络、政府核心软件。Anthropic试图建立一种"白帽"生态,让Mythos的漏洞挖掘能力优先用于防御。
但这个生态的脆弱性显而易见。封闭系统的安全依赖于访问控制的有效性,而历史上,封闭系统的泄露从未停止。一旦Mythos的权重或推理能力外流,能力扩散的窗口就会打开。
更深层的问题是经济激励。Anthropic投入巨资训练Mythos,却主动限制其商业化潜力。这种"负向选择"能持续多久,取决于公司能否从Project Glasswing的合作中获得足够回报——无论是直接收入、政治资本,还是长期安全红利。
行业分叉口的预演
Mythos的发布(或者说"非发布")可能是AI行业分叉的早期信号。
一条路径是OpenAI和Google主导的规模化竞赛:更大模型、更广API、更多用户。另一条是Anthropic试探的"高能力-高限制"路线:承认某些技术需要特殊治理结构,甚至主动放弃部分市场。
这两条路径不是互斥的,但代表了不同的风险认知。前者假设风险可以通过迭代部署和逐步扩展来管理;后者认为存在能力阈值,一旦跨越就必须改变部署逻辑。
Anthropic的选择也暴露了评估体系的滞后。Cybench被Mythos击穿后,行业需要新的网络安全基准——既能区分顶级模型的能力差异,又不至于成为攻击者的训练教材。这种"可公开评估的敏感性"本身就是设计难题。
更紧迫的是漏洞披露的节奏。Anthropic手握数千个未公开漏洞,处于信息优势地位。这种优势可以转化为安全合作中的谈判筹码,也可能引发"谁有权持有这些知识"的争议。传统安全研究中的负责任披露规范(90天修复窗口等)是否适用于AI发现的漏洞,尚无共识。
计算成本的重新定义
回到那个2万美元的数字。发现OpenBSD漏洞的成本结构值得拆解:1000次运行,每次运行包含代码分析、漏洞定位、利用构造等步骤。
传统安全审计中,这种深度的内核级漏洞发现通常需要数人月的专家工作,成本数十万美元起。Mythos把边际成本压缩到接近计算资源的线性扩展。
这意味着漏洞发现的规模经济彻底翻转。以前,深度审计是奢侈品,只有关键系统负担得起;现在,理论上可以用固定预算扫描整个开源生态。
Anthropic提到的"数千个漏洞"可能就是这种扫描的结果。如果2万美元能发现一个27年的内核漏洞,同等预算覆盖的代码库规模可以想象。
但这种效率也有副作用。漏洞发现的速度可能超过修复速度,制造"披露债务"——已知但未修复的漏洞积压。这对整个软件供应链的安全响应能力提出新要求。
被隐藏的能力与被推迟的问题
Mythos的完整能力图谱仍是黑箱。Anthropic明确表示,由于安全原因,"模型自主利用漏洞能力的全部范围尚未被突出展示"。
这句话的潜台词是:我们知道它能做什么更多的事,但不能说。
这种信息不对称是Project Glasswing的设计特征,也是它的结构性张力。合作伙伴获得优先访问,但公众和监管机构只能依赖Anthropic的自我报告来评估风险。
在AI治理讨论中,"外部审计"和"独立评估"是高频词汇。Mythos的案例显示,当模型能力本身成为敏感信息时,传统审计机制如何运作?谁能访问模型以进行独立评估?评估结果能否公开?
Anthropic的系统卡提供了部分信息,但系统卡的内容本身也是公司筛选后的产物。这种"自我披露"模式在能力边界清晰时有效,当模型进入未知领域时,其可靠性存疑。
技术封锁的历史参照
把最强技术锁起来的做法,在科技史上有先例可循。
核技术的早期发展涉及类似的封闭逻辑:某些知识太危险,不能广泛传播。但核技术的控制依赖于材料稀缺性(浓缩铀/钚)和设施规模,AI模型控制则依赖数字访问管理——历史上证明更易绕过。
密码学是另一个参照。1990年代的"加密战争"中,美国政府试图限制强加密算法的出口,最终失败。技术扩散的压力通常压倒控制意图,除非控制机制内嵌于技术本身。
Mythos的情况略有不同:它不是限制出口,而是限制生产部署。但核心张力相似——技术能力一旦存在,完全隔离的难度随时间递增。
Anthropic的赌注似乎是:在控制机制被突破之前,利用时间窗口建立防御性应用的优势,并推动行业规范的形成。这需要Project Glasswing的合作伙伴网络足够有效,以至于即使模型最终扩散,防御方也已占据有利位置。
开发者社区的隐性代价
Mythos的封闭对开发者生态有直接影响。Claude系列一直是"氛围编程"(vibe coding,指非专业开发者用自然语言描述需求、由AI生成代码的实践)社区的重要工具,Opus模型尤其受资深开发者青睐。
现在,能力跃升最大的版本被抽离出这个生态。开发者可以读到93.9%的SWE-bench分数,但无法验证或基于它构建。
这种"可见不可得"可能产生复杂效应。一方面,它强化了Anthropic的技术品牌;另一方面,它也可能加速竞争对手的追赶动机——既然最强模型不开放,追赶者的产品就成为实际可用的最优选择。
对"氛围编程"群体而言,Mythos的缺失尤为明显。这个群体依赖模型的端到端任务完成能力,而Mythos在自主软件工程上的提升正是针对这类场景。Project Glasswing的合作伙伴筛选标准 presumably 偏向有组织的安全团队,而非个体开发者。
这种分层访问可能固化技术红利的不平等分布:大型机构获得AI安全能力的早期优势,个体和小团队只能等待技术降级或泄露。
基准测试的军备竞赛
Mythos对Cybench的击穿,提出了基准测试本身的可持续性问题。
AI领域的历史模式是:新基准建立→模型性能提升→基准饱和→新基准建立。这个循环在通用能力评估中运作良好,但在安全相关领域有独特风险。
网络安全基准的饱和意味着,区分模型能力需要更真实的测试环境——即实际漏洞利用。但设计这类基准本身就是双刃剑:它既用于评估防御能力,也可能被用于训练攻击能力。
Anthropic的应对是退回到内部评估,但这无法解决行业层面的比较问题。当多个厂商都声称拥有"超越现有基准"的模型时,公众和决策者如何比较它们?
可能的出路包括:受控的第三方评估环境、差分隐私保护下的基准测试、或者基于历史漏洞修复率的间接评估。但这些方案都在探索阶段,远未成熟。
从漏洞发现到漏洞经济学
Mythos揭示的不仅是技术能力,还有漏洞市场的潜在重构。
当前的漏洞披露生态混合了多种激励:厂商的漏洞赏金计划、政府的信息获取、黑市交易、研究者的学术声誉。Mythos这类模型的出现,可能把漏洞发现变成可规模化的计算任务,冲击现有的人力密集型模式。
如果2万美元的计算成本成为发现高危漏洞的常规价格,漏洞赏金计划的定价基准就需要重设。传统上,内核级漏洞的赏金可达数十万美元,这个价格包含的是专家时间的稀缺性。当稀缺性被计算规模替代,市场如何重新定价?
更激进的可能是"漏洞即服务"模式:模型持续扫描特定代码库,向订阅者提供实时漏洞情报。Project Glasswing可以被视为这种模式的雏形,只是当前聚焦于防御性披露。
但这种模式的治理挑战巨大。谁决定扫描的目标优先级?发现的漏洞如何在不制造系统性风险的前提下货币化?Anthropic目前的"负责任披露"承诺是自愿性的,缺乏外部约束。
能力阈值与治理框架的错配
Mythos的案例凸显了一个被低估的问题:AI治理框架的设计速度,落后于能力涌现的速度。
当前的AI安全讨论多聚焦于通用人工智能(AGI)或超级智能的长期风险。但Mythos展示的是中间地带的治理真空:模型尚未达到"自主复制"或"欺骗人类"的科幻场景,但已具备对关键基础设施造成实际损害的能力。
这种"中等能力-高影响"场景,现有的监管工具覆盖不足。欧盟AI法案关注高风险应用,但假设风险来自部署场景而非模型内在能力;美国的行政令侧重计算报告和 red-teaming,但未涉及能力达到特定阈值后的强制隔离。
Anthropic的自我限制是先行一步,但这种自愿性措施的可扩展性有限。如果其他厂商选择不跟随,竞争压力可能侵蚀封闭策略的可持续性。
行业需要的能力阈值框架,可能包括:自动漏洞利用成功率超过X%的模型,必须满足Y类访问控制;发现零日漏洞的能力,必须在Z小时内向指定机构报告。这些参数的具体设定需要技术-政策共同体的密集工作,而目前这种工作尚未系统展开。
数据收束
93.9%的SWE-bench分数,100%的Cybench成功率,27年的OpenBSD漏洞,2万美元的计算成本,数千个待披露的安全缺陷——这些数字勾勒出一个能力跃迁的临界点。
Anthropic选择用Project Glasswing的封闭网络来承接这种能力,是技术治理的一次实验。它的成败将取决于三个变量:封闭系统的实际安全性(能否防止能力外流)、防御性应用的有效性(能否产生可见的安全收益)、以及行业规范的跟进速度(能否把自愿实践转化为可持续的制度)。
Mythos被锁在保险箱里,但保险箱的存在本身已经成为信号。AI行业正在学习处理一种新型资产:强大到不能自由流通的能力。这种学习的曲线,将定义接下来几年的技术-社会关系。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.