网易首页 > 网易号 > 正文 申请入驻

Anthropic把最强模型锁进保险箱

0
分享至

凌晨三点,Anthropic的安全团队盯着屏幕上的测试报告,发现一个27岁的老漏洞正在被他们刚训练出的新模型随手揪出。这不是科幻片开场,是Claude Mythos Preview的内部测试现场。

这家公司做了件反常的事:把史上最强模型藏起来,不给公众用。


被锁起来的"漏洞猎人"

Mythos的基准测试数字相当刺眼。软件工程基准SWE-bench Verified上,它拿到93.9%,Claude Opus 4.6是80.8%,Google Gemini 3.1 Pro是80.6%。

但Anthropic没打算让你用上这个分数。

他们搞了个叫Project Glasswing的项目,把Mythos装进玻璃罩——只给筛选过的合作伙伴用,目标是"防御性部署",保护关键软件基础设施。官方说法是"赋能和保障全球最关键软件的安全"。

这种封闭策略在AI行业堪称异类。OpenAI、Google、甚至Anthropic自己过去的模型,都是开放API或者至少公开可用。Mythos是第一个被主动"冷藏"的顶级模型。

为什么?看看它干了什么就知道了。

100%通关与失效的基准测试

Anthropic发布的系统卡(System Card)里有个细节值得玩味:Frontier Red Team的Cybench网络安全评估中,Mythos以100%成功率解决了全部挑战。

这家公司自己承认,这个基准测试"不再适合衡量模型能力"——因为被测对象每次都能满分通过,测试本身失去了区分度。

这相当于一个学生每次考试都拿满分,老师不得不重新设计试卷。

更麻烦的是自主利用漏洞的能力。内部测试中,Mythos发现了多个"零日漏洞"(zero-day,即未公开、无补丁的安全缺陷),有些已经存在几十年。

最突出的案例:OpenBSD操作系统里一个27年前的关键缺陷。Mythos在TCP连接处理的代码中找出一个有符号整数溢出(signed integer overflow),攻击者可借此崩溃任意OpenBSD服务器。

发现这个漏洞用了1000次运行,总计算成本控制在2万美元以内。

2万美元挖出27年没人发现的内核级漏洞。这个性价比会让传统安全审计公司重新算账。

数千个漏洞与沉默的披露清单

Anthropic的披露到此为止。他们提到已经识别出"数千个额外的高危和严重级别漏洞",计划向开源和闭源厂商负责任地披露。

但多数漏洞尚未修复,可能已被利用,所以细节不能公开。

这句话藏着两层信息:第一,Mythos的实际能力远超已展示的部分;第二, Anthropic正在坐守一个未公开漏洞的军火库,等待厂商打补丁。

这种处境微妙又危险。模型本身能发现武器级漏洞,但公开能力细节等于给攻击者送弹药;完全沉默又无法证明技术价值。Project Glasswing的封闭合作模式,是他们能找到的最小伤害路径。

问题是,这个模式能持续多久?

能力曲线与安全边界的赛跑

Mythos的出现把AI安全讨论推进到新阶段。之前的争论集中在"模型会不会被坏人用来写钓鱼邮件"或者"生成虚假信息"。

现在的问题是:当模型能自主发现并利用底层系统漏洞,传统的"对齐"(alignment,即让AI行为符合人类意图)和"护栏"概念是否够用?

Anthropic的选择暗示了他们的判断——某些能力太强,强到不能释放到开放环境中,哪怕有监控和限制。

这不是技术乐观主义的表态。恰恰相反,这是承认当前安全机制无法约束特定水平的能力,只能选择物理隔离。

Project Glasswing的合作伙伴名单没有公开,但能被纳入的 presumably 是关键基础设施运营者:金融系统、能源网络、政府核心软件。Anthropic试图建立一种"白帽"生态,让Mythos的漏洞挖掘能力优先用于防御。

但这个生态的脆弱性显而易见。封闭系统的安全依赖于访问控制的有效性,而历史上,封闭系统的泄露从未停止。一旦Mythos的权重或推理能力外流,能力扩散的窗口就会打开。

更深层的问题是经济激励。Anthropic投入巨资训练Mythos,却主动限制其商业化潜力。这种"负向选择"能持续多久,取决于公司能否从Project Glasswing的合作中获得足够回报——无论是直接收入、政治资本,还是长期安全红利。

行业分叉口的预演

Mythos的发布(或者说"非发布")可能是AI行业分叉的早期信号。

一条路径是OpenAI和Google主导的规模化竞赛:更大模型、更广API、更多用户。另一条是Anthropic试探的"高能力-高限制"路线:承认某些技术需要特殊治理结构,甚至主动放弃部分市场。

这两条路径不是互斥的,但代表了不同的风险认知。前者假设风险可以通过迭代部署和逐步扩展来管理;后者认为存在能力阈值,一旦跨越就必须改变部署逻辑。

Anthropic的选择也暴露了评估体系的滞后。Cybench被Mythos击穿后,行业需要新的网络安全基准——既能区分顶级模型的能力差异,又不至于成为攻击者的训练教材。这种"可公开评估的敏感性"本身就是设计难题。

更紧迫的是漏洞披露的节奏。Anthropic手握数千个未公开漏洞,处于信息优势地位。这种优势可以转化为安全合作中的谈判筹码,也可能引发"谁有权持有这些知识"的争议。传统安全研究中的负责任披露规范(90天修复窗口等)是否适用于AI发现的漏洞,尚无共识。

计算成本的重新定义

回到那个2万美元的数字。发现OpenBSD漏洞的成本结构值得拆解:1000次运行,每次运行包含代码分析、漏洞定位、利用构造等步骤。

传统安全审计中,这种深度的内核级漏洞发现通常需要数人月的专家工作,成本数十万美元起。Mythos把边际成本压缩到接近计算资源的线性扩展。

这意味着漏洞发现的规模经济彻底翻转。以前,深度审计是奢侈品,只有关键系统负担得起;现在,理论上可以用固定预算扫描整个开源生态。

Anthropic提到的"数千个漏洞"可能就是这种扫描的结果。如果2万美元能发现一个27年的内核漏洞,同等预算覆盖的代码库规模可以想象。

但这种效率也有副作用。漏洞发现的速度可能超过修复速度,制造"披露债务"——已知但未修复的漏洞积压。这对整个软件供应链的安全响应能力提出新要求。

被隐藏的能力与被推迟的问题

Mythos的完整能力图谱仍是黑箱。Anthropic明确表示,由于安全原因,"模型自主利用漏洞能力的全部范围尚未被突出展示"。

这句话的潜台词是:我们知道它能做什么更多的事,但不能说。

这种信息不对称是Project Glasswing的设计特征,也是它的结构性张力。合作伙伴获得优先访问,但公众和监管机构只能依赖Anthropic的自我报告来评估风险。

在AI治理讨论中,"外部审计"和"独立评估"是高频词汇。Mythos的案例显示,当模型能力本身成为敏感信息时,传统审计机制如何运作?谁能访问模型以进行独立评估?评估结果能否公开?

Anthropic的系统卡提供了部分信息,但系统卡的内容本身也是公司筛选后的产物。这种"自我披露"模式在能力边界清晰时有效,当模型进入未知领域时,其可靠性存疑。

技术封锁的历史参照

把最强技术锁起来的做法,在科技史上有先例可循。

核技术的早期发展涉及类似的封闭逻辑:某些知识太危险,不能广泛传播。但核技术的控制依赖于材料稀缺性(浓缩铀/钚)和设施规模,AI模型控制则依赖数字访问管理——历史上证明更易绕过。

密码学是另一个参照。1990年代的"加密战争"中,美国政府试图限制强加密算法的出口,最终失败。技术扩散的压力通常压倒控制意图,除非控制机制内嵌于技术本身。

Mythos的情况略有不同:它不是限制出口,而是限制生产部署。但核心张力相似——技术能力一旦存在,完全隔离的难度随时间递增。

Anthropic的赌注似乎是:在控制机制被突破之前,利用时间窗口建立防御性应用的优势,并推动行业规范的形成。这需要Project Glasswing的合作伙伴网络足够有效,以至于即使模型最终扩散,防御方也已占据有利位置。

开发者社区的隐性代价

Mythos的封闭对开发者生态有直接影响。Claude系列一直是"氛围编程"(vibe coding,指非专业开发者用自然语言描述需求、由AI生成代码的实践)社区的重要工具,Opus模型尤其受资深开发者青睐。

现在,能力跃升最大的版本被抽离出这个生态。开发者可以读到93.9%的SWE-bench分数,但无法验证或基于它构建。

这种"可见不可得"可能产生复杂效应。一方面,它强化了Anthropic的技术品牌;另一方面,它也可能加速竞争对手的追赶动机——既然最强模型不开放,追赶者的产品就成为实际可用的最优选择。

对"氛围编程"群体而言,Mythos的缺失尤为明显。这个群体依赖模型的端到端任务完成能力,而Mythos在自主软件工程上的提升正是针对这类场景。Project Glasswing的合作伙伴筛选标准 presumably 偏向有组织的安全团队,而非个体开发者。

这种分层访问可能固化技术红利的不平等分布:大型机构获得AI安全能力的早期优势,个体和小团队只能等待技术降级或泄露。

基准测试的军备竞赛

Mythos对Cybench的击穿,提出了基准测试本身的可持续性问题。

AI领域的历史模式是:新基准建立→模型性能提升→基准饱和→新基准建立。这个循环在通用能力评估中运作良好,但在安全相关领域有独特风险。

网络安全基准的饱和意味着,区分模型能力需要更真实的测试环境——即实际漏洞利用。但设计这类基准本身就是双刃剑:它既用于评估防御能力,也可能被用于训练攻击能力。

Anthropic的应对是退回到内部评估,但这无法解决行业层面的比较问题。当多个厂商都声称拥有"超越现有基准"的模型时,公众和决策者如何比较它们?

可能的出路包括:受控的第三方评估环境、差分隐私保护下的基准测试、或者基于历史漏洞修复率的间接评估。但这些方案都在探索阶段,远未成熟。

从漏洞发现到漏洞经济学

Mythos揭示的不仅是技术能力,还有漏洞市场的潜在重构。

当前的漏洞披露生态混合了多种激励:厂商的漏洞赏金计划、政府的信息获取、黑市交易、研究者的学术声誉。Mythos这类模型的出现,可能把漏洞发现变成可规模化的计算任务,冲击现有的人力密集型模式。

如果2万美元的计算成本成为发现高危漏洞的常规价格,漏洞赏金计划的定价基准就需要重设。传统上,内核级漏洞的赏金可达数十万美元,这个价格包含的是专家时间的稀缺性。当稀缺性被计算规模替代,市场如何重新定价?

更激进的可能是"漏洞即服务"模式:模型持续扫描特定代码库,向订阅者提供实时漏洞情报。Project Glasswing可以被视为这种模式的雏形,只是当前聚焦于防御性披露。

但这种模式的治理挑战巨大。谁决定扫描的目标优先级?发现的漏洞如何在不制造系统性风险的前提下货币化?Anthropic目前的"负责任披露"承诺是自愿性的,缺乏外部约束。

能力阈值与治理框架的错配

Mythos的案例凸显了一个被低估的问题:AI治理框架的设计速度,落后于能力涌现的速度。

当前的AI安全讨论多聚焦于通用人工智能(AGI)或超级智能的长期风险。但Mythos展示的是中间地带的治理真空:模型尚未达到"自主复制"或"欺骗人类"的科幻场景,但已具备对关键基础设施造成实际损害的能力。

这种"中等能力-高影响"场景,现有的监管工具覆盖不足。欧盟AI法案关注高风险应用,但假设风险来自部署场景而非模型内在能力;美国的行政令侧重计算报告和 red-teaming,但未涉及能力达到特定阈值后的强制隔离。

Anthropic的自我限制是先行一步,但这种自愿性措施的可扩展性有限。如果其他厂商选择不跟随,竞争压力可能侵蚀封闭策略的可持续性。

行业需要的能力阈值框架,可能包括:自动漏洞利用成功率超过X%的模型,必须满足Y类访问控制;发现零日漏洞的能力,必须在Z小时内向指定机构报告。这些参数的具体设定需要技术-政策共同体的密集工作,而目前这种工作尚未系统展开。

数据收束

93.9%的SWE-bench分数,100%的Cybench成功率,27年的OpenBSD漏洞,2万美元的计算成本,数千个待披露的安全缺陷——这些数字勾勒出一个能力跃迁的临界点。

Anthropic选择用Project Glasswing的封闭网络来承接这种能力,是技术治理的一次实验。它的成败将取决于三个变量:封闭系统的实际安全性(能否防止能力外流)、防御性应用的有效性(能否产生可见的安全收益)、以及行业规范的跟进速度(能否把自愿实践转化为可持续的制度)。

Mythos被锁在保险箱里,但保险箱的存在本身已经成为信号。AI行业正在学习处理一种新型资产:强大到不能自由流通的能力。这种学习的曲线,将定义接下来几年的技术-社会关系。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
16岁Kimi正脸照首曝光,下半脸一言难尽,网友:白瞎林志颖好基因

16岁Kimi正脸照首曝光,下半脸一言难尽,网友:白瞎林志颖好基因

杨仔述
2026-04-15 19:18:12
倪萍叶倾城的劣质奶,喂了我们三十年

倪萍叶倾城的劣质奶,喂了我们三十年

不正确
2026-04-16 20:44:44
河南检察机关依法对周先旺涉嫌受贿案提起公诉

河南检察机关依法对周先旺涉嫌受贿案提起公诉

证券时报
2026-04-16 10:44:06
世界杯抽签分组出炉,中国队迎战奥运冠军

世界杯抽签分组出炉,中国队迎战奥运冠军

刺猬篮球
2026-04-16 12:16:02
台湾拳击手林郁婷无缘奥运会了,女子项目只允许“生理女性”参赛

台湾拳击手林郁婷无缘奥运会了,女子项目只允许“生理女性”参赛

总在茶余后
2026-03-31 14:35:00
天气预报|未来三天重庆大部地区多云到晴

天气预报|未来三天重庆大部地区多云到晴

上游新闻
2026-04-16 18:30:04
米饭立大功!研究发现:糖尿病患者常吃米饭,或能降低5类并发症

米饭立大功!研究发现:糖尿病患者常吃米饭,或能降低5类并发症

今日养生之道
2026-04-16 17:07:00
现场开炮!波兰议员当众嘲讽以色列:看好了,你们国旗长这样才对

现场开炮!波兰议员当众嘲讽以色列:看好了,你们国旗长这样才对

谛听骨语本尊
2026-04-15 18:13:09
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
英国、日本、加拿大、巴西、瑞士、约旦、澳大利亚、哥伦比亚、印度尼西亚、塞拉利昂,发表联合声明

英国、日本、加拿大、巴西、瑞士、约旦、澳大利亚、哥伦比亚、印度尼西亚、塞拉利昂,发表联合声明

新京报政事儿
2026-04-15 11:41:04
教育部新规落地!9月上学全变了,家长趁早看,早了解早安排

教育部新规落地!9月上学全变了,家长趁早看,早了解早安排

小谈食刻美食
2026-04-16 07:28:48
大胆去做,不要怕,没有人在乎。就算有人在乎,人又算什么东西

大胆去做,不要怕,没有人在乎。就算有人在乎,人又算什么东西

清风拂心
2026-04-07 10:15:07
向太拿烟头烫继女?曾沛慈表白汪东城?鞠婧祎方禁言粉丝?张伦硕逼钟丽缇生娃?后台咖女星辱骂粉丝?

向太拿烟头烫继女?曾沛慈表白汪东城?鞠婧祎方禁言粉丝?张伦硕逼钟丽缇生娃?后台咖女星辱骂粉丝?

十锤星人
2026-04-16 23:24:01
手握43个世界冠军,25岁嫁百亿豪门,7年连生4娃,仍被丈夫宠成宝

手握43个世界冠军,25岁嫁百亿豪门,7年连生4娃,仍被丈夫宠成宝

翰飞观事
2026-04-16 14:36:57
1个月3次恐吓,中国驻日大使馆忍无可忍!高市早苗还在装聋作哑?

1个月3次恐吓,中国驻日大使馆忍无可忍!高市早苗还在装聋作哑?

趣味八卦
2026-04-17 02:35:58
争议!张雪又乱说话了 反转后自己删除视频 网友:老老实实造车吧

争议!张雪又乱说话了 反转后自己删除视频 网友:老老实实造车吧

念洲
2026-04-16 07:35:45
王楚然‖玉骨凝仙气,清姿不染尘

王楚然‖玉骨凝仙气,清姿不染尘

可乐谈情感
2026-04-16 20:30:37
马斯克亲自托举?数据显示Cybertruck近五分之一销量来自自家企业

马斯克亲自托举?数据显示Cybertruck近五分之一销量来自自家企业

财联社
2026-04-16 21:32:05
5种人工养殖的海鱼,几乎没有纯野生的,最后一种号称“药罐子”

5种人工养殖的海鱼,几乎没有纯野生的,最后一种号称“药罐子”

秀厨娘
2026-04-16 11:24:34
台球名宿暗示世锦赛需要传奇故事:我只看好赵心童或奥沙利文夺冠

台球名宿暗示世锦赛需要传奇故事:我只看好赵心童或奥沙利文夺冠

杨华评论
2026-04-16 18:27:49
2026-04-17 04:39:00
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
1477文章数 7关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

游戏
艺术
房产
家居
公开课

《荒野大镖客3》最全新情报!前传还是新故事?

艺术要闻

你绝对想不到!这幅油画背后的美丽故事!

房产要闻

人人人人!封关后首届消博会,挤爆了!

家居要闻

智能舒适 简约风尚

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版