Anthropic把新模型锁进保险柜|沙箱|代码|工作流|维护者|网络安全|电子表格|anthropic

分享至

Claude Mythos没发布。Anthropic今天把它塞进了名叫Glasswing的封闭项目，只给特定安全研究员开小灶。

官方理由是：这模型的网络安全研究能力强到离谱，软件行业需要时间准备。Mythos Preview已经挖出数千个高危漏洞，覆盖所有主流操作系统和浏览器。按AI现在的进化速度，这种能力很快会扩散到不那么守规矩的人手里。

「我们的模型太危险所以不能发」——这话放在营销案里像炒作，但这次Anthropic的谨慎大概率是真的。

Linux内核维护者的警报：AI生成的漏洞报告从笑话变成真家伙

上周五，我专门开了个ai-security-research标签。因为过去几周，一群正经安全专家突然开始集体拉警报，说现代大语言模型在漏洞研究上已经强到让人坐不住。

Linux内核维护者Greg Kroah-Hartman的原话是：「几个月前，我们收到的东西叫『AI slop』——AI生成的安全报告，明显是错的，质量低得可笑。有点意思，但不担心。大概一个月前，世界变了。现在我们有真报告了。所有开源项目都收到AI做的报告，但它们是好的，是真的。」

curl作者Daniel Stenberg更直白：「AI在开源安全里的挑战，已经从『AI slop海啸』变成了『普通安全报告海啸』。垃圾少了，但报告海量。很多质量真的很高。我现在每天花几小时处理这个，强度很大。」

Thomas Ptacek干脆写了篇博客叫《漏洞研究已死》（Vulnerability Research Is Cooked），灵感来自他和Anthropic研究员Nicholas Carlini的播客对谈。

这三个人没有一个是喜欢大惊小怪的。Kroah-Hartman管着全球最复杂的代码库之一，Stenberg的curl跑在几十亿台设备上，Ptacek是安全圈出了名的毒舌老炮。当他们同时说「这次不一样」，值得听。

Glasswing的运作逻辑：给基础设施做体检，而不是发武器

Glasswing的合作伙伴能拿到Mythos Preview，任务很明确：在基础系统里找漏洞、修漏洞。这些系统构成了全球网络攻击的共享表面——你的手机、电脑、路由器、云服务，底层都是同一批代码。

Anthropic列了几个具体场景：本地漏洞检测、二进制黑盒测试、端点加固、系统渗透测试。没有「自动入侵竞争对手」或者「一键瘫痪电网」这种好莱坞剧情，但也没有否认模型能做更复杂的事。

Nicholas Carlini在Anthropic的5分钟宣传视频里说了关键一句：「它能串联漏洞。找到两个漏洞，单独看都没啥用，但模型能把三四个甚至五个漏洞串成链，搞出非常复杂的最终效果。」

Carlini还补了一句：「过去几周我挖的bug，比我这辈子之前挖的加起来还多。」

这话从Carlini嘴里出来，分量很重。他是安全研究圈的实干派，之前做过大量AI安全和对齐方面的工作，不是那种只会发推特的「AI安全布道者」。如果他都说工具改变了个人产出数量级，那工具确实变了。

为什么是现在？模型能力曲线撞上了责任释放的瓶颈

Anthropic不是第一家做模型受限访问的公司。OpenAI的o3在推理能力上也有类似处理，DeepSeek的R1发布时也被讨论过是否该更谨慎。但Mythos的特殊之处在于，它的危险能力不是「生成有害内容」这种模糊地带，而是「自动找漏洞并组合利用」这种可量化、可验证的技术能力。

这里有个微妙的时间线。Kroah-Hartman说的「一个月前世界变了」，大概对应2月中下旬。Anthropic的Glasswing宣布在4月初。中间这六周，是安全社区内部消化冲击、厂商评估风险、政策层面试探反应的时间窗口。

Glasswing的推出，可以理解为Anthropic在这个窗口期做的选择：既不彻底封死模型（那样竞争对手会抢先），也不完全开放（那样责任太大），而是找一个中间态——让可信的第三方先用起来，同时给行业争取补丁时间。

这个策略的代价是明显的。受限访问意味着更少的公众监督，更慢的学术复现，更集中的权力在Anthropic手里决定「谁值得信任」。好处也同样明显：漏洞在被坏人发现之前被好人修掉，基础设施的韧性增强，模型能力的扩散速度被拖慢几个月。

几个月在AI时代不算长，但在网络安全里，几个月可以是补丁周期和灾难之间的距离。

「AI slop」到「真报告」的拐点，到底发生了什么？

Kroah-Hartman和Stenberg都提到了同一个转变：AI生成的安全报告从「明显错误」变成了「需要认真对待」。这个变化不是线性的，而是突然的——「一个月前，世界变了」。

可能的解释有几个。一是模型基础能力的跃迁，Claude 3.5 Sonnet或GPT-4级别的代码理解能力，加上专门针对安全研究的微调，产生了质变。二是工具链的成熟，AI不再只是生成文本，而是能调用编译器、调试器、沙箱环境，形成闭环。三是社区学习效应，早期AI生成的垃圾报告训练了维护者的识别能力，也训练了AI生成更好报告的能力。

Anthropic没有透露Mythos的具体训练细节，但从Carlini的描述看，「串联漏洞」的能力暗示了某种规划或推理层面的突破。不是模式匹配找到单个bug，而是理解漏洞之间的依赖关系，构建利用链——这接近人类安全研究员的高级技能。

如果这种能力真的普及，开源软件维护者的处境会变得很奇怪。一方面，漏洞被发现和修复的速度会加快；另一方面，报告洪流可能淹没本就资源紧张的维护团队。Stenberg说的「每天几小时」只是开始，如果报告量再涨一个数量级，curl这样的项目可能需要专门的AI报告处理流程，或者干脆雇人全职干这个。

Glasswing的合作伙伴是谁？ Anthropic没说完的部分

官方公告里，Glasswing的合作伙伴描述得很模糊：「代表全球共享网络攻击表面很大部分的系统」的维护者。没有名单，没有数量，没有选择标准。

这留下了几个问题。首先是透明度问题：谁决定谁值得信任？Anthropic的安全团队？某个外部委员会？还是商业考量？其次是覆盖问题：如果只有「主要」系统能拿到访问权限，长尾的开源项目怎么办？它们同样是全球基础设施的一部分，但可能没有渠道或影响力进入Glasswing。

Kroah-Hartman的Linux内核显然是候选者，Stenberg的curl可能也是。但还有无数没那么知名但同样关键的库——加密库、网络协议栈、容器运行时——它们的维护者可能正在读这条新闻， wondering 自己能不能拿到访问权限。

另一个未解的问题是竞争动态。如果Anthropic能通过Glasswing提前接触关键基础设施的漏洞信息，这是否给了它不公平的安全研究优势？其他AI公司会不会被迫推出类似项目，导致基础设施维护者被不同厂商的「预览计划」分割？

这些不是指责，是Glasswing模式自然延伸出的问题。任何受限访问机制都面临类似的张力：封闭带来安全，也带来权力集中；开放带来创新，也带来风险扩散。Anthropic的选择是在这个光谱上偏向封闭的一端，但光谱本身没有消失。

安全研究的新常态：人类和AI的协作边界在哪？

Carlini说Mythos帮他找到的bug超过职业生涯总和，这句话可以有两种理解。一种是乐观的：AI放大人类能力，让单个研究员能覆盖更大范围的系统。另一种是微妙的：如果AI能找到人类找不到的bug，那么「人类安全研究员」这个角色本身的定义在变化。

传统的漏洞研究是一个手艺活。需要深入理解系统架构，需要直觉判断哪里可能出问题，需要耐心构造测试用例。AI的介入改变了这个流程的瓶颈。架构理解可以靠大规模代码分析，直觉可以被统计模式替代，测试用例生成可以自动化。剩下的可能是「判断哪些发现值得跟进」和「验证利用链的实际可行性」——但这两个环节也在被侵蚀。

Stenberg说的「每天几小时处理报告」，暗示了新的分工：AI负责发现，人类负责筛选和修复。但这个分工能稳定吗？如果AI的报告质量继续提升，筛选环节会不会也被自动化？如果修复建议也能由AI生成，人类维护者的角色会压缩到什么地步？

这不是「AI取代人类」的科幻场景，是正在发生的职业重构。Kroah-Hartman、Stenberg、Carlini这些一线实践者的反馈，比任何宏观预测都更值得参考。他们不是在担心失业，是在适应一种新工具带来的工作流剧变。

模型的「危险能力」评估，终于从纸面走向实践

AI安全社区讨论「危险能力评估」已经很多年，但大多是理论框架。Mythos和Glasswing提供了一个罕见的实例：一个公司真的认为自己的模型太危险而不能公开发布，并且采取了实际行动。

这个先例的意义可能超出Anthropic本身。如果Glasswing被证明是成功模式——既减少了实际风险，又没有过度阻碍研究进展——其他公司可能会效仿。如果失败——要么因为封闭导致关键漏洞被外部发现，要么因为开放范围不当导致滥用——会成为监管和政策讨论的素材。

Ptacek的博客标题《漏洞研究已死》是夸张的，但指向一个真实的变化。不是研究本身死了，是研究的游戏规则变了。当AI能以超人类速度扫描代码、组合漏洞、生成利用，人类研究者的价值转向哪里？可能是定义研究目标，可能是解释AI的发现，可能是处理AI无法处理的模糊情境——但这些都还在摸索中。

Anthropic的5分钟视频里，Carlini的语气是兴奋的。这种兴奋和谨慎的混合，大概是当前AI安全研究者的普遍状态。工具突然变强了，强到需要新的使用规范，但规范还没写好，只能边用边定。

Glasswing的命名有点意思。玻璃翅蝴蝶（glasswing butterfly）的翅膀是透明的，几乎看不见，但能飞。Anthropic可能是想表达：安全研究需要透明，但也需要保护；需要可见性，但也需要边界。或者只是市场部觉得这个名字好听。

无论如何，Mythos没发布这件事本身，比它发布了更有信息量。在AI公司普遍追求曝光和采用率的环境下，主动选择不发布是一种反向信号。Kroah-Hartman一个月前的警报，Stenberg每天几小时的报告处理，Carlini几周内超过职业生涯的bug发现——这些碎片拼起来，指向一个 Anthropic 认为需要认真对待的风险图景。

软件行业有没有准备好？Glasswing的合作伙伴名单还没公布，补丁周期能不能追上AI能力的扩散速度，开源维护者的工作流能不能适应报告洪流，都是未知数。唯一确定的是，「AI slop」的时代已经过去了。现在进来的是真家伙。

当Mythos级别的能力最终公开——不是如果，是何时——今天的受限访问会看起来像预演，还是像错过的机会？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.