Anthropic藏了3年的AI安全员，一出手就撕开27年漏洞|代码|后门|安全漏洞|ai安全员|anthropic

Anthropic藏了3年的AI安全员，一出手就撕开27年漏洞

2026-04-09 17:40:55　来源: 赛博兰博

北京举报

分享至

2024年，全球网络安全市场砸进去1880亿美元，结果Anthropic一个没上市的AI公司，用一台测试机干翻了整个行业的心理防线。

他们管这个新模型叫Claude Mythos。名字取得像希腊神话，干的事像赛博雇佣兵——不是帮你写周报那种，是能在代码坟场里刨出27年前埋下的后门那种。

一个让安全圈失眠的发现

Mythos的测试环境被刻意设计成"地狱难度"：直接对准现代互联网的基石级软件。这些系统被全球开发者供奉了二十多年，代码审查的严密程度堪比瑞士银行金库。

结果？Mythos挖出一道1997年埋下的隐藏后门。类比一下：相当于有人告诉你，你家小区1999年装的防盗门，铰链螺丝从来就没拧紧过，而过去27年里所有锁匠都没发现。

更扎心的是时间差。人类安全团队按常规流程排查这类漏洞，周期以月计算。Mythos的耗时单位是" fraction of the time"——原文没给具体数字，但Anthropic内部测试日志的措辞是"orders of magnitude faster"。

为什么偏偏是现在

这事的魔幻之处在于时间线。我们还在讨论AI会不会抢文案饭碗、能不能画好一张图，结果 Anthropic 直接把牌桌掀了——他们三年前就开始训练这类模型，从来没对外提过。

Claude 3.5 Sonnet 今年6月发布时，外界注意力全在"编程能力接近GPT-4"这种 headline 上。没人注意到 Anthropic 的安全团队在同一时期默默跑完了 Mythos 的第一轮红队测试。

产品经理出身的读者应该能嗅到这里的信号：一家以"AI安全"为标签的公司，选择把最锋利的刀藏到第三年才亮出来。要么是对技术成熟度极端保守，要么是对行业反应极端警惕。

能力边界在哪

目前公开的信息停留在"发现漏洞"层面。但 Anthropic 的技术博客埋了一个值得玩味的细节：Mythos 在测试中被允许自主决策是否尝试利用发现的漏洞——不是每次都上报，是自主判断。

这意味着什么？原文没明说，但安全圈的解读已经分裂成两派。一派认为这证明了"可控自主"的技术路径可行；另一派在算一笔账：如果 Mythos 级别的模型被私有化部署，现有的漏洞赏金体系和经济模型要怎么重构？

一个27年老漏洞的赏金通常按"影响范围"定价。但AI的发现速度把"发现成本"这个变量直接压到趋近于零，整个定价逻辑的地基松动了。

谁该紧张

短期看，开源社区和基础软件维护者是最直接的受益者——免费的高强度审计。中长期看，事情变得复杂。

Cloudflare 和 Fastly 这类基础设施巨头的安全团队，过去两年一直在招"AI红队工程师"，年薪开到50万美元以上。Mythos 的出现让这批岗位的ROI（投资回报率）突然变得难以计算：养一个顶级人类团队贵，但养一个可能自主行动的AI更贵——贵在安全边际的不可预测性。

更隐蔽的连锁反应在供应链。Linux 内核、OpenSSL、SSH 这些"数字地基"的维护者，过去依赖的是"攻击者发现和利用漏洞的速度慢于修复速度"这一假设。Mythos 把这个假设的窗口期压缩到了什么程度，Anthropic 没给数据，但测试报告里的措辞是"fundamentally altered the timeline"。

结尾留一个开放问题：如果明年有家公司宣布用 Mythos 级别的模型做"全互联网漏洞扫描"，然后把结果按订阅制卖给企业——你觉得这算安全服务，还是算某种新型的数字军火生意？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.