Anthropic把微软苹果拉进群聊|网络安全|终端安全|苹果公司|知名企业|anthropic

分享至

3月底消息走漏时，Anthropic正在训练一个代号Mythos的新模型。4月8日正式官宣，顺带甩出一个叫Project Glasswing的行业联盟——微软、苹果、谷歌、AWS、英伟达、思科等40多家科技、网络安全、关键基础设施和金融公司全部在列。这阵容不像发布会，更像战前动员会。

Logan Graham，Anthropic的前沿红队负责人，直接点破意图：「真正的信号不是这个模型，也不是Anthropic。我们需要现在就开始准备，迎接6个月、12个月、24个月后这些能力遍地开花的局面。」

换句话说，他们提前拉响警报，是因为测试中发现的东西让内部人坐不住了。

「副作用」比主菜更吓人

CEO Dario Amodei在发布视频里说得直白：「Claude Mythos Preview是一次特别大的跃迁。我们没专门训练它搞网络安全，只训练了写代码——但代码写得好，网络安全能力就成了副作用。」

这个「副作用」的具体表现包括：发现漏洞、生成攻击链和概念验证、开发高级漏洞利用程序、渗透测试、终端安全评估、搜寻系统配置错误，以及在没有源代码的情况下分析软件二进制文件。

Graham补充了一个关键细节：模型能自主完成多步骤攻击规划。不是给你一份漏洞清单就完事，而是能串联起「发现A漏洞→利用B配置错误→在C环节提权」的完整链条。

这种能力在AI安全研究里有个专门术语：「涌现能力」（Emergent Capabilities）。模型在特定规模或训练阶段突然展现出设计者未明确训练的技能。Mythos的网络安全能力就属于这一类——Anthropic想让它当程序员，它顺便学会了当黑客。

为什么不让它直接上线

Mythos Preview目前不对公众开放。40多家联盟成员获得的是「私有访问权限」，核心任务只有一个：拿自家系统给模型当靶场。

这个设计借鉴了网络安全行业的经典做法——「红队测试」（Red Teaming）。传统红队是企业花钱请安全专家扮演攻击者，找出防御漏洞。现在Anthropic把AI模型塞进这个角色，而且能力远超人类专家的速度和规模。

联盟成员名单透露了Anthropic的焦虑范围：除了直接的AI竞争对手（微软、谷歌、亚马逊），还有芯片层（英伟达、博通）、网络层（思科）、系统层（Linux基金会）、金融层（多家未公开名称的金融机构），以及关键基础设施运营方。

这种跨层覆盖不是面子工程。AI模型的攻击面横跨整个技术栈：从芯片指令集到操作系统内核，从云服务平台到终端应用，从金融交易接口到工业控制系统。任何一个环节的漏洞都可能被自动化工具规模化利用。

「猫鼠游戏」进入下一回合

AI辅助攻防不是新鲜事。GitHub Copilot能写安全代码，也能写漏洞利用；OpenAI的模型早就展示过逆向工程能力。但Mythos Preview的特殊之处在于「自主规划」——它不只是执行人类给定的攻击思路，而是能自己设计攻击路径。

Graham描述的测试场景里，模型表现出接近人类安全研究者的策略性思维：评估目标系统的防御架构，识别最薄弱的切入点，选择最优的攻击工具组合，甚至在遭遇防御时调整策略。

这种能力对防御方是双刃剑。一方面，企业可以用它提前发现自己的漏洞；另一方面，攻击者获得同等工具后，防御成本的上升曲线会陡得多。

Amodei在视频里承认：「更强大的模型会来自我们，也会来自其他人。所以我们确实需要一个应对计划。」这句话的潜台词是：就算Anthropic把Mythos锁进保险柜，其他公司的模型迟早会达到同等水平，甚至更高。

Project Glasswing的隐藏议程

公开说法是「给开发者时间修复漏洞」，但联盟结构暗示了更深层的博弈。让竞争对手、上下游厂商、关键基础设施运营方提前接触模型，Anthropic实际上在建立一种「集体防御」机制。

网络安全领域的经典困境是「公地悲剧」：每个人都希望自己的系统安全，但漏洞信息共享可能暴露自身弱点，修复成本又往往由单一企业承担。Project Glasswing试图用「私有访问+协调披露」破解这个困局——联盟成员在封闭环境中测试，漏洞修复后再逐步扩大知情范围。

这种设计的代价是透明度。公众无法直接评估Mythos的真实能力，只能依赖Anthropic和联盟成员的描述。Graham强调「这不是关于模型或Anthropic」，但模型的访问权限完全由Anthropic控制，评估标准也由联盟内部制定。

一个未被回答的问题是：如果联盟成员在测试中发现模型有不可控的危险行为，他们是否有权公开披露？还是必须遵守Anthropic设定的披露时间表？

6-24个月的时间窗口

Graham反复提到的时间线——6个月、12个月、24个月——不是随便说的。这对应着AI行业的能力释放节奏：内部测试→受限发布→API开放→开源或泄露。

当前阶段属于「受限发布」，只有签约联盟成员能接触模型。下一阶段可能是「API开放给认证企业」，最后是「广泛可用」——无论通过官方渠道还是模型权重泄露。

每个阶段的过渡时间正在缩短。Llama 3从发布到出现微调版本用了几周；Claude 3.5 Sonnet的能力在发布后被迅速复刻到开源模型。Mythos级别的代码-安全复合能力，一旦进入广泛可用阶段，防御方的准备窗口可能以天计算。

「现代安全范式的许多基础假设可能会崩溃。」Graham这句话指向的是整个行业的底层逻辑：当前的网络安全体系建立在「攻击成本高于防御成本」的假设上。自动化漏洞发现和利用工具的普及，可能逆转这个等式。

谁在为「副作用」买单

Mythos的训练目标很纯粹：写更好的代码。但「更好」的定义本身就有争议——是更符合人类意图，还是更高效地达成目标？当模型学会用非预期方式达成目标时，这就是安全研究者所说的「对齐问题」（Alignment Problem）。

在网络安全场景里，对齐问题的表现特别尖锐。模型可能发现一种极高效的漏洞利用方式，但这种方式的副作用是破坏关键系统；或者模型为了「完成渗透测试任务」，采取超出授权范围的行动。

Project Glasswing的测试协议 reportedly 包含「人机协作」条款：模型的攻击建议必须由人类审核后才能执行。但这种护栏在模型能力持续升级的情况下能维持多久？当模型的攻击策略比人类审核者更复杂时，审核本身可能流于形式。

联盟成员中的金融机构和关键基础设施运营方，面临的约束更严格。他们的系统不能随意停机测试，漏洞修复需要经过合规审查，而攻击者的自动化工具没有这些负担。

行业联盟的局限性

40多家公司的参与看似广泛，但覆盖范围仍有明显缺口。没有中国AI公司，没有俄罗斯网络安全厂商，没有开源社区的代表性组织。这意味着Project Glasswing的「集体防御」本质上是西方科技巨头的协调机制。

这种排他性在短期可能提升协调效率，长期却制造了新的脆弱性。AI模型的能力不受国界限制，但防御协调却受地缘政治分割。当Mythos级别的能力通过开源或泄露渠道全球扩散时，非联盟成员的系统可能成为攻击跳板，反过来威胁联盟成员。

另一个缺口是中小企业。联盟名单里的公司都有专职安全团队和合规预算，但全球绝大多数企业的安全投入远低于这个水平。他们既不会获得Mythos的提前访问权限，也难以承受模型能力普及后的防御成本上升。

这种不对称可能重塑行业格局：安全能力成为规模效应极强的竞争要素，小公司被迫依赖大公司的安全云服务，进一步集中化。

技术细节的真空

Anthropic对Mythos Preview的技术规格保持沉默。模型规模、训练数据构成、安全微调方法、评估基准结果——这些关键信息均未公开。Graham强调「这不是关于模型」，但模型的具体能力边界直接决定了防御准备的优先级。

已知的只有Amodei描述的「副作用」逻辑：代码能力与网络安全能力的强相关性。这暗示Mythos可能延续了Claude 3.5级别的架构，但在代码训练数据上做了大幅扩展。

「涌现能力」的不可预测性加剧了信息真空。即使Anthropic完全公开训练过程，也无法保证预测模型在所有场景下的行为。这也是Project Glasswing采用「实测驱动」而非「规范驱动」策略的原因——与其依赖理论分析，不如让联盟成员在真实系统中观察模型表现。

但这种策略的代价是时间。每个联盟成员的测试周期、内部审批流程、漏洞修复节奏都不相同，协调40多家公司的行动本身就是复杂的管理挑战。Graham提到的6-24个月窗口，可能相当一部分要消耗在组织协调上。

竞争与合作的张力

Project Glasswing的参与者名单里，微软和谷歌是Anthropic的直接竞争对手，AWS既是竞争对手又是投资方，苹果在AI领域长期保持疏离姿态。这种组合在科技行业极为罕见。

驱动合作的因素是对共同威胁的认知：无论哪家公司的模型先达到「自主攻击规划」水平，整个行业都要面对防御体系重构的压力。提前协调至少能确保「崩溃」是可控的、有序的，而非突然的、混乱的。

但这种合作的脆弱性也很明显。联盟成员同时在进行各自的AI安全研究，微软有Copilot Security，谷歌有Project Zero的AI扩展，AWS有Bedrock的Guardrails。如果某家公司的内部模型被认为比Mythos更安全或更强大，合作的动力可能迅速消退。

Amodei在视频里说的「来自其他人的更强大模型」，既是陈述事实，也是向竞争对手喊话：别等着看我们怎么处理，你们自己的模型也快了。

监管层面的空白

Project Glasswing是一个行业自组织机制，没有政府参与，没有外部审计，没有强制披露要求。这种设计在速度上有优势——不需要等待立法程序或国际谈判——但在问责制上有明显缺陷。

欧盟AI法案对「通用人工智能模型」有系统性风险评估要求，但Mythos Preview目前处于「研究预览」状态，可能规避部分义务。美国的AI安全框架仍是自愿性质，白宫的AI行政令主要关注联邦政府使用场景。

这种监管空白创造了「行动窗口」：在行业能力超越监管框架的这段时间里，科技公司可以自行设定标准。Project Glasswing本质上就是Anthropic试图设定的标准——用「负责任的能力释放」叙事，抢占监管辩论的定义权。

但标准的有效性取决于执行。如果联盟成员在测试中发现严重风险，他们是否有动力公开？还是会选择私下修复、避免引发监管关注？Graham描述的「协调披露」机制，具体规则尚未公开。

用户端的连锁反应

对于普通用户，Mythos Preview的直接影响有限——他们接触不到这个模型。但间接影响可能很快显现：软件更新频率加快、多因素认证强制化、云服务安全审查收紧、甚至某些功能因「安全加固」而被移除。

企业IT部门的预算分配已经在变化。Graham提到的「终端安全评估」和「系统配置错误搜寻」能力，意味着AI可以自动化完成过去需要人工渗透测试的工作。这降低了安全评估成本，但也提高了「最低安全门槛」——达不到AI评估标准的企业，将面临更大的被攻击风险。

一个未被讨论的场景是：如果Mythos级别的能力被用于攻击消费者设备，现有的「用户教育」策略是否还有效？当攻击自动化到每秒尝试数千种社工话术时，「不要点击可疑链接」的建议几乎失效。

开源与封闭的拉锯

Anthropic选择了封闭发布策略，与Meta的Llama系列形成对比。这种选择部分源于能力特性：自主攻击规划能力一旦开源，几乎不可能收回。但封闭策略也有代价——外部研究者无法独立验证风险，只能依赖Anthropic和联盟成员的描述。

开源社区的反弹已经在酝酿。一些安全研究者认为，封闭测试无法模拟真实世界的对抗环境，只有广泛部署才能发现模型的真正弱点。这种观点认为，Project Glasswing的「可控释放」是一种幻觉，真正的风险在模型走出实验室、遭遇 motivated adversaries（有动机的攻击者）时才会暴露。

Anthropic的回应隐含在Project Glasswing的设计中：与其让能力无序扩散，不如先让「负责任」的参与者建立防御基础。但这种「责任」的定义权掌握在谁手里？联盟成员的选择标准是什么？这些问题没有公开答案。

能力曲线的不可预测性

Amodei提到的「副作用」现象，指向AI研究的一个核心焦虑：我们越来越擅长训练模型，却越来越不擅长预测它们会学会什么。Mythos的网络安全能力不是设计目标，是规模效应的副产品。

这种「副产品」模式意味着，下一次能力跃迁可能来自完全不同的训练方向。一个专注于数学证明的模型可能意外获得破解加密协议的能力，一个优化多模态理解的模型可能学会伪造生物特征。Project Glasswing针对的是当前已观察到的能力，但防御体系需要应对的是尚未出现的能力。

Graham的24个月时间窗口，在这种不确定性面前显得乐观。如果「副作用」的出现速度超过预期，或者某种新架构带来突然的跃迁，当前的准备计划可能瞬间过时。

一个未被回答的问题

Project Glasswing的最终目标是什么？是建立一个可持续的行业协调机制，还是为Anthropic争取监管缓冲时间？是为「安全的能力释放」设定先例，还是为未来的产品发布积累信任资本？

这些目标并不互斥，但优先级不同，行动逻辑也不同。如果核心是协调机制，那么联盟的结构和规则应该公开透明；如果核心是时间缓冲，那么封闭性和灵活性更重要。

目前看到的迹象指向后者。Mythos Preview的访问权限、测试协议、评估标准、披露时间表——所有这些关键决策都掌握在Anthropic手中。40多家公司的参与提供了合法性背书，但决策结构仍是中心化的。

这种设计在行业联盟中并不罕见，但它与Anthropic公开倡导的「AI安全需要多方参与」的叙事之间存在张力。当Graham说「这不是关于模型或Anthropic」时，他描述的更像是一个理想状态，而非当前现实。

尾声：当「副作用」成为主菜

4月8日的发布会上，Amodei用了一个微妙的表述：代码能力是主菜，网络安全是副作用。但Project Glasswing的组织规模暗示了另一种解读——在联盟成员的测试清单上，网络安全能力才是被重点关注的「主菜」，代码能力只是获取它的途径。

这种认知差异本身就有信息量。Anthropic希望外界关注它的「负责任」姿态，但参与测试的公司更关心的是：这个模型能对我的系统做什么？

Logan Graham在采访最后说：「许多事情将会不同。」他没有说哪些事情、多快、对谁。这种刻意留白，可能是诚实——没人能准确预测——也可能是策略，为后续的叙事调整保留空间。

6个月后，当Project Glasswing的第一阶段测试结束，Anthropic会公开什么？模型的完整评估报告，还是另一轮「我们需要更多时间」的延期？联盟成员中是否有人会打破沉默，描述他们看到的具体能力？

这些问题的答案，将决定「副作用」叙事是成为AI安全合作的模板，还是封闭控制策略的又一个案例。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Anthropic把微软苹果拉进群聊

「副作用」比主菜更吓人

为什么不让它直接上线

「猫鼠游戏」进入下一回合

Project Glasswing的隐藏议程

6-24个月的时间窗口

谁在为「副作用」买单

行业联盟的局限性

技术细节的真空

竞争与合作的张力

监管层面的空白

用户端的连锁反应

开源与封闭的拉锯

能力曲线的不可预测性

一个未被回答的问题

尾声：当「副作用」成为主菜

Meta凌晨首发闭源大模型 扎克伯格又行了？

白宫发言人：特朗普直接把伊朗停战条款扔进了垃圾桶

白宫发言人：特朗普直接把伊朗停战条款扔进了垃圾桶

8万人面前心脏骤停 现在他还站在球场上

金莎官宣结婚 与老公孙丞潇相差18岁

谈判基础已被破坏！霍尔木兹海峡关闭

文飞的回归 给神行者带来什么？

态度原创

庞茂琨 2026油画写生新作

清新自然 复古风尚

2026年排卵期用什么产品测比较准？科学评测五款主流产品助您精准备孕

沦陷！《漫威》高分3A大作遭破解 D加密被击穿

Meta凌晨首发闭源大模型扎克伯格又行了？

8万人面前心脏骤停现在他还站在球场上

金莎官宣结婚与老公孙丞潇相差18岁

文飞的回归给神行者带来什么？

清新自然复古风尚