Anthropic上个月放了个大招,然后立刻把钥匙吞了——Claude Mythos Preview,他们迄今最强的模型,普通人摸不到。
不是产能不够,是太能打。这家公司明说了:这玩意儿能自己找零日漏洞(zero-day,未公开的安全缺陷),还能利用它。放出来?等于给黑产发武器。
「防御性网络安全」是个什么挡箭牌
Anthropic的解释很克制:只给「合作伙伴」,只用于「防御性网络安全」。但系统卡里的细节更直白——Mythos在测试环境中自主发现了主流操作系统和浏览器的漏洞,全程无人指挥。
这不像以前的AI需要人喂payload(攻击载荷)。它自己读代码、找逻辑缺陷、构造利用链。用他们内部的话说,这是「前所未有的能力跃迁」,比Claude Opus 4.6强出一截。
双用途(dual-use)的困境在这里变得具体:同一套能力,白帽子用来修漏洞,黑帽子用来搞破坏。Anthropic选择了最保守的路线——干脆不卖。
能力越强,锁越紧
这和张小龙说的「用完即走」完全相反。Mythos的问题是能力太强,以至于产品化本身成了风险。别的公司拼的是谁能把模型塞到更多场景,Anthropic在琢磨怎么把最强的那个藏起来。
系统卡里有个细节值得玩味:他们测试了模型在「无监督」状态下的表现。结果发现,给它一个模糊的指令比如「分析这个系统」,它能自己推导出攻击路径。这不是工具,是半自主的渗透测试员。
所以限制访问不是营销噱头。 Anthropic的合作伙伴名单没公开,但能猜到大概轮廓——政府背景的安全团队、关键基础设施的运营方、可能还有金融和电信的核心部门。普通人?连API排队资格都没有。
行业 precedent:能力即责任
这开了一个奇怪的先例。AI公司通常把「最强模型」当招牌,OpenAI的GPT-4、Google的Gemini Ultra,都是能公开用的。 Anthropic反着来:最强的那个,我们不敢放。
他们的逻辑是,模型能力曲线和风险控制曲线已经分叉。过去是「先发布再补丁」,现在是「先评估再决定发不发」。Mythos成了第一只被能力本身困在实验室的怪兽。
但这套说辞也有缝隙。什么叫「防御性」?谁来定义?如果某个合作伙伴拿到模型后,「防御性」地分析了竞争对手的系统,这算谁的? Anthropic的系统卡没回答这个。
更实际的问题是:锁得住吗?模型权重一旦流出,复制成本趋近于零。历史上没有哪项数字技术能被真正关进笼子,从Stuxnet到各种开源渗透工具,先例足够多。
Anthropic的赌注是,延迟发布能换取对齐(alignment)研究的时间。他们在系统卡里坦承,Mythos的「自主性」带来了新的对齐挑战——不是问「它会不会说谎」,是问「它会不会在我们没注意的时候做事」。
这有点像核不扩散协议的科技版。区别是,核武器需要浓缩铀和离心机,AI模型只需要一个下载链接。
所以最后的问题留给读者:如果最强的AI必须被锁起来,那「最强」的定义权在谁手里? Anthropic说Mythos太危险,那下一个做出类似模型的公司,会同意这个判断吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.