Anthropic把最强模型锁了3年，用户从垃圾桶里翻出了真相|泄露|服务器|电子表格|anthropic

Anthropic把最强模型锁了3年，用户从垃圾桶里翻出了真相

2026-04-14 12:27:39　来源: 灰度测试中

北京举报

分享至

上周，LayerX安全团队和剑桥大学的研究人员在一台未设防的服务器里，翻出了Anthropic藏了数年的秘密。这个秘密的代号叫Mythos，一个被公司自己判定为"过于危险、不宜公开"的AI模型。在科技圈习惯了"发布即胜利"的锣鼓声中，一家公司主动把自家产品埋进沙子里，这事本身比模型参数更值得玩味。

一场意外的考古：从废弃缓存到技术地震

发现过程带着点黑色幽默。研究人员本是在例行扫描公开云存储的漏洞，结果撞进了一个本该被清空的开发环境。里面躺着几份未发布的博客草稿、技术规格表，以及一组让所有人愣住的能力描述。

根据泄露文档，Mythos在特定任务上的表现远超当前公开的Claude系列，尤其是在长文本关联推理和跨文档信息整合上。

但真正引发讨论的不是"多强"，而是"多危险"。文档中多次出现对模型"信息挖掘能力"的警告——它能从海量公开资料中，拼凑出被刻意分散隐藏的信息。不是黑客式的入侵，而是纯粹的阅读理解和模式识别，却能达到类似的效果。

这有点像给一个人类研究员无限的时间和完美的记忆力，让他去读五十年间的所有报纸。他可能会发现某份1970年代的采购记录，和2023年的一份专利申请，指向同一个被刻意模糊的项目。Mythos做的就是这个，只是速度快了百万倍。

为什么"太强"反而成了"不能发"

Anthropic的决策逻辑，在泄露的内部邮件里有迹可循。团队讨论的核心不是技术瓶颈，而是"不可控的下游影响"。一个能自动连接公开 dots（公开信息点）的系统，意味着任何试图通过"信息分散"来保护的秘密，都可能被重新组装。

这包括但不限于：企业未公开的供应链布局、个人被刻意遗忘的过往、政府希望保持模糊的战略意图。更棘手的是，这些输出完全基于合法获取的公开信息，传统的内容审核框架对此几乎无效。

一位参与早期评估的研究员在内部讨论中写道：「我们不是在担心它会说错什么，而是在担心它说对太多。」

这种"说对太多"的风险，在AI安全领域有个专门的概念：信息危害（information hazard）。指的不是虚假信息，而是真实信息的组合方式本身造成伤害。Mythos的处境，让它成了这个概念的极端案例。

对比行业常态：为什么Anthropic的选择如此反常

把时间线拉回2023-2024年，各大实验室的发布节奏几乎是军备竞赛式的。OpenAI的GPT-4、Google的Gemini、Meta的Llama系列，都在以月为单位迭代。甚至出现过模型还没训练完，市场部就开始预热的情况。

在这种氛围下，Anthropic的克制显得格格不入。他们不是没能力发布——泄露的技术规格显示，Mythos的架构和训练流程早已成熟。他们也不是没动机——一家估值数百亿美元的AI公司，本该有最强的冲动用技术突破来巩固地位。

但Anthropic的创始团队有段特殊背景。Dario和Daniela Amodei兄妹均出自OpenAI，而离开的直接原因正是对AI安全优先级的不满。他们创立Anthropic时，核心承诺就是"安全优先于能力展示"。Mythos的封存，可以看作这个承诺的终极测试。

一个细节值得注意：泄露文档中显示，Mythos的命名本身带有隐喻色彩。在希腊语境中，mythos既是"神话"，也指"未被言说的深层叙事"——一个关于"发现隐藏故事"的双关。

技术层面的真正争议：能力边界在哪里

抛开伦理讨论，Mythos的技术设计本身也有看点。泄露的规格表显示，它采用了不同于Claude的注意力机制变体，专门优化了对超长上下文（超过100万token）的关联检索。

这是什么概念？当前主流的上下文窗口在20万token左右，大概相当于一本长篇小说的长度。Mythos的处理规模是这个的五倍以上，而且关键不在于"能读多长"，而在于"能记住多少跨文档的细微关联"。

研究人员在分析泄露材料时，注意到一个被反复标记的测试案例：Mythos被投喂了某国过去三十年的所有公开政府采购记录、学术论文引用网络、以及专利数据库。在没有额外提示的情况下，它输出了一份报告，准确推断出了三项被官方否认的军民两用技术项目的时间线和关键人物。

这些推断的每一步，都基于公开可查的资料。但人类分析师需要数月甚至数年的工作，被压缩到了几小时。更关键的是，没有人类分析师会无聊到去翻阅三十年跨度的琐碎记录——而Mythos没有"无聊"这个概念。

行业反应：从沉默到分裂

泄露事件发生后，Anthropic的官方回应只有一句话：「我们不对未发布产品的猜测置评。」这种冷处理，和OpenAI面对类似事件时的积极澄清形成对比。

但私下里的讨论从未停止。据两位接近不同AI实验室的人士透露，各家的安全团队都在重新评估自己的"发布阈值"。一位Google DeepMind的研究员在私人通讯中表示：「这让我们所有人都在问，我们的红线到底划在哪里。」

更复杂的反应来自政策层面。欧盟AI法案的制定者之一，在一场闭门研讨会上提及此事，认为Mythos的案例可能推动"能力分级"制度的细化——不是按应用领域，而是按"信息整合风险"来分类监管。但这也引发了新的问题：如何定义和测量这种风险，本身就是一个未解决的学术难题。

与此同时，部分开源社区的声浪正在升高。一种代表性的观点是：Anthropic的"保护性封存"，本质上是一种技术垄断的变体——用安全的名义，把最强大的能力锁在自家保险库里。

一个被忽视的用户视角：谁在为"安全"买单

在所有关于Mythos的讨论中，有一个群体的声音很少被提及：那些本可能从这项技术中获益的普通用户。

想象一位调查记者，试图追踪某家上市公司的供应链污染问题。公开信息分散在数百份环保证告、供应商变更公告、以及地方新闻的边角料里。Mythos的能力，理论上可以让这样的调查从数月缩短到数天。但因为"可能被滥用"的风险，这个工具被锁进了抽屉。

这不是在为Mythos辩护。但值得追问的是：当一家私营公司单方面决定某项技术的社会可用性时，这个决策的合法性基础是什么？尤其是当这家公司本身，可能从这种"独家持有"中获得战略优势时。

Anthropic的回应逻辑是"受托责任"——作为技术的创造者，他们有义务预判并阻止可预见的伤害。但这个框架的边界很模糊。谁来判断什么是"可预见的伤害"？谁来监督这种判断不被利益扭曲？

泄露之后的连锁反应

LayerX和剑桥团队公布发现后不到48小时，那个未设防的服务器就被清空了。但信息的扩散早已不可控。技术社区开始根据泄露的片段，反向推测Mythos的架构细节；几家对冲基金 reportedly 调整了他们对Anthropic估值模型的假设；更有意思的是，某家竞争对手的CEO在内部全员会上，把Mythos的泄露称为"今年最重要的行业事件"。

这些反应揭示了一个被低估的事实：在AI领域，"不发布"本身也是一种信号，有时甚至比发布更有影响力。Mythos的存在被确认后，市场开始重新评估各家的"隐藏牌"——那些可能已经存在、但选择不公开的能力。

一位风险投资人在社交媒体上的评论被大量转发：「我们现在知道，至少有一家公司愿意为了安全牺牲市场份额。问题是，这是真诚的原则，还是精明的定位？」

这个问题没有答案，或许永远不会有。但Mythos的泄露，至少把一个问题推到了台面：当AI的能力开始触及"知道太多"的领域时，谁来决定什么是可以知道的，什么是应该被保护的——以及，这种决定权本身，是否比技术更值得警惕。

泄露文档的最后一份草稿，是一篇从未发布的博客文章的开头。作者写道：「我们建造了一盏灯，能照亮房间里最黑暗的角落。但现在我们意识到，有些阴影之所以存在，是因为有人需要它们。」

这盏灯最终没有被点亮。但问题是，当灯泡已经造好、电路已经接通，"不按下开关"这个决定，能维持多久？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.