Anthropic最强模型，很可能敲响了AGI的防盗门|调用|编程|电子表格|anthropic

分享至

Anthropic每次传出新品发布，都会被媒体称为“王炸”，但这次王炸真的来了。外媒曝光了Anthropic正处于测试阶段的最强AI模型。

Anthropic的内容管理系统配置出了问题，近3000份未发布的内部文档，被放在了公开可访问的数据缓存里。

相当于敞着大门让别人看内部机密。

剑桥大学网络安全研究员亚历山大·保韦尔斯（Alexandre Pauwels）和LayerX Security的高级研究员罗伊·帕斯（Roy Paz）在搜索公开数据时发现了这些文件。

这些文件里有什么？文章草稿、未使用的图片素材、内部活动安排，甚至还有一份标题里带“parental leave”的员工文档。

但最引人注目的，是一份详细介绍新模型的草稿。

文件显示，Capybara和Mythos指向同一个底层模型。

前者是产品层级的命名，跟Opus、Sonnet一样，后者是模型的代号。就像你可以把一款发动机装进不同型号的车里，Mythos是那台发动机，Capybara是那个新车系。

说句题外话，其实千问的卡通形象也是Capybara，你说这不巧了嘛！

言归正传，草稿里面有这么一句话，“与我们之前最好的模型Claude Opus 4.6相比，Capybara在软件编程、学术推理和网络安全测试等方面的得分显著提高。”

Anthropic发言人证实，新模型在“推理、编码和网络安全”方面有“有意义的进步”，代表了“阶跃式变化”，并且该模型已经交付给了极少数早期客户，以进行测试。

但真正让Anthropic紧张的不是性能提升，而是网络安全能力的飞跃。

草稿中写道，这款模型“在网络能力方面目前远远领先于任何其他AI模型”，并且“预示着即将到来的一波模型浪潮，这些模型利用漏洞的能力将远远超过防御者的努力”。

换句话说，Anthropic担心黑客会拿这个模型发动大规模网络攻击。

今年2月，OpenAI发布GPT-5.3-Codex时，首次将一款模型归类为“高网络安全能力”，它被OpenAI拿去训练识别软件漏洞。Opus 4.6也展现出类似的能力，可以发现代码库中的未知漏洞。

两家公司都清楚，这其实是一把双刃剑。

Capybara可以是守护天使，也可以是充满恶意的病毒。

所以Anthropic为Capybara设计了一套谨慎的发布策略。草稿写道：“在准备发布Claude Capybara时，我们希望格外谨慎。因为我们清楚它带来的风险，肯定比测试中能遇到的情况更为严重。”

Anthropic的具体做法是优先向网络安全防御组织提供早期访问权限，让他们有时间加固代码库，应对即将到来的AI攻击浪潮。

文件还提到，这个模型运行成本很高，短期内不会面向普通用户开放。

随后Anthropic迅速关闭了公开访问权限。发言人将此归咎于“内容管理系统配置中的人为错误”，并强调这些是“考虑发布的早期草稿”。

但泄露已经发生。Mythos和Capybara成了公开的秘密，Anthropic的发言人也大大方方地承认了Mythos和Capybara的存在。

Mythos可能是这个样子的

那么Mythos具体会是什么样呢？

先说结论：如果Mythos真有“阶跃式变化”，我猜它不只是一个更大的base model，而是一套“模型+编排+验证 +风险控制”的复合系统。

也就是说，真正跳变的可能不是参数量，而是“做长任务时不散架”。

我的理由很简单，技术会变，但是Anthropic自己的大方向不会变。

Anthropic已经发布了很多关于公司技术路线的博客，比如《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》（下一代分类器：更高效地防范通用越狱攻击），以及《Mitigating the risk of prompt injections in browser use》（降低浏览器使用中提示注入的风险）等等。

这东西就跟概念车一样。

先说说安全方面吧，很多人以为杀毒软件还是靠“病毒库”——就像警察拿着通缉犯照片挨个比对。但实际上，现代杀毒软件和EDR（端点检测与响应）系统早就不是这么干了。

它们会看文件结构、监控进程行为、分析API调用模式、追踪横向移动轨迹，甚至用机器学习判断“这个行为像不像攻击”。

换句话说，现代安全系统已经不只是在找“已知的坏人”，而是在识别“可疑的行为模式”。

Mythos可能把这个逻辑又往前推了一步。它能理解攻击的语义。

通过理解一段代码、一串工具调用、一段对话，判断是不是在构造一条真实可执行的攻击链。

比如它能分辨出：这不是普通的压缩脚本，而是在做规避扫描、自启动、凭据窃取这一整套动作；这不是正常的渗透测试问答，而是在拼接exploit、持久化、横移、出网这几个步骤。

Mythos很可能具备“漏洞泛化发现”能力。

Anthropic 在今年2月的博客中提到，Opus 4.6找零日漏洞的方式不像传统fuzzing那样乱撞，而是通过理解代码语义、历史修复模式和相似bug特征，去找“还没被修掉的同类漏洞”。

看到一个漏洞后，它就能立刻联想到“其他地方是不是也存在类似的漏洞”。

Mythos在推理方面的提升，可能也不单单是说benchmark分数又高了几分。

比如它可能在思考过程中更少出现中途漂移，更少为了迎合用户而过度自信，更会显式区分“已知、推断、未知”，更会在不确定时保守行动等等。

这和安全是同一类底层能力。因为好的模型不只是更会生成答案，而是更会管理自己的不确定性。

Claude的一大重点就是编程。所以我觉得在编程能力上，Mythos可能不只是“把代码写地更好”，而是从“会写代码”变成“会经营代码库”。

Mythos可能会把模块边界、依赖关系、历史patch风格、测试习惯放在一起进行建模。

它会先拆改动图、再分批落patch，而不是想到哪改到哪；写完代码后会主动补测试、跑静态检查，根据失败日志回滚到更稳的方案。

这种能力对真实工程项目的价值，远超在测试集上多做对几道题。

当然最终要落到的地方，肯定是在线束（harness）上，Mythos很可能实现了从“单次回答强”到“整条执行链稳”的跨越。

它会把大任务拆成可验证的小阶段，多个子任务并行执行再汇总结果，在长链条里保留关键状态、丢掉噪声。某一步报错时不需要从头来过，只要找到问题发生地，对其局部进行修复，就可以继续执行任务。

就像游戏里的检查点，如果你没有通过某一个BOSS，你不需要从头开始打整个章节，你会被传送到上一个检查点。

这就像工业控制里的“线束管理”——不是某一根线更粗，而是整个连接、隔离、容错、标记、回路设计更合理。

长上下文能力的提升可能也不只是“窗口更大”，而是“上下文利用率更高”。

现在的大模型，一说上下文窗口，每个都说自己能装下几十万字，但是一问它全文重点或者文档关系，立刻就哑巴了。

Mythos如果真有进步，可能体现在更强的重点检测、更好的层级摘要、更准的跨文档对齐，以及更有效的持续记忆写回机制。

在工具使用上，Mythos可能从“会调工具”升级到“会设计实验”。

Anthropic已经在推computer use、terminal、browser这套能力，但真正的跨越不是UI自动化更强，而是知道什么时候该读代码、什么时候该跑测试、什么时候该查文档。

如何设计最小验证闭环、避免无效探索、控制成本。

通俗说，就是从“会操作电脑”升级到“会像工程师那样做排障实验”，甚至于是说“碰到问题时，会原地掏出一个机床自己制造一个特化对口的工具来处理问题”。

还有呢？

反正都猜这么多了，不妨咱们就再往深了猜猜，我觉得Mythos的提升很可能来自几种训练和推理技巧的叠加。

第一是更重的测试时计算，也就是模型会根据任务难度动态分配更多“思考预算”，在关键步骤上做更长、更深的推理，而不是一口气线性吐完答案。

就像考试，普通的AI都是闭卷快答选手，不管是1分的选择题，还是20分的压轴大题，都是扫一眼就动笔，写一步不回头，匀速写完拉倒，哪怕题很难，也是顺嘴瞎编凑数。

Mythos是学霸，拿到题先分难度，简单题秒答不浪费时间；遇到复杂大题、关键步骤，就多打草稿、多琢磨几遍，算对了再往下写，卡壳了就停下来多想一层，绝不会张嘴就来。

第二是更偏向agent轨迹的强化学习，训练目标不再只是“最后一句话答对了没有”，而是“整条任务链有没有成功完成”，包括怎么拆计划、何时调用工具、何时停下来验证、出错后如何回退。

原来的训练方式是只看“项目最后有没有交差”，哪怕实习生中间瞎搞、找别人代做、步骤全错，最后蒙对了结果，就发奖金。

要是中间全对，最后一步手抖错了，直接扣钱，完全不管过程。

Mythos是全程盯流程，不仅看最后项目成没成，还要看你会不会把大项目拆成一步一步的小计划，什么时候该查资料、用工具，什么时候该停下来核对前面的内容，做错了会不会回头修正。

第三是更强的verifier，也就是某种内置的审稿人或质检员，在代码场景里检查patch是否真的成立，在安全场景里检查输出是否显著增加攻击可执行性。

这个你就当成是公众号发文章。普通AI是作者写完了直接发，不管有没有错别字、事实错误、合规风险，发出去出问题再说。

Mythos就和字母AI一样，要有提纲、要有多道审核、还要去求证等等。这篇文章除外。

第四是更细粒度的风险监控，不只看最终文本，而是看模型内部表征和中间轨迹，判断它是不是正在形成一条危险的攻击链。

这也是为什么我一直拿现代杀毒软件和EDR来类比。过去的杀毒软件更像“对照病毒库”，今天的安全系统更像“识别可疑行为模式”。

如果把这个逻辑搬到大模型里，Mythos的安全能力就可能不是靠硬编码关键词，而是靠对任务语义、工具调用顺序、代码行为和中间状态的综合判断。

它识别的不是“某个坏答案”，而是“这个请求会造成怎样的后果”。一旦这种能力成熟，安全就不再只是一个外挂过滤器，而会变成模型推理过程本身的一部分。

如果把这些能力串起来看，Mythos可能会是一个将语义泛化、长任务稳定性、工具编排、风险控制这几件事给融合起来的新产品。

这也解释了为什么Anthropic对Mythos如此谨慎。

一个能理解攻击语义、能泛化发现漏洞、能编排长链条任务、能自主使用工具的AI，这已经是敲响AGI的防盗门了。

但这里有个更深层的问题：当AI的攻击能力开始系统性地超过防御能力，整个网络安全的平衡会不会被打破？

如果未来几个月Anthropic真的正式发布Mythos或者Capybara，那么最应该盯紧的是它在computer use、terminal、browser这类长任务环境里的稳定性。

因为这类场景最能暴露一个模型到底只是“单轮回答强”，还是已经具备“持续执行”的系统能力。真正的阶跃式变化，最后都会反映在这些难以伪装美化的指标上。

从这个角度看，Mythos泄密事件的真正意义，是揭示了AI发展的下一个临界点。

而这个临界点，可能比我们想象的来得更快。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.