网易首页 > 网易号 > 正文 申请入驻

Anthropic最强模型,很可能敲响了AGI的防盗门

0
分享至



Anthropic每次传出新品发布,都会被媒体称为“王炸”,但这次王炸真的来了。外媒曝光了Anthropic正处于测试阶段的最强AI模型。

Anthropic的内容管理系统配置出了问题,近3000份未发布的内部文档,被放在了公开可访问的数据缓存里。



相当于敞着大门让别人看内部机密。

剑桥大学网络安全研究员亚历山大·保韦尔斯(Alexandre Pauwels)和LayerX Security的高级研究员罗伊·帕斯(Roy Paz)在搜索公开数据时发现了这些文件。

这些文件里有什么?文章草稿、未使用的图片素材、内部活动安排,甚至还有一份标题里带“parental leave”的员工文档。

但最引人注目的,是一份详细介绍新模型的草稿。

文件显示,Capybara和Mythos指向同一个底层模型。

前者是产品层级的命名,跟Opus、Sonnet一样,后者是模型的代号。就像你可以把一款发动机装进不同型号的车里,Mythos是那台发动机,Capybara是那个新车系。

说句题外话,其实千问的卡通形象也是Capybara,你说这不巧了嘛!



言归正传,草稿里面有这么一句话,“与我们之前最好的模型Claude Opus 4.6相比,Capybara在软件编程、学术推理和网络安全测试等方面的得分显著提高。”

Anthropic发言人证实,新模型在“推理、编码和网络安全”方面有“有意义的进步”,代表了“阶跃式变化”,并且该模型已经交付给了极少数早期客户,以进行测试。

但真正让Anthropic紧张的不是性能提升,而是网络安全能力的飞跃。

草稿中写道,这款模型“在网络能力方面目前远远领先于任何其他AI模型”,并且“预示着即将到来的一波模型浪潮,这些模型利用漏洞的能力将远远超过防御者的努力”。

换句话说,Anthropic担心黑客会拿这个模型发动大规模网络攻击。

今年2月,OpenAI发布GPT-5.3-Codex时,首次将一款模型归类为“高网络安全能力”,它被OpenAI拿去训练识别软件漏洞。Opus 4.6也展现出类似的能力,可以发现代码库中的未知漏洞。

两家公司都清楚,这其实是一把双刃剑。

Capybara可以是守护天使,也可以是充满恶意的病毒。

所以Anthropic为Capybara设计了一套谨慎的发布策略。草稿写道:“在准备发布Claude Capybara时,我们希望格外谨慎。因为我们清楚它带来的风险,肯定比测试中能遇到的情况更为严重。”

Anthropic的具体做法是优先向网络安全防御组织提供早期访问权限,让他们有时间加固代码库,应对即将到来的AI攻击浪潮。

文件还提到,这个模型运行成本很高,短期内不会面向普通用户开放。

随后Anthropic迅速关闭了公开访问权限。发言人将此归咎于“内容管理系统配置中的人为错误”,并强调这些是“考虑发布的早期草稿”。

但泄露已经发生。Mythos和Capybara成了公开的秘密,Anthropic的发言人也大大方方地承认了Mythos和Capybara的存在。

01

Mythos可能是这个样子的

那么Mythos具体会是什么样呢?

先说结论:如果Mythos真有“阶跃式变化”,我猜它不只是一个更大的base model,而是一套“模型+编排+验证 +风险控制”的复合系统。


也就是说,真正跳变的可能不是参数量,而是“做长任务时不散架”。

我的理由很简单,技术会变,但是Anthropic自己的大方向不会变。

Anthropic已经发布了很多关于公司技术路线的博客,比如《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》(下一代分类器:更高效地防范通用越狱攻击),以及《Mitigating the risk of prompt injections in browser use》(降低浏览器使用中提示注入的风险)等等。



这东西就跟概念车一样。

先说说安全方面吧,很多人以为杀毒软件还是靠“病毒库”——就像警察拿着通缉犯照片挨个比对。但实际上,现代杀毒软件和EDR(端点检测与响应)系统早就不是这么干了。

它们会看文件结构、监控进程行为、分析API调用模式、追踪横向移动轨迹,甚至用机器学习判断“这个行为像不像攻击”。

换句话说,现代安全系统已经不只是在找“已知的坏人”,而是在识别“可疑的行为模式”。

Mythos可能把这个逻辑又往前推了一步。它能理解攻击的语义。

通过理解一段代码、一串工具调用、一段对话,判断是不是在构造一条真实可执行的攻击链。

比如它能分辨出:这不是普通的压缩脚本,而是在做规避扫描、自启动、凭据窃取这一整套动作;这不是正常的渗透测试问答,而是在拼接exploit、持久化、横移、出网这几个步骤。

Mythos很可能具备“漏洞泛化发现”能力。

Anthropic 在今年2月的博客中提到,Opus 4.6找零日漏洞的方式不像传统fuzzing那样乱撞,而是通过理解代码语义、历史修复模式和相似bug特征,去找“还没被修掉的同类漏洞”。

看到一个漏洞后,它就能立刻联想到“其他地方是不是也存在类似的漏洞”。

Mythos在推理方面的提升,可能也不单单是说benchmark分数又高了几分。

比如它可能在思考过程中更少出现中途漂移,更少为了迎合用户而过度自信,更会显式区分“已知、推断、未知”,更会在不确定时保守行动等等。

这和安全是同一类底层能力。因为好的模型不只是更会生成答案,而是更会管理自己的不确定性。

Claude的一大重点就是编程。所以我觉得在编程能力上,Mythos可能不只是“把代码写地更好”,而是从“会写代码”变成“会经营代码库”。

Mythos可能会把模块边界、依赖关系、历史patch风格、测试习惯放在一起进行建模。

它会先拆改动图、再分批落patch,而不是想到哪改到哪;写完代码后会主动补测试、跑静态检查,根据失败日志回滚到更稳的方案。

这种能力对真实工程项目的价值,远超在测试集上多做对几道题。

当然最终要落到的地方,肯定是在线束(harness)上,Mythos很可能实现了从“单次回答强”到“整条执行链稳”的跨越。

它会把大任务拆成可验证的小阶段,多个子任务并行执行再汇总结果,在长链条里保留关键状态、丢掉噪声。某一步报错时不需要从头来过,只要找到问题发生地,对其局部进行修复,就可以继续执行任务。

就像游戏里的检查点,如果你没有通过某一个BOSS,你不需要从头开始打整个章节,你会被传送到上一个检查点。

这就像工业控制里的“线束管理”——不是某一根线更粗,而是整个连接、隔离、容错、标记、回路设计更合理。

长上下文能力的提升可能也不只是“窗口更大”,而是“上下文利用率更高”。

现在的大模型,一说上下文窗口,每个都说自己能装下几十万字,但是一问它全文重点或者文档关系,立刻就哑巴了。

Mythos如果真有进步,可能体现在更强的重点检测、更好的层级摘要、更准的跨文档对齐,以及更有效的持续记忆写回机制。

在工具使用上,Mythos可能从“会调工具”升级到“会设计实验”。

Anthropic已经在推computer use、terminal、browser这套能力,但真正的跨越不是UI自动化更强,而是知道什么时候该读代码、什么时候该跑测试、什么时候该查文档。

如何设计最小验证闭环、避免无效探索、控制成本。

通俗说,就是从“会操作电脑”升级到“会像工程师那样做排障实验”,甚至于是说“碰到问题时,会原地掏出一个机床自己制造一个特化对口的工具来处理问题”。

02

还有呢?

反正都猜这么多了,不妨咱们就再往深了猜猜,我觉得Mythos的提升很可能来自几种训练和推理技巧的叠加。

第一是更重的测试时计算,也就是模型会根据任务难度动态分配更多“思考预算”,在关键步骤上做更长、更深的推理,而不是一口气线性吐完答案。

就像考试,普通的AI都是闭卷快答选手,不管是1分的选择题,还是20分的压轴大题,都是扫一眼就动笔,写一步不回头,匀速写完拉倒,哪怕题很难,也是顺嘴瞎编凑数。

Mythos是学霸,拿到题先分难度,简单题秒答不浪费时间;遇到复杂大题、关键步骤,就多打草稿、多琢磨几遍,算对了再往下写,卡壳了就停下来多想一层,绝不会张嘴就来。

第二是更偏向agent轨迹的强化学习,训练目标不再只是“最后一句话答对了没有”,而是“整条任务链有没有成功完成”,包括怎么拆计划、何时调用工具、何时停下来验证、出错后如何回退。

原来的训练方式是只看“项目最后有没有交差”,哪怕实习生中间瞎搞、找别人代做、步骤全错,最后蒙对了结果,就发奖金。

要是中间全对,最后一步手抖错了,直接扣钱,完全不管过程。

Mythos是全程盯流程,不仅看最后项目成没成,还要看你会不会把大项目拆成一步一步的小计划,什么时候该查资料、用工具,什么时候该停下来核对前面的内容,做错了会不会回头修正。

第三是更强的verifier,也就是某种内置的审稿人或质检员,在代码场景里检查patch是否真的成立,在安全场景里检查输出是否显著增加攻击可执行性。

这个你就当成是公众号发文章。普通AI是作者写完了直接发,不管有没有错别字、事实错误、合规风险,发出去出问题再说。

Mythos就和字母AI一样,要有提纲、要有多道审核、还要去求证等等。这篇文章除外。

第四是更细粒度的风险监控,不只看最终文本,而是看模型内部表征和中间轨迹,判断它是不是正在形成一条危险的攻击链。

这也是为什么我一直拿现代杀毒软件和EDR来类比。过去的杀毒软件更像“对照病毒库”,今天的安全系统更像“识别可疑行为模式”。

如果把这个逻辑搬到大模型里,Mythos的安全能力就可能不是靠硬编码关键词,而是靠对任务语义、工具调用顺序、代码行为和中间状态的综合判断。

它识别的不是“某个坏答案”,而是“这个请求会造成怎样的后果”。一旦这种能力成熟,安全就不再只是一个外挂过滤器,而会变成模型推理过程本身的一部分。

如果把这些能力串起来看,Mythos可能会是一个将语义泛化、长任务稳定性、工具编排、风险控制这几件事给融合起来的新产品。

这也解释了为什么Anthropic对Mythos如此谨慎。

一个能理解攻击语义、能泛化发现漏洞、能编排长链条任务、能自主使用工具的AI,这已经是敲响AGI的防盗门了。

但这里有个更深层的问题:当AI的攻击能力开始系统性地超过防御能力,整个网络安全的平衡会不会被打破?

如果未来几个月Anthropic真的正式发布Mythos或者Capybara,那么最应该盯紧的是它在computer use、terminal、browser这类长任务环境里的稳定性。

因为这类场景最能暴露一个模型到底只是“单轮回答强”,还是已经具备“持续执行”的系统能力。真正的阶跃式变化,最后都会反映在这些难以伪装美化的指标上。

从这个角度看,Mythos泄密事件的真正意义,是揭示了AI发展的下一个临界点。

而这个临界点,可能比我们想象的来得更快。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
那个让你每次性生活都能“爽”到的人,都偷偷用了这3个小心机

那个让你每次性生活都能“爽”到的人,都偷偷用了这3个小心机

精彩分享快乐
2026-03-29 07:05:06
恒大蛀虫刘永灼,他挥霍败家的疯狂堪比许家印

恒大蛀虫刘永灼,他挥霍败家的疯狂堪比许家印

篮球看比赛
2026-03-28 12:14:02
无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

生物世界
2026-03-25 16:05:30
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
美国打伊朗到底图什么?八成中国人以为是抢石油……

美国打伊朗到底图什么?八成中国人以为是抢石油……

基本常识
2026-03-02 23:53:16
不服就干!比利时打响反华第一枪,通告全球,断的就是中方退路

不服就干!比利时打响反华第一枪,通告全球,断的就是中方退路

标体
2026-03-29 07:43:54
内娱再曝大瓜!郭麒麟、刘昊然,严浩翔疑似组团去商K聚会 惹争议

内娱再曝大瓜!郭麒麟、刘昊然,严浩翔疑似组团去商K聚会 惹争议

丁丁鲤史纪
2026-03-28 10:28:29
许家印被捕倒台后,恒大歌舞团长白珊珊,被曝居然嫁给了这个男人

许家印被捕倒台后,恒大歌舞团长白珊珊,被曝居然嫁给了这个男人

潮鹿逐梦
2026-03-21 20:10:08
春晚的“病根”,终于被揪出来了。

春晚的“病根”,终于被揪出来了。

果妈聊娱乐
2026-02-13 11:42:36
雷军没有食言!新一代小米SU7交付提速 首周交付4、5千辆

雷军没有食言!新一代小米SU7交付提速 首周交付4、5千辆

快科技
2026-03-29 08:56:05
曼联又看走眼了!4200 万弃将国家队封神,图赫尔盛赞无解

曼联又看走眼了!4200 万弃将国家队封神,图赫尔盛赞无解

澜归序
2026-03-29 05:49:08
美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

夜深爱杂谈
2026-03-08 21:28:24
实锤!伊朗导弹基地指挥官被以色列精准斩首

实锤!伊朗导弹基地指挥官被以色列精准斩首

老马拉车莫少装
2026-03-27 18:55:23
海兰泡血案:沙俄屠刀下,五千华人命丧黑龙江

海兰泡血案:沙俄屠刀下,五千华人命丧黑龙江

历史图鉴
2025-12-31 21:41:12
想拿中国尿素救春耕?先把欠中企的百亿欠款还了,否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了,否则一粒不售

铁锤妹妹是只猫
2026-03-27 20:09:11
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
59岁王祖贤近照曝光,身穿粉色外套抱爱狗在樱花树下合影,称“春天,是把喜欢举过头顶的瞬间”

59岁王祖贤近照曝光,身穿粉色外套抱爱狗在樱花树下合影,称“春天,是把喜欢举过头顶的瞬间”

台州交通广播
2026-03-29 10:02:02
随着伊东纯也一剑封喉+比分1-0,日本掀翻欧洲劲旅,迎开门红

随着伊东纯也一剑封喉+比分1-0,日本掀翻欧洲劲旅,迎开门红

侧身凌空斩
2026-03-29 04:38:44
冯巩在人民日报发文,撕开喜剧圈脏乱内幕,点破岳云鹏尴尬处境

冯巩在人民日报发文,撕开喜剧圈脏乱内幕,点破岳云鹏尴尬处境

林雁飞
2026-03-27 14:42:10
上万民众自发赶来送别张雪峰!祭品中的黄桃罐头和饺子,让人泪目

上万民众自发赶来送别张雪峰!祭品中的黄桃罐头和饺子,让人泪目

火山詩话
2026-03-28 11:57:22
2026-03-29 10:59:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2326文章数 8054关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

副部级高官任上落马 十天前仍参加省政协会议

头条要闻

副部级高官任上落马 十天前仍参加省政协会议

体育要闻

全球第二大车企,也救不了这支德甲队?

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

本地
教育
家居
数码
公开课

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

教育要闻

“家破成这样,还好意思拍视频?”家长晒学霸孩子,反被嘲太邋遢

家居要闻

曲线华尔兹 现代简约

数码要闻

博主为苹果MacBook Neo改装水冷散热,单核性能暴涨18.6%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版