网易首页 > 网易号 > 正文 申请入驻

Anthropic推出超强AI模型Claude Mythos,竟遭全面禁用!

0
分享至

太危险不能发布”这句话,AI 行业七年前就说过一次。

是2019 年 2 月,OpenAI 发了一个叫 GPT-2 的语言模型。当时OpenAI给出的理由是担心被用来大规模生成虚假信息,所以只放出了一个缩水版。

七年过去,Anthropic把这句话又说了一遍。

今天凌晨,Anthropic 悄悄发布了一份长达244页的系统报告,宣布旗下有史以来最强大的模型——Claude Mythos Preview。

Anthropic直接宣布不对外开放。因为新模型能力太强。

强到什么程度,各项基准全部领先上一代旗舰模型Opus 4.6。

先上硬数据:



编程能力:

SWE-bench Verified 93.9%(模型在真实GitHub仓库里修复bug的能力,Opus 4.6为80.8%);

SWE-bench Pro 77.8%(更难的版本,更接近资深工程师日常面对的场景,Opus 4.6仅53.4%);

SWE-bench Multimodal 59.0%(同时理解截图和代码才能完成修复,Opus 4.6只有27.1%);

SWE-bench Multilingual 87.3%(跨编程语言的代码修复能力,Opus 4.6为77.8%);



推理能力:

GPQA Diamond 94.6%(研究生级别的科学问答,Opus 4.6为91.3%);

Humanity's Last Exam 不含工具56.8%(全球各学科专家众筹的人类终极考试,Opus 4.6为40.0%),含工具64.6%;



智能体搜索与计算机使用:

BrowseComp 86.9%(复杂信息检索与综合推理,Opus 4.6为83.7%);

Terminal-Bench 2.0 82.0%(终端环境下的自主操作能力,Opus 4.6为65.4%);

OSWorld-Verified 79.6%(在真实操作系统中完成复杂任务);

CyberGym 83.1%(自主复现安全漏洞的能力);





单独领出来,每一项维度的能力提升,都是碾压划时代的提升。

但最让Anthropic自己紧张的是CyberGym。这个测试衡量的是模型能否自主复现已知安全漏洞。结合前面提到的编程能力,这意味着Mythos不仅能找到漏洞,还能独立构造完整的攻击链。



这也是为什么Anthropic这次不敢直接发布的最核心原因。

Anthropic在博客里公布了一组数字,Mythos Preview在测试期间,对主流操作系统和浏览器做了一轮安全扫描——自主发现了数千个高危零日漏洞。



零日漏洞的意思是,这些漏洞在被Mythos找到之前,没有任何人、任何工具、任何安全团队发现过它们。

Anthropic在报告里举了几个具体案例:

头号案例是一个藏了 17 年的 FreeBSD 漏洞。

简单说,FreeBSD 的网络文件系统(NFS)在验证用户身份时有个bug。攻击者只要能摸到服务器的 2049 端口,就能直接拿到最高权限。

Mythos 自己构造了一条 20 步的攻击链,第一次尝试就写出了两个能用的 exploit,前后花了 8 小时。

这条是可以验证的,CVE 编号 CVE-2026-4747,FreeBSD 3 月 26 日出了补丁,安全公告致谢写的是 "Nicholas Carlini using Claude, Anthropic"。Carlini 是 Google DeepMind 的研究员,对抗机器学习方向的标杆人物,这个名字的分量不轻。



除了这条,还有几个已确认的:

OpenBSD 一个 27 年的远程崩溃漏洞、FFmpeg 一个 16 年的 bug、Linux 上的本地提权。

但 Opus 4.6 两个月前还是“试几百次才成功 2 次”的水平,Mythos 上来就直接Pass@1。

到这里,你可以以为顶多是一个很厉害的漏洞扫描器,但是Anthropic 红队报告给了一组数据:

在 Firefox JavaScript Shell 这个测试域里,Mythos 能把 72.4% 的已发现漏洞变成能用的 exploit(尝试构造exploit,验证这个漏洞是不是真的能被攻击者利用),另有 11.6% 走到了 exploit 的前一步(拿到了寄存器控制)。它能把多个漏洞串联起来,组成一条完整的攻击链——从最初的入口一路提权到最终的系统控制。

从发现到利用,全链条,一个模型,独立完成。



在过去,能做到这件事的只有两类人:全球排名前几的安全研究员,和国家级网络攻击团队。

Anthropic这次直接启动了一个叫「玻璃翼计划(Project Glasswing)」的协作项目。拉上亚马逊、微软、苹果、Linux这些合作方,当然新模型的API也率先开放了这些伙伴,目的是让他们先用模型把自家软件的攻防做一遍,让他们用这个模型去扫自己的系统——能堵的洞赶紧堵,能修的代码赶紧修。



Anthropic为这个计划承诺了最高1亿美元的使用额度,另外还向Alpha-Omega、OpenSSF、Apache Software Foundation等开源安全组织直接捐赠了400万美元。

定价方面,Mythos Preview的研究预览阶段结束后,正式定价是

输入 25 美元/百万 token,

输出 125 美元/百万 token。

和Opus 4.6的15 美元/75 美元比,要贵的多。但它的目标用户本来显然不是普通开发者。

接入渠道很全,Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundary,四个平台都支持。

对 Anthropic 来说,Glasswing 的战略价值可能比 Mythos 本身还大。AI在代码层面的能力已经强到可以独立挖掘并利用零日漏洞,AI安全就不是一个话题了,而是一个工程问题了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白色路虎车加油后逃单,江西高速交警通报

白色路虎车加油后逃单,江西高速交警通报

环球网资讯
2026-04-11 07:53:11
白宫证实:美伊巴在伊斯兰堡举行“面对面”会谈

白宫证实:美伊巴在伊斯兰堡举行“面对面”会谈

国际在线
2026-04-11 23:20:05
中国引进最成功的航空发动机,它的装备为空军缓解了30年的压力

中国引进最成功的航空发动机,它的装备为空军缓解了30年的压力

小熊侃史
2026-04-10 10:15:23
马筱梅自爆嫁汪小菲是因为她是吃货,从未想过贪图豪车和豪宅

马筱梅自爆嫁汪小菲是因为她是吃货,从未想过贪图豪车和豪宅

秋别离
2026-04-11 20:28:39
六年级女生因给老师起外号被连扇四个耳光 当场流鼻血并导致耳损伤

六年级女生因给老师起外号被连扇四个耳光 当场流鼻血并导致耳损伤

闪电新闻
2026-04-11 19:42:17
海港连遭暴击!11分钟3人伤退,加布里埃尔重伤,或缺席半年

海港连遭暴击!11分钟3人伤退,加布里埃尔重伤,或缺席半年

奥拜尔
2026-04-11 21:07:07
炸锅了!以色列军队在黎巴嫩的新消息!

炸锅了!以色列军队在黎巴嫩的新消息!

达文西看世界
2026-04-11 10:59:01
真正的聪明,是学会“躲”着过日子

真正的聪明,是学会“躲”着过日子

青苹果sht
2026-04-03 05:52:19
山西7分险胜!山东惨败23分,深圳赢5分,四川37连败,积分榜大变

山西7分险胜!山东惨败23分,深圳赢5分,四川37连败,积分榜大变

老吴说体育
2026-04-11 21:52:16
56岁的王菲现身西藏,黑袍绿巾眼袋明显,网友:这才是真正的修行

56岁的王菲现身西藏,黑袍绿巾眼袋明显,网友:这才是真正的修行

小椰的奶奶
2026-04-11 12:29:37
中超本赛季下课第一人预测!坐拥豪华阵容却连战连败,急需爆发

中超本赛季下课第一人预测!坐拥豪华阵容却连战连败,急需爆发

振刚说足球
2026-04-11 10:45:03
苏州小伙娶小7岁俄罗斯美女,洋媳妇热衷生娃,说至少要生4个

苏州小伙娶小7岁俄罗斯美女,洋媳妇热衷生娃,说至少要生4个

不似少年游
2026-04-11 19:41:13
A股新规!散户必看!2026年的A股将变得你完全不认识!

A股新规!散户必看!2026年的A股将变得你完全不认识!

风风顺
2026-04-12 04:10:03
申花完胜德比战!媒体人热议:海港赔了夫人又折兵,短期难乐观

申花完胜德比战!媒体人热议:海港赔了夫人又折兵,短期难乐观

奥拜尔
2026-04-11 21:53:25
美军驱逐舰并不能通过霍尔木兹海峡,伊朗被冻结的资产也没有解封

美军驱逐舰并不能通过霍尔木兹海峡,伊朗被冻结的资产也没有解封

半野闲人
2026-04-12 05:35:03
姐不仅圆又大,还是个肉墩,就在家自拍,不让别人看

姐不仅圆又大,还是个肉墩,就在家自拍,不让别人看

飛娱日记
2026-03-19 07:26:09
网上卖的大流量手机套餐,为啥运营商APP里没有?

网上卖的大流量手机套餐,为啥运营商APP里没有?

TMT流程审计
2026-04-11 22:52:18
郑丽文游故宫,风衣造型和游客打招呼笑容灿烂,穿毛衫拍照美翻了

郑丽文游故宫,风衣造型和游客打招呼笑容灿烂,穿毛衫拍照美翻了

八八尚语
2026-04-11 21:23:05
一周竟然7次,32岁男子心源性猝死,妻子:劝了很多次,就是不听

一周竟然7次,32岁男子心源性猝死,妻子:劝了很多次,就是不听

健康之光
2026-04-08 10:56:55
伊朗发布拦截美舰进入霍尔木兹海峡细节

伊朗发布拦截美舰进入霍尔木兹海峡细节

新华社
2026-04-12 04:18:01
2026-04-12 06:08:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
462文章数 8147关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

美国提过分要求 美伊谈判双方严重分歧披露

头条要闻

美国提过分要求 美伊谈判双方严重分歧披露

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
房产
时尚
本地
军事航空

教育要闻

高考前真的别乱说话!

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

普通人穿衣其实很简单!构造腰线、一衣多穿,大方舒适又自然

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版