网易首页 > 网易号 > 正文 申请入驻

AI威胁脑力工作,Claude新模型致评测题库不足

0
分享至



一张趋势图这两天在科技圈炸了锅。国际最权威的AI评测机构METR发布最新测试结果,结果不是模型考了多少分,而是考官自己先认了输——题库不够用了。

被测试的模型叫Claude Mythos,来自Anthropic公司,2026年4月以预览版形式亮相。它在人类需要整整16个小时才能啃下来的复杂编程任务上,稳稳跨过了50%的成功率门槛。



而METR手里总共228道魔鬼级考题里,达到这个难度级别的,只有区区5道。16小时以上的题根本凑不齐样本量,评测数据直接进了“测不准”区间。

试卷满分只有100分,它考了100分,不是只能考100分,是卷子就印到这儿了。这事传递的信号比一张跑分表沉得多。



一个被困在考题里的考官

METR这个机构,干的事说白了就是给AI出卷子。

他们设计了一套叫做“任务时间跨度”的指标,核心逻辑很直白。

把AI当成人,扔给它一个真实的工程任务——读代码、理解架构、定方案、动手写、调试修bug,从头到尾不许人类插手。



然后看它能独立完成多大难度的活。

难度用人类专家需要花多少时间来标定,指标叫“50%任务完成时间跨度”——模型有50%的概率成功拿下这项任务。



过去几年,这条曲线一直在往上爬。

2021年最顶尖的模型只能搞定8秒级别的任务,写一行代码或者修一个拼写错误。

2023年初推进到1分钟量级,能写个小函数、做段简单调试。



2025年中,Anthropic发布的Claude Opus 4.5在METR评测里达到了约4小时49分钟的水平。

到了2025年下半年,Claude Opus 4.6又把这个数字推到了约14.5小时。



2026年4月,Claude Mythos Preview直接把标尺干到了16小时。

这意味着什么呢?

它能独立完成一个完整的工程子项目,读代码、理解架构、制定方案、编写实现、调试测试,一气呵成,全程不需要人类盯着。



在METR精心构建的228道魔鬼级测试任务里,归类到16小时及以上难度的只有5道。

就5道。

在这个阈值以上,METR自己都承认数据测算“不稳定且失去意义”。

95%置信区间的跨度从8.5小时一路延伸到55小时,宽得没法做精确比较。



OpenAI前超级对齐团队成员Leopold Aschenbrenner曾经预测2027年是AGI的奇点。

现在Mythos的表现已经略高于2027情景的趋势线。

时间还没到2027,数值先超标了。



AI的黑客流水线

评测爆表只是水面上的冰山。

水底下真正让行业睡不着觉的,是Mythos在网络安全上的表现。

2026年4月7日,Anthropic公布了Claude Mythos的漏洞发现能力。

这个模型自主挖出了数千个零日漏洞,覆盖了所有主流操作系统和所有主流浏览器。

不是理论上的弱点,不是只有在实验室里才能触发的边缘案例,是实实在在大摇大摆躺在生产代码里的漏洞。



有些已经潜伏了十几年甚至二十几年。

在开源系统OpenBSD里藏了27年的远程崩溃漏洞被它揪了出来,FFmpeg里一个埋了16年的缺陷同样被精确定位。

对Firefox 147的一次扫描中,Mythos一次性找出181个可用浏览器漏洞,上一代模型只找到2个。

2026年4月,Mozilla仅靠Mythos扫描Firefox就一次性修复了423个安全漏洞,创下历史纪录。



更要命的是,AI不止会“找漏洞”,它已经开始像高级黑客一样把多个微小漏洞自动串联成完整攻击链。

网络安全公司Palo Alto Networks的实测显示,用Mythos做漏洞分析,3周干完的活等于顶级渗透团队一整年的深耕。

它能把多个低严重度问题连成关键级攻击路径,从入侵到数据外泄,最快只要25分钟。

这也是为什么Anthropic公司反复强调暂时不公开发布Mythos,先只提供给约50家关键基础设施与头部科技公司使用。





白宫和华尔街也被惊动了

评测爆表加黑客能力双重刺激,最先坐不住的还不是程序员,是美国政府最高层。

Mythos有限发布当天,美国财政部长斯科特·贝森特与美联储主席杰罗姆·鲍威尔紧急跟华尔街高管开了闭门会议。



美国银行首席执行官布莱恩·莫伊尼汉、高盛首席执行官大卫·所罗门等人悉数列席。

这种级别的紧急磋商,美联储通常只会在2008年金融危机或2020年疫情冲击这种系统性风险面前启动。

白宫那边动作更快,国家网络安全总监肖恩·凯恩克罗斯直接牵头组建专项应对小组,要求各部门排查关键基础设施的安全软肋,加固政府系统防线。



《国会山报》网站4月14日报道说,白宫正紧急部署应对新模型可能引发的网络安全危机,AI的潜在风险已经跃升为美国政府的首要关切内容。



这事还迅速跨出了美国国界。

德国联邦银行(央行)行长Joachim Nagel在罗马发表演讲时明确表示,IT安全对金融稳定至关重要,要求所有相关机构都能获得类似Mythos这样的技术访问权,否则会扭曲竞争。

加拿大最大的银行和最高监管机构高管也召开了联席会议讨论风险。





马斯克的22万张GPU全押了上去

技术炸场、政策炸锅的同时,算力的牌桌也重新洗了一次。

就在2026年5月6日,埃隆·马斯克宣布旗下人工智能企业xAI作为独立实体正式解散,整体并入SpaceX,成为名为SpaceXAI的产品线。



几乎是同一时间,SpaceXAI宣布跟Anthropic达成一项协议:把Colossus 1超算集群的全部算力独家租赁给Anthropic,用于Claude系列模型的推理服务。

Colossus 1位于美国田纳西州孟菲斯,搭载超过22万块英伟达GPU,包括H100、H200和下一代GB200加速器。



按协议,Anthropic一个月之内就能拿到超过300兆瓦的新增算力,直接跻身行业第一梯队。

协议签署的时间点很有意思——刚好接在Mythos评测结果曝光之后。

一个超算集群,22万张卡,一次性砸进来。

评测框架刚被撑爆,算力又补上了一记重拳。



从2021年的8秒到2026年的16小时以上,AI完成复杂脑力任务的能力在5年内膨胀了几千倍。

METR的卡尺已经被拽断,下一步的增速几乎不可能用现有坐标去标定。

真正值得留意的不是AI是不是成了神,而是它的角色正在发生变化——从你问它答的搜索增强工具,变成了能长时间独立干活的数字员工。



网络安全行业已经先一步感受到了这股压力。

而如果AI未来开始自己研发更强的AI,技术进步的增速本身还会再加速,到那时连指数增长这条线都不够用了。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伯恩茅斯高层:即使巴萨或红军报价1亿欧,我们也不卖克鲁皮

伯恩茅斯高层:即使巴萨或红军报价1亿欧,我们也不卖克鲁皮

懂球帝
2026-05-13 04:00:11
菲律宾一夜变天,杜特尔特家族绝地反击,围剿亲华派没那么容易

菲律宾一夜变天,杜特尔特家族绝地反击,围剿亲华派没那么容易

感谢过往的自己
2026-05-13 05:02:54
一张铜箔的高端化之路!

一张铜箔的高端化之路!

妙投APP
2026-05-13 07:38:25
吴石牺牲后,主席很后悔:最大错误就是没集中两个野战军攻打台湾

吴石牺牲后,主席很后悔:最大错误就是没集中两个野战军攻打台湾

兴趣知识
2026-05-05 16:02:25
单赛季破百榜:丁俊晖纪录被超,吴宜泽进前20,赵心童中国第1!

单赛季破百榜:丁俊晖纪录被超,吴宜泽进前20,赵心童中国第1!

刘姚尧的文字城堡
2026-05-13 07:09:16
大清三百年,只有这个女人享尽了荣华富贵,死后还留下了一缕头发

大清三百年,只有这个女人享尽了荣华富贵,死后还留下了一缕头发

浩渺青史
2026-05-12 20:16:55
奎因:以如此方式结束赛季是大家不愿看到的,但我们还要向前看

奎因:以如此方式结束赛季是大家不愿看到的,但我们还要向前看

懂球帝
2026-05-13 00:17:05
特朗普时隔9年再访华,随行商界大佬都有谁?库克、马斯克在列

特朗普时隔9年再访华,随行商界大佬都有谁?库克、马斯克在列

上游新闻
2026-05-12 12:50:37
尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

火山詩话
2026-05-08 21:39:02
存储芯片股重挫,A股相关概念将开启大级别回调

存储芯片股重挫,A股相关概念将开启大级别回调

东方豪侠
2026-05-13 07:40:11
中央气象台发布暴雨、沙尘暴、大雾预警,今天到明天,福建、江西、湖南、广东、广西及西藏等地有大到暴雨,新疆、内蒙古等地有沙尘暴

中央气象台发布暴雨、沙尘暴、大雾预警,今天到明天,福建、江西、湖南、广东、广西及西藏等地有大到暴雨,新疆、内蒙古等地有沙尘暴

极目新闻
2026-05-13 08:37:17
抢在中方接机前,特朗普随行人员名单变了,英伟达第一个被踢出局

抢在中方接机前,特朗普随行人员名单变了,英伟达第一个被踢出局

影孖看世界
2026-05-12 21:58:56
毕业生集体嘘声打断演讲:AI是未来?我们不买账

毕业生集体嘘声打断演讲:AI是未来?我们不买账

爬虫饲养员
2026-05-12 06:52:16
以色列人质称绑架期间遭性侵,强迫彼此发生关系,女孩遭奸杀肢解

以色列人质称绑架期间遭性侵,强迫彼此发生关系,女孩遭奸杀肢解

译言
2026-05-13 07:00:08
武汉大学终于硬气了,余思月真人曝光,她无缘继续留在OPPO公司

武汉大学终于硬气了,余思月真人曝光,她无缘继续留在OPPO公司

平老师666
2026-05-11 23:21:51
大货车与电动自行车发生碰撞,一女子被卷进货车底下,长沙县消防紧急救援

大货车与电动自行车发生碰撞,一女子被卷进货车底下,长沙县消防紧急救援

潇湘晨报
2026-05-12 22:01:41
2027款奔驰S级试驾:屏幕堆料,旗舰再进化

2027款奔驰S级试驾:屏幕堆料,旗舰再进化

绿茵狂热者
2026-05-13 06:06:28
大S女儿账号争议引发关注,汪小菲紧急回应

大S女儿账号争议引发关注,汪小菲紧急回应

何嗀爱捕渔
2026-05-11 20:23:59
14岁送上北野武的床,17岁拍写真,被操控半生,年过50仍风韵犹存

14岁送上北野武的床,17岁拍写真,被操控半生,年过50仍风韵犹存

飘飘然的娱乐汇
2026-05-11 20:05:06
上将从副部长改代行部长又转代理部长,再提名部长,转正用7年

上将从副部长改代行部长又转代理部长,再提名部长,转正用7年

凉州辞
2026-05-13 08:50:04
2026-05-13 09:23:00
安逸安逸
安逸安逸
安逸
614文章数 77关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

牛弹琴:印度的大麻烦来了 CNN的报道更是触目惊心

头条要闻

牛弹琴:印度的大麻烦来了 CNN的报道更是触目惊心

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

艺术
教育
游戏
数码
本地

艺术要闻

这位女摄影师的航拍风景照片,简直太美了!

教育要闻

600分以下想要本科就业,如何报志愿

《共鸣:瘟疫传说传承》新截图 画面相当唯美!

数码要闻

SiFive推出Performance P570 Gen 3内核,完全符合RVA23规范

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版