网易首页 > 网易号 > 正文 申请入驻

刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速

0
分享至


新智元报道

编辑:Aeneas KingHZ

【新智元导读】就在刚刚,Claude Mythos把评测干「失效」了:METR第一次测不准,AI攻防拐点到了!AI 进化已成「外星文明」降临,超越指数增长,2027 AGI 奇点正加速撞向人类。

刚刚,Claude Mythos干爆METR评测上限!超指数级进化已经逼近AGI奇点。

就在今天,一张趋势图刷屏全网。


国际最权威的AI评测机构METR惊恐地发现,他们的「温度计」要被Mythos撑爆了。

Claude Mythos Preview的能力,已经捅破了人类评测框架的天花板,进入了失真区

OpenAI超级对齐团队前成员Leopold Aschenbrenner曾预测2027年是AGI的奇点,但现在的最新数据显示:Mythos的表现已经略高于2027情景的趋势线。


「外星文明」,已经强行着陆,阴影已覆盖整片天空。

评测界的大地震

当「满分」不再有意义

在METR最新的测试中,他们试图衡量AI完成长周期复杂任务的能力(Time Horizons)。

METR设置了一个名为「50%成功率时间线」的指标——即模型有50%的概率,成功独立完成一项人类需要耗费X小时才能完成的任务。


此前,此前的模型,成绩是几十分钟或几个小时。

但当Claude Mythos站上考场时,数据直接爆表了:它在人类需要16个小时才能完成的极其复杂的长线任务上,轻松达到了50%的成功率!

你可能会问:那测试32小时、64小时的任务呢?

METR给出的答案让人惊恐:「我们测不了了。」


在METR精心构建的228个魔鬼级测试任务中,只有区区5个任务是被归类为「16小时及以上」的。这意味着什么?

这意味着人类现有的、引以为傲的难题库,已经被AI彻底掏空了。

就像用刻度只有1米的卷尺去量一栋摩天大楼,除了知道它「爆表」了,我们对其真实的深度一无所知。

「外星文明」已降临?

在16小时以上的区间,METR根本没有足够的样本来对Mythos进行准确的定量比较。

METR坦言,在这个阈值之上,数据的测算变得「不稳定且失去意义」。

这是人类历史上极为罕见的一幕:创造者失去了丈量被创造物能力的工具。

当「考官」已经出不出题的时候,「考生」的真实实力到底有多恐怖?

这不仅仅是一次常规的AI模型迭代,而是一次「超指数级」的物种变异。旧的法则正在崩塌,AI已成外星文明降临!


AI从业者、硅谷著名观察家Chase Brower直言,AI发展远超行业预期:根据SemiAnalysis的数据,AI行业的年化营收已经远超此前对2026年第二季度约260亿美元的预测。


当前的AI技术已如「清晰可见的外星飞船」一样悬浮在人类文明的天空中。

人类已经无法理解AI的超指数增长!


这不再是实验室里的数据,标志着AGI的征兆已经完全显现!

超指数,比指数增长还快

把METR那张趋势图拉出来细看。

纵轴是AI能自主完成的编码任务时长,从8秒到5年,对数刻度。横轴是模型发布时间,2021到2028。每一个点是一个模型版本。

把点连起来,画出来的不是一条直线,不是一条指数曲线,而是一条比指数还陡的弧


AI在超指数增长,AI增速本身在加速。

  • 2021年,最好的模型能自主完成8秒级别的任务——写一行代码,修一个拼写错误。

  • 2023年初,推到了1分钟量级——一个小函数、一段简单调试。

  • 2024年中,冲到了大约1小时——一个完整feature的实现、一次多文件重构。

  • 2025年4月,Mythos Preview落点:16小时——一个完整的工程子项目,读代码、理解架构、制定方案、编写实现、调试测试,一气呵成,不需要人类盯着。

每一代的跃升幅度都比上一代更大。间隔时间都比上一代更短。


本图由AI生成

人类的演化是为了让我们在草原上计算果实和猎物的距离,大脑天生是线性的。

我们好不容易理解了「指数增长」,现在却被迫面对指数之上的指数。

猿类的大脑面对超指数,直接集体宕机。


本图由AI生成

METR在图上画了几条参考线。

其中一条是「AI 2027情景」的中央轨迹——基于多家机构联合预测,假设AI能力按目前最主流的预期持续增长,大约在2027年前后触达通用人工智能门槛。

Mythos的数据点落在这条线的上方


不是偏了一点。是在时间轴还没走到2027的位置上,能力值已经超过了2027的预测值。

AI基础设施从业者Chase Brower看完METR报告后在推特上判断:那个预计在2026年初出现的"Agent-1"描述,其实有点低估了当前最好模型的能力。整个行业对AI发展速度的预估都偏保守了。


这里有个细节容易被忽略。

METR的纵轴不是跑分,不是准确率,不是某个benchmark上的百分比。那条曲线目前没有任何减速的迹象。

安全圈原子弹时刻

从「助手」到「自主攻击者」

如果说METR的烦恼还是学术性的,那么Palo Alto Networks的预警则是带血的实战报告。


近期,Palo Alto获得了Mythos、GPT-5.5-Cyber等前沿模型的早期无限制访问权限。

测试结论让所有防御者脊背发凉:AI已经跨过了那道名为自主的门槛。

当模型能自主工作16小时的时候,它在安全领域能干什么?

时间坍缩:3周=1年

Palo Alto的报告中有一个令人震撼的数据:使用Mythos辅助进行漏洞分析,仅仅3周时间,其完成的工作深度和覆盖广度,等同于一整个顶级渗透测试团队整整1年的工作量。


链接:https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/

这直接是降维打击。


本图由AI生成

以往的AI只能帮你写个脚本、搜个代码片段。但Mythos展现出了一种近乎恐怖的「软件漏洞直觉」。


它能识别出上万行代码中那些零散、低危的小漏洞。

更要命的是,它能像顶级黑客一样,将这些原本不起眼的漏洞串联成一条致命的攻击链

从初步入侵到数据拖库,在AI辅助下,整个过程被压缩到了25分钟。

而在过去,这种级别的攻击可能需要一个团队潜伏数周才能完成。


本图由AI生成

在奇点撞向我们之前,

如何自救?

Anthropic曾因为觉得Claude Mythos「太危险」而拒绝全面发布,一度被嘲讽为PR手段。但现在看来,这更像是一种对未知的敬畏。

Mozilla已经开始行动,他们利用Mythos扫描Firefox浏览器,仅在2026年4月一个月内就修复了破纪录的423个安全问题。


这说明,AI也是最强的盾,但前提是你要比攻击者跑得更快。

我们必须接受一个残酷的现实:旧时代的防御节奏已经彻底失效。

检测响应时间不能再以「小时」计,必须缩短到「分钟」甚至「秒」;安全不再是人的审计,而是「用AI对抗AI」的自动化博弈。

与此同时,资本侧也已经allin。

在过去5个月里,英伟达向自己的客户注资约400亿美金:

300亿给OpenAI,20亿给算力商CoreWeave,32亿给光纤商康宁……


本图由AI生成、数据来源于网络由AI收集

这些钱转了一圈,最后全部变成了英伟达芯片的订单。

显然,黄仁勋正在用钱投票,强行拉拽全产业链加速撞向奇点。

但这套永动机最可怕的地方在于,它在奇点坠落前根本无法停下。

Chase Brower指出,Anthropic的年化收入已经远高于此前260亿美元的预测线。资本市场已经在用脚投票——钱在押注那条曲线不会拐弯。

2027年,按照METR趋势图上那条中央轨迹线,是多家机构联合预测的AGI门槛年份。Mythos已经跑在这条线的上方。

如果接下来18个月不出现根本性的技术断崖——不是减速,不是瓶颈,而是物理定律级别的硬墙——那么2027不再是一个需要辩论的预测。


本图由AI生成

它是一个需要准备的倒计时。

AGI的奇点不再是预测,而是正在发生的冲击。外星文明已经来临,我们能做什么?

参考资料:

https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/

https://metr.org/time-horizons/

https://x.com/ChaseBrowe32432/status/2053159533862908019

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
搭载4000余名旅客,“爱达·魔都号”开启国内首次无目的地海上游

搭载4000余名旅客,“爱达·魔都号”开启国内首次无目的地海上游

上观新闻
2026-06-06 16:28:13
“这是奶奶半夜给你抄写的,说高考可能要考的……”

“这是奶奶半夜给你抄写的,说高考可能要考的……”

云南网络广播电视台
2026-06-06 10:58:14
CBA消息!广东确定续约两外援,王哲林力挺孙铭徽,怀特塞德现身

CBA消息!广东确定续约两外援,王哲林力挺孙铭徽,怀特塞德现身

中国篮坛快讯
2026-06-06 18:03:03
33岁男演员金泽去世,去世前经常发烧,他曾搭档龚俊,老家是威海

33岁男演员金泽去世,去世前经常发烧,他曾搭档龚俊,老家是威海

好贤观史记
2026-06-06 14:21:23
夺冠却不带奖杯回国?中国足球小将把冠军奖杯留罗马餐厅

夺冠却不带奖杯回国?中国足球小将把冠军奖杯留罗马餐厅

大象新闻
2026-06-06 15:31:42
形势有多严峻?调研称超一半医院在降薪,评论区炸锅…

形势有多严峻?调研称超一半医院在降薪,评论区炸锅…

慧翔百科
2026-06-05 17:55:33
董鑫旺已任上海市文史研究馆党组书记

董鑫旺已任上海市文史研究馆党组书记

澎湃新闻
2026-06-06 12:50:26
德布劳内暴怒!多库遭遇剪刀脚,10人互相推搡,加西亚怒喷裁判

德布劳内暴怒!多库遭遇剪刀脚,10人互相推搡,加西亚怒喷裁判

奥拜尔
2026-06-06 21:57:30
杨颖和李晨的瓜爆了,信息量有点大...

杨颖和李晨的瓜爆了,信息量有点大...

乔话
2026-06-06 20:01:23
“中方越是对我采取制裁举措,我就越发坚持反华立场”

“中方越是对我采取制裁举措,我就越发坚持反华立场”

安安说
2026-06-05 11:03:25
法国队世界杯全家福:德尚前排C位,姆巴佩和登贝莱位居左右

法国队世界杯全家福:德尚前排C位,姆巴佩和登贝莱位居左右

懂球帝
2026-06-06 18:25:53
黄仁勋:只要你是被亚洲父母养大的,你这辈子都需要看心理医生

黄仁勋:只要你是被亚洲父母养大的,你这辈子都需要看心理医生

可达鸭面面观
2026-06-06 11:40:39
遗憾,男演员金泽去世,年仅33岁

遗憾,男演员金泽去世,年仅33岁

红星新闻
2026-06-06 10:26:33
上海夺冠后1天就找到下家?古德温被挖墙脚了:下赛季卫冕悬了?

上海夺冠后1天就找到下家?古德温被挖墙脚了:下赛季卫冕悬了?

篮球快餐车
2026-06-07 03:34:27
北京知名大律师谭臻去世,年仅58岁,儿子透露原因:两天后才发现

北京知名大律师谭臻去世,年仅58岁,儿子透露原因:两天后才发现

千言娱乐记
2026-06-06 16:29:20
普京回应泽连斯基公开信:粗鲁无礼,现在会面“没有任何意义”

普京回应泽连斯基公开信:粗鲁无礼,现在会面“没有任何意义”

界面新闻
2026-06-06 09:51:19
继妹啦啦队长地下室遭继兄灌精7次!淫叫求饶仍被强塞假屌双穴齐开,乱伦细节全网疯传

继妹啦啦队长地下室遭继兄灌精7次!淫叫求饶仍被强塞假屌双穴齐开,乱伦细节全网疯传

晚风也遗憾
2026-06-07 02:23:25
太扎心了!毕业30周年聚会尴尬取消,直言“热情不高,支持不力”

太扎心了!毕业30周年聚会尴尬取消,直言“热情不高,支持不力”

火山詩话
2026-06-06 06:37:21
89岁老人为领高龄补贴 每月举报纸和户口本拍照证明“我还活着” 当地民政局回应

89岁老人为领高龄补贴 每月举报纸和户口本拍照证明“我还活着” 当地民政局回应

闪电新闻
2026-06-06 11:17:09
两岸舰船34小时对峙结束后,大陆更大动作来了,赖清德要紧张了

两岸舰船34小时对峙结束后,大陆更大动作来了,赖清德要紧张了

DS北风
2026-06-06 21:38:06
2026-06-07 04:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15401文章数 66913关注度
往期回顾 全部

科技要闻

SpaceX与谷歌签署300亿美元算力协议

头条要闻

张桂梅寄语高考学子:冲出去 去成为更好的自己

头条要闻

张桂梅寄语高考学子:冲出去 去成为更好的自己

体育要闻

上海男篮时隔24年夺冠,恐怖的在后面?

娱乐要闻

33岁男演员金泽去世,曾搭档龚俊

财经要闻

吴清最新定调!四大方向清晰了

汽车要闻

BJ30旅行家完成多路况节油实测 百公里油耗突破5升

态度原创

健康
数码
家居
艺术
手机

新规能促进干细胞治疗乱象规范吗?

数码要闻

联想ThinkPad T16 2025笔记本开售:Ultra 7 255H,售13999元

家居要闻

雅奢之序 五层别墅

艺术要闻

西安“瀑布大楼”冲出地面,全新效果图亮相

手机要闻

全自研“超高端”旗舰来了!小米MIX新机在下一盘怎样的棋?

无障碍浏览 进入关怀版