网易首页 > 网易号 > 正文 申请入驻

GPT-5被吐槽没进步?Epoch年终报告打脸:AI在飞速狂飙,ASI更近了!

0
分享至


新智元报道

编辑:Aeneas

【新智元导读】Epoch AI年终大盘点来了!出乎意料的是,AI没有停滞,反而变快了。

最近,Epoch AI又发了不少东西。

他们在FrontierMath上测试了几个开源权重的中文模型。

结果是,它们在1-3级的最高得分,要落后于全球顶尖AI模型大约七个月。


而在较难的第四级,几乎所有开源中文大模型都挂了零蛋。

唯一得分的选手,只有DeepSeek-V3.2 (Thinking)。它回答对了一道题,取得了1/48 ≈ 2%的分数。



当然,虽然这些中文开源大模型挂蛋了,外国模型们表现也很差。

GPT、Gemini这些顶尖模型,在传统的数学测试(比如 GSM-8k、MATH)上简直一路飙分。然而在FrontierMath上,它们的正确率也并不高。

不过从表中可以看出,它们的表现至少要比中文开源模型好一些。原因是为什么呢?暂时没找到。

而所有AI模型都考不好,是因为FrontierMath不是普通的benchmark,而是由60+名数学界顶尖专家联手出题,更有菲尔兹奖得主背书 。

它是一套真正的数学大考卷,不是那种简单的公式代入、算算微积分的小测验,而是专家级的原创难题,覆盖数论、实分析、代数几何、范畴论等,甚至是科研级别、要花数小时甚至数天才能解开的难题。

这也证明了,在真正难的数学问题 上,AI 现在还不是「做题机器」,更像是偶尔翻到答案的小学生。

AI进化,又加速了

此外,他们还出了一份最新数据洞察,结论令人惊喜——

AI的能力增长,比以前更快了!


他们用一个叫Epoch Capabilities Index(ECI)的综合指标,追踪了前沿 AI 模型能力的发展趋势。

结果显示:自2024年4月开始,AI 能力增长速度明显加快——比之前的增长速度快了近一倍!

也就是说,在过去的几年里,AI的能力不是一条稳定的上升线——而是在某个时间点突然开始更快地往上冲刺

背后原因就是这两个:推理模型更强了,强化学习更受重视了。


很多人会觉得,如今的AI进展变慢了,因为GPT-4发布后,就再没看到巨大的飞跃。

但数据显示,其实AI的进步从来没停过,只是方向和节奏变了。它一直在某些核心技能上加速,比如推理能力,而不是靠「更大模型 + 更多参数」。



年度TOP十大洞察

并且,就在刚刚,Epoch AI出了一篇硬核年终回顾。


在整个2025年,他们发布了36篇数据洞察和37篇通讯。

在这70短篇关于AI的短调查中,哪些是最受欢迎的?

Epoch AI给我们来了个年终盘点。

以下这10个调查,是最受读者欢迎的。

前5个,是最受欢迎的数据洞察。

1.AI推理成本疯狂降价

严谨一点说,就是LLM推理价格在不同任务中迅速但不均衡地下降。

在2023年4月至2025年3月期间,Epoch AI观察到在同等性能水平下,每枚token的价格下降了10倍以上。

也就是说,AI每一次推理(输出回答)的价格都下降了10倍以上。


越来越便宜,就意味着AI的普及会更加无门槛:从此,它不再是「大厂拿得起」的技术,而是人人都能用得起的工具!

2.AI「大脑」正跑到你的电脑里

短短一年内,前沿AI性能就已在消费级硬件上实现。

目前能在消费级GPU上运行的顶级开源模型,在GPQA、MMLU、AA Intelligence和 LMArena等多项性能指标上,并且与顶尖AI的差距不到一年,甚至更短。


既然最强开源模型能在普通的消费级显卡上运行,那么在不久的将来,你的笔记本可能就能跑AI大模型了!

而且任何最前沿的AI能力,都可能在不到一年内被公众广泛获取。

3. OpenAI 2024的大多数算力,其实都用在了试验上

媒体报道显示,2024年OpenAI的大部分计算资源并未用于推理或训练,而是用于做实验,以支持进一步开发。


是的,不是你想的那样:不是训练就是24/7为用户提供服务,它更多是在试错、探索、实验。

这说明,目前的AI研发仍然非常依赖大量实验,而不只是跑几个benchmark就完事。

同时,当前AI的成本也大多来自于实验,而非训练和部署。

4. 英伟达芯片算力,每10个月翻一倍!

自2020年以来,英伟达芯片的已部署AI计算量每年增长超过一倍。

每发布一款旗舰芯片,它在三年内就会占据现有计算量的绝大部分。


所以可以说,GPU仍然是AI运算的核心燃料,而且增长速度快得飞起。

而为了维持当前AI发展的脚步,计算资源还需要再成倍增加,老黄和其他芯片商还有的赚!

5. GPT-4和GPT-5,都是大飞跃

尽管有人吐槽OpenAI更新太快看不出进步,但不要信他们的!

无论是GPT-4还是GPT-5,都在基准测试中都实现了重大飞跃,大大超越了它们前代产品的性能。


所以,今年的AI不是微创新的堆叠,而是真正的能力跃迁。

那为什么GPT-5发布后,许多人感觉很失望?

这是因为,过去两年新模型发布的频率更高了,而非能力放缓了。

Gradient最热TOP 5:洞见背后的思考

接下来5个,是最受欢迎的Gradient专栏文章。

Gradient是Epoch AI的专栏,专门发表简短的快讯。

6. ChatGPT耗电惊人?并不是

GPT-4o的每次推理,平均耗能究竟是多少?

答案是,比点亮一个灯泡五分钟的耗电量还要少。

这个结论,也得到了奥特曼的证实,和谷歌报告的每条Gemini prompt的能量成本相似。


也就是说,外界对于AI消耗能源的担忧,其实比实际情况要夸张了。

当然,AI的能源消耗一直在指数级增长,未来可能会成为大问题。

7. DeepSeek如何改进了Transformer架构?

一文讲清了DeepSeek v3用哪三项核心技巧,在算力更低的情况下拿下了当时最强开源模型的位置。

三个技术是,多头潜在注意力(MLA)、混合专家(MoE)架构的改进,以及多token预测机制。


就在这篇文章发布后三天,DeepSeek发布了R1,引起了全球AI圈的大地震。它的性能跟OpenAI o1相当,但开发成本却是几分之一。

整个AI圈都被上了一课:精妙的架构创新 = 更低的研发成本 + 更快的落地速度。

8. 推理模型能走多远?局限在哪?

作者分析了推理训练的增长模式和上限。结论是:推理确实重要,但增长不会无限爆炸。


OpenAI、Anthropic在2025年初就曾表示,它们当前的RL扩展速度最多只能维持1–2年,很快就会触及自身算力基础设施的上限。

推理能力已经成为模型训练中一个极其重要的扩展维度,并在数学、软件工程上带来了非常亮眼的效果。

然而,这一方向的增长存在明显边界,这也意味着,2024–2025年模型能力的爆发式提升,可能很快就会放缓

对研发规划来说,这是重要的现实提醒。

9. 「AI曼哈顿计划」有多大?

Epoch AI用曼哈顿计划、阿波罗计划做对比,估算出一个美国国家级AI项目可能达到的规模。

他们的结论是:这个项目足以支撑一次规模达到GPT-4的1万倍的训练任务


也就是说,当AI被视为国家战略级科技项目时,它的级别真能放大很多倍!

10.AI的最大价值,并不来自搞科研?

最后这一篇,十分有趣。

我们常常听到一种叙事:AI一旦能自动做科研,技术就会指数级爆炸,人类生产力就会迎来史诗级跃迁。

但Epoch AI给出了一个更冷静的判断——

AI创造的大部分价值,可能并不是来自加速研发(R&D),而是来自对整个经济体系中大量工作的广泛自动化。

这是因为,从历史数据看,在1988–2020年这三十多年里,研发活动对整体生产率的贡献其实相当有限。

就算AI把「科研效率」拉满,真正撬动经济的,未必是实验室里的突破,而是日常工作方式的改变。


这里,就存在一个关键分歧!

要知道,像奥特曼、Demis Hassabis、Dario Amodei这些领军人物,论调都是「AI自动化研发,是通向爆发式增长的关键」。

如果这个判断成立,那么AI的影响就会很迅猛,很剧烈。它会突然跨过「科研自动化的最后一道门槛」,在少数AI公司内部实现巨大飞跃。

但Epoch AI提出的,却是另一种可能性,也是更「社会学」的版本。

AI更可能通过一个缓慢而分散的过程,来改变世界。

不是一夜之间,而是几年甚至几十年,AI会逐步被不同行业、不同组织吸收,替代重复劳动。

如果真是这样,AI的革命不会是一声巨响,而是一场长时间的潮水。

参考资料:

https://x.com/EpochAIResearch/status/2003510001277747518

https://x.com/EpochAIResearch/status/2003559099867496872

https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up

https://x.com/EpochAIResearch/status/2003178174310678644

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名连锁店宣布退市!巅峰时突破2万家门店,广州街头随处可见

知名连锁店宣布退市!巅峰时突破2万家门店,广州街头随处可见

白浅娱乐聊
2026-03-26 09:26:54
FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

赛博兰博
2026-03-25 14:31:11
她是冯巩御用老婆,连登五年春晚后精神失常,现在53岁怎样了?

她是冯巩御用老婆,连登五年春晚后精神失常,现在53岁怎样了?

王鶔吃吃喝喝
2026-03-26 18:31:49
背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

来科点谱
2026-02-18 07:08:08
陈云带烈士遗孤就餐,毛主席撞见后预测:这娃了不得,后官至总理

陈云带烈士遗孤就餐,毛主席撞见后预测:这娃了不得,后官至总理

浩渺青史
2026-03-26 13:45:31
美国首次!20岁女子社交平台成瘾,法院判Meta和谷歌赔偿她600万美元

美国首次!20岁女子社交平台成瘾,法院判Meta和谷歌赔偿她600万美元

红星新闻
2026-03-26 15:46:22
巴法大战最大看点:安帅排四前锋如何锁死姆巴佩?

巴法大战最大看点:安帅排四前锋如何锁死姆巴佩?

体坛周报
2026-03-26 14:49:15
美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

每日经济新闻
2026-03-26 16:14:04
一种玄学提醒:经常睡觉的房间,尽量别放这三样东西,并非迷信

一种玄学提醒:经常睡觉的房间,尽量别放这三样东西,并非迷信

洞读君
2026-03-16 10:36:55
不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间19:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:33:07
盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

盘点现役出道十年以上的岛国启蒙老师,陪你度过多少夜晚?

吃瓜党二号头目
2026-03-26 14:55:08
59岁黎明演唱会生图翻车,头秃腹凸脸肿,昔日男神被群嘲像酒保

59岁黎明演唱会生图翻车,头秃腹凸脸肿,昔日男神被群嘲像酒保

小椰的奶奶
2026-03-26 13:59:56
宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

宅基地“父改子”黄金窗口期!农村有儿子的抓紧,错过就亏大了

三农雷哥
2026-03-25 17:58:07
不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:32:21
NBA扩军天价劝退詹姆斯?你不买有的是人买! | 体育赛事

NBA扩军天价劝退詹姆斯?你不买有的是人买! | 体育赛事

体坛经济观察
2026-03-25 17:24:50
邵佳一:国足无友谊赛,结果最重要

邵佳一:国足无友谊赛,结果最重要

北青网-北京青年报
2026-03-26 17:59:02
广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

柏铭锐谈
2026-03-25 10:50:46
正式官宣:3月29日,第二代腾势D9即将预售!

正式官宣:3月29日,第二代腾势D9即将预售!

阿喵汽车
2026-03-26 10:28:39
人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

路医生健康科普
2026-03-26 11:10:03
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
2026-03-26 19:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
艺术
亲子
房产
公开课

皮衣+裙,高级到炸

艺术要闻

哪一座桥不是风景?

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版