网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

奥数金牌只是序章！OpenAI谷歌彻底打脸预言家，AI巨浪势不可挡

2025-09-04 12:21:23　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】2022年，专家们笃定AI到2025年赢得IMO金牌概率不足10%。谁料短短3年，OpenAI和谷歌DeepMind的LLM双双摘金，不仅打破纪录，更宣告群体智能时代的到来！AI震撼人心，巨变势不可挡。

2022年，预言家放言：到2025年，押注90%的概率AI拿不下国际奥数IMO金牌。

可谓言之凿凿，信心十足。

然而仅仅两年，OpenAI与谷歌DeepMind双双击碎了悲观预言：

LLM不仅提前「封神」摘金，还打破了对AI能力边界的想象。

从语言生成到逻辑推理，从通用能力到专业领域竞技，生成式AI正以惊人的速度越过每一道人类设下的「智力高墙」。

预测错得越离谱，AI给人的感觉就越震撼。

如今，几乎可以确定，AI发展速度远超过去几年的主流预期。

巨变，才刚刚开始。

预言家集体翻车

刚刚，宾大沃顿商学院教授、生成式人工智能实验室联合主任Ethan Mollick非常笃定：过去，人们低估了AI发展的速度。

他举了一个例子：

2022年，预测研究院（Forecasting Research Institute）邀请169名顶尖预测专家和学者评估AI进展。

当时，他们分别给出结论：到2025年，仅有2.3%和8.6%概率，AI能赢得国际数学奥林匹克金牌。

结果，被现实啪啪打脸：谷歌DeepMind的Gemini、OpenAI的ChatGPT，这两个通用大模型拿下了2025年国际数学奥赛的金牌。

谷歌DeepMind和OpenAI争夺AI史上第一块「IMO金牌」：OpenAI抢先发布了自家结果，但谷歌DeepMind的模型成绩获得了IMO官方认证。

OpenAI先声夺人，集体造势，收获了一大波流量：

据称，为了尊重参赛学生，谷歌等到IMO官方认证成绩后才公布了结果。

这是一个AI的历史性时刻，标志着过去十年AI的巨大进步。

大语言模型，本为生成语言而生，但在数学上也远超大部分人的想象。

OpenAI的研究科学家Noam Broen认为，当时的预测对LLM更悲观：

而且需要注意的是，这些预测说的「任何」一种AI系统能夺得奥赛金牌。如果换成是「大语言模型」这类通用AI系统，他们眼中的概率更低。

而且就在国际奥数成绩发布前，MathArena测评了当时的可用的大模型，没一个能拿到铜牌：

之后，不久传来了AI获得金牌的消息。

在数学推理上，LLM一再被低估。

预测研究院承认：AI在国际奥数竞赛上，成绩惊艳。

预测失准，不是偶然，是范式变了。

事实上，在MATH、MMLU和QuALITY三个标准的AI基准测试，预测几乎全军覆没。

在MATH数据集基准测试，GPT-4 Turbo在2024年4月达到了87.82%，而领域专家和超级预测者认为截至2024年6月30日，达到这一水平的概率为21.4%和9.3%。

在MMLU上，GPT-4o和Claude 3.5 Sonnet在2024年年中达到了88.7%，而预测的可能性只有25.0%和7.2%。

在QuALITY Hard子集上，RAPTOR + GPT-4在2023年6月得分为69.3——比截止日期早整整一年。

无论是领域专家还是超级预测者，都错误判断了AI发展的速度和方向。

两组人群都低估了截至2024年底AI的最大算力，其中超级预测者的预测值只有实际最大值的1/5。与此同时，他们又高估了机器学习模型的上限：

专家预测参数规模将达到1.00E+14（100万亿），

超级预测者则给出4.00E+14（400万亿）的预期，

均比当前初步确认的1.00E+13（10万亿）参数规模高出十倍。

与此类似，麦肯锡发布过一份报告，展示了人工智能专家小组在2017年（在LLMs之前）的预测。

例如，麦肯锡预测AI将在2037年达到人类平均创造力水平。但实际上，在2023年这一目标已经实现。

而对于达到前1/4创造力水平的预测，麦肯锡原本估计要到2055年，但这一目标也已经提前30年达成。

由于生成式人工智能的发展，技术性能预计将比之前估计的更快地达到与人类中位数水平相当的性能，并在广泛的能力范围内达到人类前25%的顶尖水平

再例如，麦肯锡全球研究院（MGI）之前认为，在自然语言理解方面，技术最早可能在2027年达到与人类中位数相当的水平，但在新的分析中，这一时间点已提前到2023年。

在2025年的报告中，麦肯锡表示在过去的两年里，人工智能取得了飞速发展，许多重要的AI创新涌现⬇️。

现实中AI进步如此神速，网友Aravind Sunda惊叹：

变化之快堪称疯狂。2022年看似不可能的事，现在已触手可及。

2022年11月30日，ChatGPT正式公布。而之前，生成模型或GenAI更多指图像、视频等生成模型，OpenAI还在探索GPT的应用场景。

所以，ChatGPT有可能才是最大的变量，正如网友Mahaoo所言：

在ChatGPT和GPT-4问世之前的所有预测，几乎都注定严重低估了AI的实际进展。因为这些模型的横空出世，让外界第一次真正看清了AI的潜力和速度。

不过，LLM存在锯齿型智能现象：在某一方面表现出色，另一方面一塌糊涂。

威斯康星大学计算机科学教授Pedro Domingos就质疑了这种概括性结论：

AI在某些领域确实领先，但在其他领域则不然。基于预测家考虑的少数领域，很难做出这样一概而论的判断。

或许，人们常常高估AI短期的发展，而总是低估它的长期进步。

而一个更大的转变正在酝酿：我们正进入「大众智能」时代，强AI变得像谷歌搜索一样容易获取。

群体智能时代

对于大多数用户来说，访问强AI一直有两个障碍

1. 困惑：很少有人知道该怎么选AI模型。

2. 成本：顶级模型很贵，免费用户往往用不了，或者只有非常有限的访问权限。

而GPT-5本计划解决这两个问题：利用路由机制，避免简单问题浪费算力，自动选择模型，从而让更多人有机会使用推理模型等强AI。

这套机制在上线初期解释不足，路由判断也经常失灵，看起来乱七八糟、让人困惑。尽管如此，奥特曼很快宣布GPT-5取得了初步成功：

上线几天内，经常使用推理模型的付费用户比例从7%升至24%，而免费用户中能接触到顶尖模型的比例也从几乎为零提高到了7%。

推动这一切变化的，还有模型效率的飞跃。

AI变得越来越聪明，但运行成本却急剧下降。下图直观展示了这一趋势。

这些改进带来的直接后果就是：哪怕AI越来越强大，它也变得足够便宜，可以普惠大众。

服务新增用户的边际成本，几乎崩塌式下降。这也让广告等商业模式成为可能。

两年前要花上几美元的提示任务，如今免费用户就能轻松运行。

这就是十亿人突然拥有强大AI的真正原因：并不是因为某个宏大的「平民化AI」愿景，而是因为算力经济学终于走到这一步。

不过，光能用上强AI还不够，关键是人们要能真正用它来完成任务。

过去，高效使用AI是「黑科技」魔法：

要靠精心编写提示词，

利用思维链（chain-of-thought）等技巧，

再配合各种小窍门，才能逼近理想答案。

但最近的一系列实验表明，这些技巧已经不再重要。

传送门：https://gail.wharton.upenn.edu/research-and-insights/tech-report-chain-of-thought/

如今的顶尖模型越来越擅长直接理解并完成请求，甚至能「揣摩」用户的真实意图，自动超出预期去完成任务。

而且，变化不仅发生在文本模型上。

最近，谷歌发布了一款全新的图像模型，内部代号「nano banana」。

它不仅在图像编辑上表现出色（甚至比生成全新画面还更稳定），而且便宜到足以开放给免费用户使用。

更关键的是，它终于能很好地理解自然语言指令，省去了复杂的「提示词工程」。

当数亿人掌握强AI，各种现象会同时发生。事实上，它们已经在发生了：

有人与AI模型建立了深厚的情感关系，也有人借此摆脱孤独；

有人因为AI而走向精神崩溃或危险行为，也有人利用AI诊断疾病、挽救生命

衍生出了数以千计的意想不到的用途。

随着模型愈发强大，这些应用场景、问题与益处只会成倍增长。

AI巨头——无论你是否相信它们关于「安全」的承诺——根本无法完全消化这股浪潮。

当十亿人同时拥有先进AI时，人类真正进入了所谓的群体智能时代。

我们所有的制度——学校、医院、法庭、公司、政府——过去都建立在「智能稀缺而昂贵」的前提之上。

如今，每一个职业、每一家机构、每一个社区，都必须重新思考：

如何在群体智能的环境中生存与繁荣？

如何在全民造假的世界里重建信任？

如何在普及知识的同时，保留人类专业经验的价值？

参考资料：

https://x.com/emollick/status/1962859757674344823

https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/the%20economic%20potential%20of%20generative%20ai%20the%20next%20productivity%20frontier/the-economic-potential-of-generative-ai-the-next-productivity-frontier.pdf

https://www.oneusefulthing.org/p/mass-intelligence

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DeepMind之父惊人自白：我造的AI可能灭绝人类，但已无人能停下

新智元 2026-03-30 21:26:17
381 跟贴 381
再谈OpenAI：8000亿的估值，建不起的壁垒

钛媒体APP 2026-05-13 16:23:16
0 跟贴 0

做AI漫剧的、搞Agent的、投硅谷的，5.20这些赛道顶流碰头了

量子位 2026-05-11 18:32:24
0 跟贴 0

英伟达押注AlphaGo研发主管新公司摸索大模型行业未来前沿

财联社 2026-05-14 00:32:11
0 跟贴 0
李彦宏：别盯着token了，AI时代要看日活智能体数

智东西 2026-05-13 13:57:12
0 跟贴 0

Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0

大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
AI步入“自我进化”时代，李彦宏首提AI时代度量衡“DAA”

量子位 2026-05-13 12:40:28
2 跟贴 2

亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
DAA、超级个体与混合编队：李彦宏的AI时代进化论

钛媒体APP 2026-05-13 17:58:13
0 跟贴 0
大模型的魅力在于突发涌现的能力

量子位 2025-12-11 03:38:02
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
1 跟贴 1
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
百度沈抖自曝：老忘吃药，用AI做了个小程序

量子位 2026-03-27 11:25:23
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
安心养虾！从OpenClaw看云上AI安全落地路径

量子位 2026-03-31 20:40:57
0 跟贴 0
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
MIT研究生用NotebookLM两天学完一学期课程

量子位 2026-03-22 10:50:49
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
如何点亮小龙虾的牛马技能包?

量子位 2026-03-18 12:51:26
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
博士生如何用龙虾做知识管理？欢迎围观！

量子位 2026-03-26 23:23:30
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0
陶哲轩：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟贴 0
AI助力多组学与机器学习联合分析（机器学习分析代谢组、蛋白组、宏基因组、网络药理学、转录组）

医咖会 2026-03-05 19:27:22
0 跟贴 0
用AI解决所有疾病！AlphaFold诺奖团队创立的AI制药公司，完成创纪录的21亿美元B轮融资

生物世界 2026-05-13 12:11:01
0 跟贴 0
Google DeepMind与EVE Online达成合作，共同研究"玩家驱动系统"

至顶科技 2026-05-12 22:34:55
4 跟贴 4
【AI大模型安全与评测】从DeepSeek-V4拆解真实评估逻辑，90%的人都搞错了！企业级大模型评

卢菁老师 2026-05-09 09:07:47
0 跟贴 0
如果世界是电脑模拟的，人类能否像黑客一样“越狱”逃离?

DeepTech深科技 2026-02-16 10:08:29
32 跟贴 32
Claude design限速，谷歌开源轻松做动态网页，实力打脸？

机器之心Pro 2026-04-29 17:20:04
0 跟贴 0
升级安卓17 Beta发现：谷歌的手机AI Agent，还是PPT

雷科技 2026-05-13 20:28:21
1 跟贴 1
谷歌突袭苹果！安卓变身“豆包手机”，首发Gemini电脑，把AI塞进光标

智东西 2026-05-13 20:03:20
0 跟贴 0
Rivian推AI语音助手：月费15美元，能调座椅还能管日历

固件更新中 2026-05-13 07:56:56
0 跟贴 0
物理AI重塑汽车从感知世界到读懂世界

车质网 2026-05-12 18:33:42
0 跟贴 0
为了逃避考试，他发明了最好的压缩算法，zip的历史可谓一波三折

量子位 2026-04-29 06:41:21
0 跟贴 0
烧烤店将排烟管对隔壁直吹邻居提议自费帮其改造遭拒店主：他说不想让我占地

荔枝新闻 2026-05-13 04:35:09
489 跟贴 489
【RAG 的17种方法全集】切片优化 + 动态切片 + Query 处理 + 检索进阶！大模型rag

卢菁老师 2026-05-11 10:52:04
0 跟贴 0
黄仁勋来干啥？中美大摊牌？

李荣茂 2026-05-13 19:23:24
0 跟贴 0
「龙虾之父」吐槽人类互联网后，终于有人把这当个事儿办了

机器之心Pro 2026-03-31 11:09:26
0 跟贴 0

太突然！香港80后“地产女王”烧炭身亡，曾向朋友发信息称要自杀！她草根出生，做过百亿级收购，生前已陷入严重财务困境

太突然！香港80后“地产女王”烧炭身亡，曾向朋友发信息称要自杀！她草根出生，做过百亿级收购，生前已陷入严重财务困境

每日经济新闻

2026-05-13 19:54:12

美国航母还没走，伊朗就开始威胁周边国家，连防御伊朗袭击都不行

美国航母还没走，伊朗就开始威胁周边国家，连防御伊朗袭击都不行

合赞历史

2026-05-13 13:50:47

华南理工男生上课偷录女生裙底：全程30分钟，现场画面，细节曝光

华南理工男生上课偷录女生裙底：全程30分钟，现场画面，细节曝光

李晚书

2026-05-13 18:02:04

关心：黄仁勋为什么能“压哨登机”

关心：黄仁勋为什么能“压哨登机”

观察者网

2026-05-13 16:22:20

曝林俊旸创业！首轮估值136亿

曝林俊旸创业！首轮估值136亿

智东西

2026-05-13 16:16:41

扎心！朋友孩子的班34人处于“零就业”状态，引热议

扎心！朋友孩子的班34人处于“零就业”状态，引热议

火山詩话

2026-05-13 15:02:14

皇马训练视频疯传，“姆巴佩帮”和“维尼修斯帮”似乎泾渭分明

皇马训练视频疯传，“姆巴佩帮”和“维尼修斯帮”似乎泾渭分明

懂球帝

2026-05-14 01:38:38

“67岁产女妈妈卧床” 老伴回应：系半月前在老家突发脑梗女儿今年将上小学

“67岁产女妈妈卧床” 老伴回应：系半月前在老家突发脑梗女儿今年将上小学

红星新闻

2026-05-13 13:54:49

特朗普已经抵达北京，美媒发现不对劲：中国人为啥一点都不期待？

特朗普已经抵达北京，美媒发现不对劲：中国人为啥一点都不期待？

深析古今

2026-05-14 00:18:09

博主曝华为招人偏爱“苦大仇深来自农村”，因为这种人没躺平的资本

博主曝华为招人偏爱“苦大仇深来自农村”，因为这种人没躺平的资本

风向观察

2026-05-13 21:17:39

中美谈妥，贝森特握紧中方的手，新的情况发生，外资加仓中国资产

中美谈妥，贝森特握紧中方的手，新的情况发生，外资加仓中国资产

知法而形

2026-05-13 18:59:19

“摸奶子”惹争议！OPPO的流量反噬来了？莫奈：我背锅？！

“摸奶子”惹争议！OPPO的流量反噬来了？莫奈：我背锅？！

品牌新

2026-05-13 17:03:19

CNN报道：向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

CNN报道：向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

戗词夺理

2026-05-13 18:07:23

中方对无核武国家鼓吹拥核言论表示关切

中方对无核武国家鼓吹拥核言论表示关切

环球网资讯

2026-05-13 07:54:25

国际足联高层来了！与宋凯见面施压央视：54亿打包两届世界杯

国际足联高层来了！与宋凯见面施压央视：54亿打包两届世界杯

念洲

2026-05-13 13:25:09

浙江瑞安某中学5名学生怀孕？当地警方：相关人员散布谣言已被拘留

浙江瑞安某中学5名学生怀孕？当地警方：相关人员散布谣言已被拘留

台州交通广播

2026-05-13 20:18:02

菲律宾一夜变天！伊梅临阵反水，13票把亲弟盟友踢出参议院

菲律宾一夜变天！伊梅临阵反水，13票把亲弟盟友踢出参议院

你的雷达站

2026-05-13 14:36:47

“杀他全家也不解恨”，讨薪1560元20次遭拒，农民工怒杀老板全家

“杀他全家也不解恨”，讨薪1560元20次遭拒，农民工怒杀老板全家

易玄

2026-05-12 18:58:46

炸锅！皇马传奇公开抵制穆里尼奥，老佛爷发布会当场发飙

炸锅！皇马传奇公开抵制穆里尼奥，老佛爷发布会当场发飙

澜归序

2026-05-13 04:10:08

关窗！关窗！关窗！

江苏警方

2026-05-13 19:51:17

AI产业主平台领航智能+时代

15202文章数 66866关注度

往期回顾全部

科技要闻

阿里年营收首破万亿，AI终于不再是画大饼

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割法院判了

体育要闻

14年半，74万，何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉，网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑吉利银河"TT"申报图来了

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

亲子

旅游

家居

公开课

干细胞能让人“返老还童”吗

亲子要闻

孩子常腹痛爸爸带其就医，检查结果令人揪心，背后真相值得警惕

旅游要闻

四大入口协同发力让外国游客“丝滑”逛北京

家居要闻

内在自叙，无域有方

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版