全文 4,000字 | 阅读约 20 分钟
(Eric Schmidt:我们正处于AI推理革命前夜)
7 月 19 日,一场静悄悄的“AI 智商测试”引爆行业热议:
OpenAI 宣布,其“实验性推理 LLM” 在 2025 国际数学奥林匹克(IMO)真题测试中获得金牌水平成绩。尽管官方尚未复核,但这条消息已在硅谷和学术界激起震荡。
更巧的是,48小时之前,前 Google CEO Eric Schmidt 在《Moonshots》播客中刚刚作出预测:
明年很可能会出现世界级的 AI 数学家(World-class mathematicians emerge in the next one year)。
他认为,具备顶尖数学能力的 AI,不会等到 2030 年,而是“明年”就将出现。 而 OpenAI 的这次战报,几乎正好印证了他的预测。
但更值得关注的,不是一家公司的胜出,而是一个趋势的临界点:
“奥数金牌只是开始,AI 的推理能力,正在提前爆发。”
推理,一直是 AI 发展的核心挑战之一。它不再只是智力游戏,而是AI 从"知识存储"跃升到"智能合作"的重要跳板。 如果说语言理解决定了 AI 是否能听懂你说什么, 那推理能力决定的是:它是否能替你解决问题、做出选择,甚至制定目标
接下来,我们要回答四个更实际的问题:
为什么数学只是开始?
谁会被最先替代?
哪些“人类护城河”正在塌陷?
以及——当 AI 学会了思考,我们该学会什么?
“语言模型能拿奥数金牌”,听起来像是炒作,但在 2025 年 7 月 19 日,它真实发生了。
OpenAI 的实验性大模型,在国际数学奥林匹克(IMO)真题测试中,完全按照人类选手的标准参赛:两个 4.5 小时的考试时段,没有工具、没有网络,仅凭对题目的理解——最终拿到了金牌线成绩:5 题满分,总分 35 分(满分 42 分)。
更令人震撼的是,它不是猜对了答案,而是用自然语言写出了完整、严谨、可验证的数学证明。这些证明随后由三位前 IMO 奖牌得主严格评分,并已在GitHub 上公开,供全球数学家审阅。
7月17日,就在这项成绩公布两天前,前Google CEO Eric Schmidt 在播客中表示:“数学方面的突破必然会发生。”
他说的不是简单的解题能力,而是 AI 真正“学会推理”的能力。
在他看来,这背后不只是一次模型升级,而是一个质变节点的出现:
我们现在能在模型中看到推理的证据了。
推理,意味着 AI 不再只是从网上搬运已有答案,而是能够理解问题、规划步骤、推导过程、得出结论。
这不同于记住什么,而更接近想明白为什么。 Schmidt 特别强调:“不是普通对答,是做出判断、列出步骤、最终拿到正确答案。”
简单说——
语言理解决定 AI 是否“听得懂你说什么”, 推理能力决定它能不能“替你完成任务”。
这也解释了为什么这一次奥数金牌会被业内很多专家视为信号而非噱头。菲尔兹奖得主陶哲轩也持类似观点,认为"AI奥数金牌"是一个值得关注的里程碑,但并非AI发展的终点。
推理,需要 AI 具备三件事:
理解题意:不仅识别关键词,更要弄懂背后的逻辑结构;
规划路径:分清楚先做哪一步、用什么公式;
逻辑连贯:每一步之间自洽,最终推导出可验证的结果。
Schmidt 说:“现在我们已经能训练出具备规划能力的模型,尽管它们的计算代价非常高。”
这个“高”,不是说花钱多,而是推理型任务相比问答类任务,要耗费成百上千倍的计算资源。
但正因如此,推理能力反而变成了一个极具代表性的拐点。
它是模型是否具备“智能结构”的直接体现;
它是科学、金融、工程等高精决策领域能否真正用上 AI 的关键基础;
它标志着模型从“辅助知识工”向“替代逻辑工作者”跨出第一步。
Schmidt 总结说:这不是 AI 更强了一点,而是进入了新的工作方式。
你不再告诉它怎么做,而是让它自己思考、组织、解决。
从能对话,到能做题,再到能证明—— AI 正在从“背书”变成“解题”, 也正在从“内容工具”变成“思维代理”。
这不是爆点,而是起点。 不是答案的尽头,而是问题的开始。
第二节|AI 科学家不是幻想:数学、编程将率先被重塑
Eric Schmidt 在访谈中说了这样一句话:在接下来的一到三年里,我们会看到世界级的 AI 程序员和 AI 数学家出现。
这不是一个远景蓝图,而是一个具体时间表。为什么他敢说这么快?
因为在他看来,数学和编程,是 AI 最容易接手的两类任务。原因非常清楚:
语言封闭、规则稳定:
数学和编程不像自然语言有太多歧义,它们的表达方式是精确的,语法是固定的。 换句话说,AI 不用揣摩上下文情绪,也不用判断主语是谁,它只需要逻辑正确。
数据来源纯净,不依赖感知:
写代码和解数学题,不需要摄像头、不需要麦克风、不需要现实世界的反馈,只需要一堆规则和目标。 对 AI 来说,这是最“理想”的学习环境。
结果容易验证:
一段代码有没有错,一个公式算得对不对,立刻能测出来,不需要人类解释。 这就构成了一个快速迭代的回路:AI 写 → 立刻验证 → 不断改 → 很快进步。
Schmidt 还提到,今天最强的推理模型,比如 OpenAI 的 O3,已经可以执行前向和后向规划任务。
这些任务的计算成本,比传统对话高出好几个数量级。 但正因为如此,AI 在这些领域的突破,才最具含金量。
如果你结合推理能力和非常深的记忆能力, 你就可以构建出人类水平的智能。
他给出了一种发展路径:
从解题 → 到写代码 → 到自主规划科研过程;
最终,AI 会成为“非人类科学家”“AI 程序员”,并开始代替人类完成复杂逻辑工作。
这并非空想。在访谈中,Schmidt 直接指出:
“程序员不会立刻消失,但初级程序员很快就会被替代。”
就像早期工厂里的熟练技工,擅长重复性操作,但当自动化机械手臂出现后,他们很难维持优势。
AI 会从哪里开始取代?
从写 API 调用开始,把一段功能翻译成调用逻辑;
再到生成测试代码,甚至自动修复 Bug;
接着会出现在科研辅助中,替你写论文摘要、模拟实验路径、建议材料组合。
你不需要懂代码,也能调动 AI 完成一个功能;你只需要说清楚想做什么,它就会帮你搭出解决方案。
这不是空想,而是现实正在出现的新工作模式。
数学和编程,不再是只有人能理解的语言,它们正在变成 AI 最熟练的强项。
而一旦这条路线通了,其他学科也将被连带重塑。 物理、化学、生物、材料科学,这些高度依赖公式、结构、逻辑组合的知识系统,都将进入 AI 可协作区间。
这也正是 Schmidt 在访谈中强调的:
数学和编程,是一切科学的加速器。
AI 学会它们,不是结束,而是让整个科学世界重新洗牌的开始。
第三节|真正的护城河,是“能持续学习的飞轮”
如果说前两节谈的是 AI 推理能力的现在进行时, 那 Schmidt 在对谈中更在意的,是一个决定性问题:
“谁能把 AI 做成越用越聪明的机器?”
他这样说:
“最重要的问题是,AI 是否具备持续学习的能力。哪家公司能率先打造出这种反馈机制,就会赢得未来。”
今天的大模型,虽然能力强,但很多还停留在“你问我答”的阶段:你问它,它答你。用完就结束。
但真正强的智能,不是偶尔机灵,而是越用越聪明。
这就像是,你跟一个实习生工作了一整年,他还是只会第一天的那几招——那怎么能叫智能?
Schmidt 认为,AI 的护城河,未来不是参数多少、算力多强,而是:
谁能把数据 → 调用 → 反馈 → 优化变成一个可持续的飞轮。
他说:“这并不只是技术问题,而是产品架构问题。”
要实现这个飞轮,有三个关键点:
1、用户行为要能被反馈
如果一个用户在用 AI 工具处理文档、写代码、分析数据——那这些“过程”是否被记录?能否变成模型的再训练数据?
Schmidt 指出,像 OpenAI、Anthropic、Google DeepMind 这样的平台型公司, 正在构建的是一整套“学习链路”:
用户给出任务 →
AI 生成方案 →
用户修改、接受或否定 →
反馈被模型吸收,重新训练
这就意味着,AI 不是被动回答,而是主动记住怎么做得更好。
2、不同工具要能互通
Schmidt 强调,“未来的 AI,不是一个回答问题的助手,而是一个能调动工具完成目标的行动者。”
但要实现这一点,需要打通工具之间联系:
文件助手要知道日历;
数据分析能唤起图表工具;
AI 写完代码,还能调试并部署。
这听上去像是自动化,但 Schmidt 的回答更进一步:
“我们不是在做一个更聪明的机器人,而是在建立一个自动学习的数字员工。”
3、模型更新要变得高频
最后一个关键,是更新机制。
现在很多模型是半年或一年一次升级,而“飞轮型 AI”要求的是:
每一次用户使用都可以让模型变得更准;
每一组操作路径都能反馈给训练系统;
每一次部署都带来微调,而不是等下一代模型再全盘替换。
Schmidt 提出:最强的智能系统,一定是持续学习的系统。它永远不是一次训练,而是一个不断演化的过程。
这一节的核心,是把“AI 是谁赢谁输”的问题,重新定义成“谁能让 AI 持续进化”。
你训练得再好,不如用户帮你训练; 你产品体验再顺,不如用完就能自我改进。
这不是哪个模型胜出的问题,而是哪个架构率先形成学习闭环的问题。
而这,也预示了接下来产业竞争的真正焦点—— 不是谁有模型,而是谁让模型变得越来越“像人”。
第四节|推理加速赛:轻量模型与本地智能接棒登场
在谈到推理能力的新拐点时,Eric Schmidt 提到了一款来自中国的模型:
DeepSeek 超越了 Gemini...这件事的意义重大。
他强调:在复杂的逻辑推理任务上,DeepSeek 的表现优于 Google Gemini。这并不是简单的性能对比,而是标志着竞争焦点的根本转移——
从过去两年比拼语言是否流畅、能不能理解长文本,转向现在比拼能不能搭建思路、完成证明。
这背后,至少释放出三重趋势信号:
第一,推理能力开始“去中心化”
过去人们认为,只有超大规模模型、海量数据与计算资源,才能撑起世界级推理能力。但 DeepSeek 的表现打破了这一惯性认知。
Eric Schmidt 的判断是:“关键不再是模型有多大,而是推理有多高效。”
这恰好与英伟达 CEO 黄仁勋的公开发言形成呼应。
在 7 月 20 日公开的央视专访中,黄仁勋特别提及 DeepSeek:
“你不得不佩服深度求索(DeepSeek)的惊人创新能力,他们研发的 R1 模型是真正的创新,重新设计了模型运行方式,发挥 H20 架构优势,取得世界级成果。”
作为全球 AI 硬件生态的主导者,黄仁勋如此明确的赞誉,彰显了 DeepSeek 技术创新的行业影响力。
第二,“推理效率”正在取代“模型体量”
据悉,DeepSeek 背后采用的是一种更轻量的推理引擎,不再一味堆叠参数量,而是专注于:
更少的计算步骤;
更高的思维路径压缩率;
更短的求解路径。
这意味着,AI 的未来不是输出得越多越强,而是思考得更快更准。
第三,挑战者模型正借“结构思维”弯道突围
Schmidt 不否认 DeepSeek 可能具有的政治色彩,但在技术层面上,他更愿意将其视为一类新挑战者模型的代表:
这些模型也许不会取代 GPT-5,而是从细分领域、专项能力入手,实现单点突破。
比如:
企业智能决策;
数理建模;
高密度信息聚合;
本地化金融分析。
正如他所说:未来两三年,将涌现出一批专注推理效率、本地适配的新模型阵营。
最后,Schmidt 总结:
这是一场推理竞赛。
在这场比赛中,谁拥有更优的推理逻辑、运行效率,谁就有机会从边缘选手跃升为主角。
第五节|AI 十年后:每人都带一个“数字爱因斯坦”?
十年内,每个人口袋里都会装一个『达芬奇 × 爱因斯坦』的数字智能体——Eric Schmidt
在访谈最后阶段,Schmidt 给出了一个很多人觉得极其大胆的预测: 未来十年,我们每个人都将拥有一个随身携带的“超级思考者”,既能画出复杂设计图,又能完成高阶数学推理,还能与你协商目标、提出建议,甚至代表你执行任务。
这不是凭空想象,而是 Schmidt 眼中正在快速成形的 AI 进化方向。他称其为:
“真正的超级智能即将到来——而且比人们想象的更近。”
他提出识别“超级智能正在逼近”的五个前兆,每一个都已在最新模型中出现苗头:
1️⃣ 自主设定目标(Self-directed goals)
今天的大多数模型只能回应你的指令,但 Schmidt 认为,一旦 AI 能为自己设定目标,它就不仅是助手,而是伙伴。
比如:你只说“帮我完成季度预算”,未来的 AI 不是等你输入一堆表格,而是主动提问、调数据、分析可能的财务风险,像顾问一样推进整件事。
2️⃣ 行为向外渗透(Agent-like actions)
AI 正从“说”变成“做”:调日程、发邮件、改合同、写代码……未来的 AI 会直接操作你的电脑、APP 和数字账户,成为你的“任务执行人”。
这正印证了 Schmidt 的预测:
“你将迎来一场智能体革命,Agent将连接起来解决业务流程。”
这类外渗行为,正是 Agent 模式爆发的关键信号。
3️⃣ 获取外部资源(Access and control of tools)
Schmidt 指出,AI 会越来越像一个“协调者”,它会调用第三方工具和服务完成任务,不再局限于对话框内。
比如说,它可能自动查找最便宜的供应商、调用 API 完成一段代码部署,或与其他 AI 协商解决方案。
4️⃣ 自主规划能力(Scaffolding capabilities)
这里的"自主规划",是指 AI 会主动构建完成任务所需的结构框架与行动步骤。
举例来说,你说“我要办一场线上发布会”,它不仅帮你写文案,还能:
规划流程 →
确定分工 →
生成 Notion 页面 →
连接邮件工具通知团队
这就是真正会干活的 AI。
5️⃣ 学会自我进化(Recursive improvement)
最后一步,也是最让人激动又警惕的:AI 不再依赖人类更新模型,而是可以自己发现问题、调整策略、优化行为方式。
Schmidt 提到,这可能依赖强化学习(RL)、行为评分、持续反馈等机制。
这些前兆,不是想象,而是事实。
OpenAI 的奥数模型,已经初步展现出“结构推理”与“自然语言证明”能力;
Anthropic 的 Claude 已经正式推出 Tool Use 功能,支持复杂的多步工具调用和 function calling;
Google DeepMind 则推出了 Project Mariner 等AI代理,能够直接控制浏览器进行网页操作,以及 AlphaEvolve算法发现代理。
Schmidt 最后的回答,是对所有人提出告诫:
“我们正在建造的,不是一个更智能的“工具”,而是真正能思考、能决策、能成长的数字大脑。”
而一旦这个“口袋里的爱因斯坦”普及,你会发现:
“AI 已不是你的助手,而是你的合作者。”
真正决定你价值的,不再是你拥有多少知识,而是你能和AI合作得多好。
结语|AI 会思考之后,你的价值如何定义?
Eric Schmidt 没在谈太多的未来,而是在点明现实:
这不是一场还在酝酿的技术革命, 它已经开始。
推理、判断、目标设定——AI 不再只是工具,而是在成为“智能本身”。
OpenAI 的奥数金牌,只是开始。
真正的问题是: 当 AI 推理能力越来越强,我们还该学会什么?
不是卷技能,也不是拼速度。
而是重新寻找人类独有的价值锚点——
那些无法量化,却能让世界变得更有方向的能力。
谁能在人机协同中定义目标、组织意义、连接他人,
谁才不会被下一个爆点抛下。
本文由AI深度研究院出品,内容翻译自Eric Schmidt在《Moonshots》节目的访谈。未经授权,不得转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
参考资料:
https://www.youtube.com/watch?v=qaPHK1fJL5s&t=1119s&ab_channel=PeterH.Diamandis
https://podscripts.co/podcasts/moonshots-with-peter-diamandis/ex-google-ceo-what-artificial-superintelligence-will-actually-look-like-w-eric-schmidt-dave-blundin-ep-183
https://www.businessinsider.com/openai-gold-iom-math-competition-2025-7
https://the-decoder.com/openai-claims-a-breakthrough-in-llm-reasoning-on-complex-math-problems
https://the-decoder.com/openai-claims-a-breakthrough-in-llm-reasoning-on-complex-math-problems
来源:官方媒体/网络新闻
排版:Atlas
编辑:深思
主编: 图灵
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.