数学成了AI的成人礼：两年从算术到奥赛|数学家|人工智能

数学成了AI的成人礼：两年从算术到奥赛

2026-04-29 23:28:25　来源: 全栈遛狗员

北京举报

分享至

两年前还在画坐标轴，现在能帮菲尔兹奖得主改论文。OpenAI研究员Sebastian Bubeck和Ernest Ryu在播客里聊了聊，为什么数学突然成了通往通用人工智能的必经之路。

从"画条线"到"解难题"：两年跃迁

推理模型这东西，两年前根本不存在。Bubeck回忆，四年前Google的Minerva模型能在坐标系里画条穿过点的直线，他就觉得挺厉害了。

现在呢？这些系统已经在帮菲尔兹奖得主处理日常研究。18个月前的某次会议上，房间里80%的数学家还认定：把大语言模型做大也解不了真正的研究难题。

打脸来得很快。

Ryu的经历更具体。这位前UCLA数学教授，用ChatGPT花三个晚上、总共12小时，解决了一个悬了42年的开放问题——关于优化理论中Nesterov方法的。之前他自己吭哧吭哧干了40多小时，毫无进展。

他的角色是"验证者"：抓错误，把对话引向有戏的方向。

为什么偏偏是数学？

Bubeck说这不是偶然。数学证明需要长时间、连贯的推理，几小时、几天甚至几年。链条上任何一个地方出错，整个论证就塌了，其他部分再对也没用。

能搞定这个的系统，必须能发现并修正自己的错误。

这正是研究者想从数学训练迁移到其他领域的东西——生物学、材料科学，诸如此类。Bubeck打了个比方：学生学数学不是为了一辈子写证明，是因为这门课逼着你逻辑思考。

数学当基准还有实操优势：问题表述清楚，答案可验证，没人争论对错。

"通用人工智能时间"：从分钟到周

Bubeck提了个概念叫"AGI时间"。两年前，模型能模拟学生几分钟的思考。现在，能撑几天甚至一周。下一个目标是几周、几个月。

OpenAI的训练方法不针对数学，是通用的。所以其他科学的进展应该也会跟上。他们正在造一个"自动化研究者"，能自己长时间啃问题。

那场推特风波：十个难题的真相

Bubeck和Ryu还聊了聊Erdős问题——匈牙利数学家Paul Erdős留下的开放问题集。

内部模型最初找到了十个标为"未解决"的问题的解法，主要靠深度文献检索。Bubeck发了条推特，措辞有点模糊，结果和Google CEO Demis Hassabis公开吵了起来——很多人解读成OpenAI搞出了新证明。

现在Bubeck说，ChatGPT和内部模型已经产出了超过十个真正的新解法，够格发学术期刊。

从不可能到日常：数学家的态度翻转

18个月前80%的数学家认为不可能的事，现在成了某些人的工作流。Ryu的42年难题、Bubeck说的菲尔兹奖得主日常——这些不是宣传材料，是具体的人在具体时间里发生的事。

变化速度本身可能是更值得注意的事。不是"能不能"，而是"多快"和"多深"。

训练方法通用，意味着数学不是终点是起点。生物学、材料科学的"自动化研究者"已经在路上。Bubeck的学生时代类比在这里变得具体：如果数学是逻辑思维的健身房，现在AI正在从健身房毕业，准备进真实世界的赛场。

那个"AGI时间"的刻度——分钟、天、周、月——暗示了一种衡量标准。不是智商测试那种静态分数，是持续工作的耐力。人类研究者会累、会分心、会忘记自己三天前的思路。机器不会，至少理论上。

Ryu的12小时vs 40小时，比例 roughly 1:3。但这12小时是"三个晚上"，意味着他可以睡觉、吃饭、干别的，让模型自己跑。时间压缩的不是思考速度，是人类注意力的稀缺性。

验证者角色也值得关注。Ryu没让AI全自动，他卡在中间过滤。这像是一种新的人机分工：机器生成，人类把关。问题是这种分工能维持多久，以及什么情况下人类把关会变得多余或不可能。

Erdős问题的争议是个小插曲，但暴露了沟通难题。Bubeck的"误导性推特"——他自己承认的——在科研传播和公众理解之间制造了噪音。十个解法里多少是文献检索、多少是真正的新证明，这个区分对专业人士很重要，对围观群众很无聊。但正是这个区分，决定了这是"AI辅助研究"还是"AI独立发现"。

现在他说超过十个够格发表的新解法。从"找到十个"到"产出超过十个"，动词变了：找到 vs 产出。前者暗示发现已有之物，后者暗示创造未有之物。这个措辞变化本身可能就是信号。

数学的特殊性在于它的验证机制。证明写出来了，对就是对，错就是错，没有"差不多"。这让数学成为理想的试验场——结果可判定，进度可衡量。其他领域很少有这么干净的反馈回路。

但这也意味着，当AI开始攻克数学，它攻克的可能是人类认知中最"非人类"的部分。数学不需要身体经验，不需要情感直觉，只需要符号操作和逻辑一致性。如果这是AGI的路，那这条路可能有意绕开了人类认知的某些核心特征。

Bubeck说训练方法通用，所以其他科学会跟上。但这个推论有个跳跃：数学问题的结构化和可验证性，在生物学、材料科学里存在吗？蛋白质折叠有AlphaFold，但那是特定问题。通用化的"自动化研究者"面对模糊定义、数据噪声、因果纠缠的真实世界问题，还能保持同样的进步曲线吗？

播客没给答案，只给了方向。方向本身值得记录：从分钟到天到周，从算术到奥赛到研究前沿，从80%认为不可能到菲尔兹奖得主的日常工具。两年时间，这个压缩比放在任何技术史上都算得上剧烈。

Ryu的42年难题是个 nice story，但可能也是 cherry-picked。一个样本不能说明成功率。播客没提的是：有多少42年难题AI试过但没解出来？有多少数学家用了ChatGPT发现它其实在胡说？这些沉默的数据同样重要，但不在讲述的框架里。

不过Bubeck的诚实值得一提——他承认推特误导，承认最初的十个解法主要是文献检索。这种自我纠正比一味夸耀更有信息量。它暗示了OpenAI内部对"什么算真正的进展"有分歧，或者至少有精细的区分标准。

"AGI时间"的提法把抽象目标具体化了。不是问"什么时候有AGI"，而是问"模型能持续思考多久"。这个指标可测量、可比较、可追逐。它把"通用人工智能"从一个哲学概念变成了一个工程进度表。

进度表的下一步是"周和月"。到那时，一个研究问题可能需要人类介入的点会大幅减少。Ryu式的"验证者"角色可能会自动化，或者至少被辅助到接近自动。问题是：当验证本身变得比生成更难，人类还站在什么位置？

播客的氛围是技术性的、乐观的，但不是没有边界感。Bubeck和Ryu都在数学圈里混过，知道什么算真正的突破，什么算漂亮的演示。他们的判断标准内嵌在叙述里：够格发表、菲尔兹奖得主在用、42年难题——这些都是同行评议世界里的硬通货。

这种背景很重要。如果同样的话由产品经理或公关人员说出，权重会不同。数学家身份给了一个内置的 credibility filter，也让某些省略更显眼——比如没提具体是哪些菲尔兹奖得主、在做什么样的"日常研究"。

两年跃迁的叙事背后，是基础设施的隐形积累。推理模型"不存在"到"存在"，中间是大量的工程投入、数据整理、训练优化。播客把这些背景静音了，聚焦在能力跃迁本身。这是合理的叙事选择，但读者应该意识到：曲线陡峭不等于起点轻松。

Erdős问题的具体数字也在变化：最初十个（文献检索为主），现在超过十个（真正的新解法）。这个"超过"是多少？十一个还是二十个？播客没给。但"够格发表"的标准意味着它们已经过了某种内部质量门槛，正在进入外部验证流程。

数学期刊的审稿周期以月计。如果这些解法真的在投稿中，我们可能在2025年底或2026年初看到第一波AI辅助或AI生成的正式数学论文。那将是比播客更有分量的证据。

回到那个80%的统计。18个月前，一个会议室里的数学家多数不信。现在，不信的比例可能反过来，或者至少大幅缩减。这种态度转变的速度，在保守的数学共同体里尤其值得关注。数学家以挑剔著称，他们的采用是比任何基准测试都强的信号。

但采用不等于依赖。Ryu的模式——12小时AI辅助，40小时前功尽弃——暗示了一种不对称：AI可能大幅缩短某些路径，但也可能把研究者引向死胡同。验证者的角色因此不是可选的，是结构性的。

这个结构会持续多久？Bubeck说的"自动化研究者"暗示了终极形态：不需要人类验证者，机器自己跑完从问题到证明的全过程。那个愿景和当前的"验证者"模式之间的差距，就是未来几年的工作空间。

播客没谈的是社会维度。如果数学研究加速，数学家的训练体系怎么调整？研究生还要花十年学基本功吗，还是直接上手AI工具？职称评审怎么认定"原创性"？这些不是技术问题，但会决定技术怎么落地。

同样没谈的是失败案例。Ryu的成功故事很亮，但亮故事的选择性本身是一种修辞。我们听不到的是：谁用ChatGPT试了三个月一无所获？谁发现AI的"解法"其实有隐蔽的错误，审稿人没看出来？这些沉默构成了叙事的暗面。

但即便如此，两年从坐标轴到菲尔兹奖助手的跃迁是实证的。它不是预测，是已经发生的能力位移。Bubeck和Ryu的任务是解释"为什么数学"，他们的答案是：因为数学最苛刻，最不可妥协，最像"通用智能"需要面对的终极测试。

这个答案有自洽性，也有局限性。它假设"通用"意味着"能处理最严格的逻辑结构"，但人类智能的通用性恰恰体现在能适应不严格、模糊、矛盾的环境。数学是理想的试验场，可能正是因为它抽离了这些复杂性。

所以"数学是通往AGI的路"这个命题，可以读作两种意思：一、攻克数学就能攻克一切；二、数学是AGI能力的一个充分测试，但未必是必要测试。播客的叙述倾向于第一种，但逻辑上第二种更稳妥。

无论如何，进度表已经摊开：分钟、天、周、月。下一个刻度到来时，今天的"验证者"模式可能会显得过时。Ryu的12小时经验会被引用为"早期采用者"的典型，而不是新常态。那个转折点什么时候来，播客没说，但"AGI时间"的提法暗示了它在被追逐中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

数学成了AI的成人礼：两年从算术到奥赛

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

55岁资本大佬被羁押在深圳某看守所 被指涉在美强奸案

55岁资本大佬被羁押在深圳某看守所 被指涉在美强奸案

一场九球狂欢，各路神仙批量下凡

马頔一句话，孙杨妈妈怒骂节目组2小时

苏州，率先进入牛市

技术天花板再摸高 全能型的奕境X9首秀

态度原创

80亿投资！浙商总部基地+海口北站，金沙湾这是要起飞啊！

干细胞治烧烫伤能用了么？

太骄傲了 为他们点赞!包头2名学生画作飞上太空亮相第五届"天宫画展

五一FUN心冲！AI 选的绝美拍照打卡点，包出片的

美国参议院否决限制特朗普对古巴动武的决议

55岁资本大佬被羁押在深圳某看守所被指涉在美强奸案

55岁资本大佬被羁押在深圳某看守所被指涉在美强奸案

技术天花板再摸高全能型的奕境X9首秀

太骄傲了为他们点赞!包头2名学生画作飞上太空亮相第五届"天宫画展