两年前还在画坐标轴,现在能帮菲尔兹奖得主改论文。OpenAI研究员Sebastian Bubeck和Ernest Ryu在播客里聊了聊,为什么数学突然成了通往通用人工智能的必经之路。
从"画条线"到"解难题":两年跃迁
![]()
推理模型这东西,两年前根本不存在。Bubeck回忆,四年前Google的Minerva模型能在坐标系里画条穿过点的直线,他就觉得挺厉害了。
现在呢?这些系统已经在帮菲尔兹奖得主处理日常研究。18个月前的某次会议上,房间里80%的数学家还认定:把大语言模型做大也解不了真正的研究难题。
打脸来得很快。
Ryu的经历更具体。这位前UCLA数学教授,用ChatGPT花三个晚上、总共12小时,解决了一个悬了42年的开放问题——关于优化理论中Nesterov方法的。之前他自己吭哧吭哧干了40多小时,毫无进展。
他的角色是"验证者":抓错误,把对话引向有戏的方向。
为什么偏偏是数学?
Bubeck说这不是偶然。数学证明需要长时间、连贯的推理,几小时、几天甚至几年。链条上任何一个地方出错,整个论证就塌了,其他部分再对也没用。
能搞定这个的系统,必须能发现并修正自己的错误。
这正是研究者想从数学训练迁移到其他领域的东西——生物学、材料科学,诸如此类。Bubeck打了个比方:学生学数学不是为了一辈子写证明,是因为这门课逼着你逻辑思考。
数学当基准还有实操优势:问题表述清楚,答案可验证,没人争论对错。
"通用人工智能时间":从分钟到周
Bubeck提了个概念叫"AGI时间"。两年前,模型能模拟学生几分钟的思考。现在,能撑几天甚至一周。下一个目标是几周、几个月。
OpenAI的训练方法不针对数学,是通用的。所以其他科学的进展应该也会跟上。他们正在造一个"自动化研究者",能自己长时间啃问题。
那场推特风波:十个难题的真相
Bubeck和Ryu还聊了聊Erdős问题——匈牙利数学家Paul Erdős留下的开放问题集。
内部模型最初找到了十个标为"未解决"的问题的解法,主要靠深度文献检索。Bubeck发了条推特,措辞有点模糊,结果和Google CEO Demis Hassabis公开吵了起来——很多人解读成OpenAI搞出了新证明。
现在Bubeck说,ChatGPT和内部模型已经产出了超过十个真正的新解法,够格发学术期刊。
从不可能到日常:数学家的态度翻转
18个月前80%的数学家认为不可能的事,现在成了某些人的工作流。Ryu的42年难题、Bubeck说的菲尔兹奖得主日常——这些不是宣传材料,是具体的人在具体时间里发生的事。
变化速度本身可能是更值得注意的事。不是"能不能",而是"多快"和"多深"。
训练方法通用,意味着数学不是终点是起点。生物学、材料科学的"自动化研究者"已经在路上。Bubeck的学生时代类比在这里变得具体:如果数学是逻辑思维的健身房,现在AI正在从健身房毕业,准备进真实世界的赛场。
那个"AGI时间"的刻度——分钟、天、周、月——暗示了一种衡量标准。不是智商测试那种静态分数,是持续工作的耐力。人类研究者会累、会分心、会忘记自己三天前的思路。机器不会,至少理论上。
Ryu的12小时vs 40小时,比例 roughly 1:3。但这12小时是"三个晚上",意味着他可以睡觉、吃饭、干别的,让模型自己跑。时间压缩的不是思考速度,是人类注意力的稀缺性。
验证者角色也值得关注。Ryu没让AI全自动,他卡在中间过滤。这像是一种新的人机分工:机器生成,人类把关。问题是这种分工能维持多久,以及什么情况下人类把关会变得多余或不可能。
Erdős问题的争议是个小插曲,但暴露了沟通难题。Bubeck的"误导性推特"——他自己承认的——在科研传播和公众理解之间制造了噪音。十个解法里多少是文献检索、多少是真正的新证明,这个区分对专业人士很重要,对围观群众很无聊。但正是这个区分,决定了这是"AI辅助研究"还是"AI独立发现"。
现在他说超过十个够格发表的新解法。从"找到十个"到"产出超过十个",动词变了:找到 vs 产出。前者暗示发现已有之物,后者暗示创造未有之物。这个措辞变化本身可能就是信号。
数学的特殊性在于它的验证机制。证明写出来了,对就是对,错就是错,没有"差不多"。这让数学成为理想的试验场——结果可判定,进度可衡量。其他领域很少有这么干净的反馈回路。
但这也意味着,当AI开始攻克数学,它攻克的可能是人类认知中最"非人类"的部分。数学不需要身体经验,不需要情感直觉,只需要符号操作和逻辑一致性。如果这是AGI的路,那这条路可能有意绕开了人类认知的某些核心特征。
Bubeck说训练方法通用,所以其他科学会跟上。但这个推论有个跳跃:数学问题的结构化和可验证性,在生物学、材料科学里存在吗?蛋白质折叠有AlphaFold,但那是特定问题。通用化的"自动化研究者"面对模糊定义、数据噪声、因果纠缠的真实世界问题,还能保持同样的进步曲线吗?
播客没给答案,只给了方向。方向本身值得记录:从分钟到天到周,从算术到奥赛到研究前沿,从80%认为不可能到菲尔兹奖得主的日常工具。两年时间,这个压缩比放在任何技术史上都算得上剧烈。
Ryu的42年难题是个 nice story,但可能也是 cherry-picked。一个样本不能说明成功率。播客没提的是:有多少42年难题AI试过但没解出来?有多少数学家用了ChatGPT发现它其实在胡说?这些沉默的数据同样重要,但不在讲述的框架里。
不过Bubeck的诚实值得一提——他承认推特误导,承认最初的十个解法主要是文献检索。这种自我纠正比一味夸耀更有信息量。它暗示了OpenAI内部对"什么算真正的进展"有分歧,或者至少有精细的区分标准。
"AGI时间"的提法把抽象目标具体化了。不是问"什么时候有AGI",而是问"模型能持续思考多久"。这个指标可测量、可比较、可追逐。它把"通用人工智能"从一个哲学概念变成了一个工程进度表。
进度表的下一步是"周和月"。到那时,一个研究问题可能需要人类介入的点会大幅减少。Ryu式的"验证者"角色可能会自动化,或者至少被辅助到接近自动。问题是:当验证本身变得比生成更难,人类还站在什么位置?
播客的氛围是技术性的、乐观的,但不是没有边界感。Bubeck和Ryu都在数学圈里混过,知道什么算真正的突破,什么算漂亮的演示。他们的判断标准内嵌在叙述里:够格发表、菲尔兹奖得主在用、42年难题——这些都是同行评议世界里的硬通货。
这种背景很重要。如果同样的话由产品经理或公关人员说出,权重会不同。数学家身份给了一个内置的 credibility filter,也让某些省略更显眼——比如没提具体是哪些菲尔兹奖得主、在做什么样的"日常研究"。
两年跃迁的叙事背后,是基础设施的隐形积累。推理模型"不存在"到"存在",中间是大量的工程投入、数据整理、训练优化。播客把这些背景静音了,聚焦在能力跃迁本身。这是合理的叙事选择,但读者应该意识到:曲线陡峭不等于起点轻松。
Erdős问题的具体数字也在变化:最初十个(文献检索为主),现在超过十个(真正的新解法)。这个"超过"是多少?十一个还是二十个?播客没给。但"够格发表"的标准意味着它们已经过了某种内部质量门槛,正在进入外部验证流程。
数学期刊的审稿周期以月计。如果这些解法真的在投稿中,我们可能在2025年底或2026年初看到第一波AI辅助或AI生成的正式数学论文。那将是比播客更有分量的证据。
回到那个80%的统计。18个月前,一个会议室里的数学家多数不信。现在,不信的比例可能反过来,或者至少大幅缩减。这种态度转变的速度,在保守的数学共同体里尤其值得关注。数学家以挑剔著称,他们的采用是比任何基准测试都强的信号。
但采用不等于依赖。Ryu的模式——12小时AI辅助,40小时前功尽弃——暗示了一种不对称:AI可能大幅缩短某些路径,但也可能把研究者引向死胡同。验证者的角色因此不是可选的,是结构性的。
这个结构会持续多久?Bubeck说的"自动化研究者"暗示了终极形态:不需要人类验证者,机器自己跑完从问题到证明的全过程。那个愿景和当前的"验证者"模式之间的差距,就是未来几年的工作空间。
播客没谈的是社会维度。如果数学研究加速,数学家的训练体系怎么调整?研究生还要花十年学基本功吗,还是直接上手AI工具?职称评审怎么认定"原创性"?这些不是技术问题,但会决定技术怎么落地。
同样没谈的是失败案例。Ryu的成功故事很亮,但亮故事的选择性本身是一种修辞。我们听不到的是:谁用ChatGPT试了三个月一无所获?谁发现AI的"解法"其实有隐蔽的错误,审稿人没看出来?这些沉默构成了叙事的暗面。
但即便如此,两年从坐标轴到菲尔兹奖助手的跃迁是实证的。它不是预测,是已经发生的能力位移。Bubeck和Ryu的任务是解释"为什么数学",他们的答案是:因为数学最苛刻,最不可妥协,最像"通用智能"需要面对的终极测试。
这个答案有自洽性,也有局限性。它假设"通用"意味着"能处理最严格的逻辑结构",但人类智能的通用性恰恰体现在能适应不严格、模糊、矛盾的环境。数学是理想的试验场,可能正是因为它抽离了这些复杂性。
所以"数学是通往AGI的路"这个命题,可以读作两种意思:一、攻克数学就能攻克一切;二、数学是AGI能力的一个充分测试,但未必是必要测试。播客的叙述倾向于第一种,但逻辑上第二种更稳妥。
无论如何,进度表已经摊开:分钟、天、周、月。下一个刻度到来时,今天的"验证者"模式可能会显得过时。Ryu的12小时经验会被引用为"早期采用者"的典型,而不是新常态。那个转折点什么时候来,播客没说,但"AGI时间"的提法暗示了它在被追逐中。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.