网易首页 > 网易号 > 正文 申请入驻

数学成了AI的成人礼:两年从算术到奥赛

0
分享至

两年前还在画坐标轴,现在能帮菲尔兹奖得主改论文。OpenAI研究员Sebastian Bubeck和Ernest Ryu在播客里聊了聊,为什么数学突然成了通往通用人工智能的必经之路。

从"画条线"到"解难题":两年跃迁


推理模型这东西,两年前根本不存在。Bubeck回忆,四年前Google的Minerva模型能在坐标系里画条穿过点的直线,他就觉得挺厉害了。

现在呢?这些系统已经在帮菲尔兹奖得主处理日常研究。18个月前的某次会议上,房间里80%的数学家还认定:把大语言模型做大也解不了真正的研究难题。

打脸来得很快。

Ryu的经历更具体。这位前UCLA数学教授,用ChatGPT花三个晚上、总共12小时,解决了一个悬了42年的开放问题——关于优化理论中Nesterov方法的。之前他自己吭哧吭哧干了40多小时,毫无进展。

他的角色是"验证者":抓错误,把对话引向有戏的方向。

为什么偏偏是数学?

Bubeck说这不是偶然。数学证明需要长时间、连贯的推理,几小时、几天甚至几年。链条上任何一个地方出错,整个论证就塌了,其他部分再对也没用。

能搞定这个的系统,必须能发现并修正自己的错误。

这正是研究者想从数学训练迁移到其他领域的东西——生物学、材料科学,诸如此类。Bubeck打了个比方:学生学数学不是为了一辈子写证明,是因为这门课逼着你逻辑思考。

数学当基准还有实操优势:问题表述清楚,答案可验证,没人争论对错。

"通用人工智能时间":从分钟到周

Bubeck提了个概念叫"AGI时间"。两年前,模型能模拟学生几分钟的思考。现在,能撑几天甚至一周。下一个目标是几周、几个月。

OpenAI的训练方法不针对数学,是通用的。所以其他科学的进展应该也会跟上。他们正在造一个"自动化研究者",能自己长时间啃问题。

那场推特风波:十个难题的真相

Bubeck和Ryu还聊了聊Erdős问题——匈牙利数学家Paul Erdős留下的开放问题集。

内部模型最初找到了十个标为"未解决"的问题的解法,主要靠深度文献检索。Bubeck发了条推特,措辞有点模糊,结果和Google CEO Demis Hassabis公开吵了起来——很多人解读成OpenAI搞出了新证明。

现在Bubeck说,ChatGPT和内部模型已经产出了超过十个真正的新解法,够格发学术期刊。

从不可能到日常:数学家的态度翻转

18个月前80%的数学家认为不可能的事,现在成了某些人的工作流。Ryu的42年难题、Bubeck说的菲尔兹奖得主日常——这些不是宣传材料,是具体的人在具体时间里发生的事。

变化速度本身可能是更值得注意的事。不是"能不能",而是"多快"和"多深"。

训练方法通用,意味着数学不是终点是起点。生物学、材料科学的"自动化研究者"已经在路上。Bubeck的学生时代类比在这里变得具体:如果数学是逻辑思维的健身房,现在AI正在从健身房毕业,准备进真实世界的赛场。

那个"AGI时间"的刻度——分钟、天、周、月——暗示了一种衡量标准。不是智商测试那种静态分数,是持续工作的耐力。人类研究者会累、会分心、会忘记自己三天前的思路。机器不会,至少理论上。

Ryu的12小时vs 40小时,比例 roughly 1:3。但这12小时是"三个晚上",意味着他可以睡觉、吃饭、干别的,让模型自己跑。时间压缩的不是思考速度,是人类注意力的稀缺性。

验证者角色也值得关注。Ryu没让AI全自动,他卡在中间过滤。这像是一种新的人机分工:机器生成,人类把关。问题是这种分工能维持多久,以及什么情况下人类把关会变得多余或不可能。

Erdős问题的争议是个小插曲,但暴露了沟通难题。Bubeck的"误导性推特"——他自己承认的——在科研传播和公众理解之间制造了噪音。十个解法里多少是文献检索、多少是真正的新证明,这个区分对专业人士很重要,对围观群众很无聊。但正是这个区分,决定了这是"AI辅助研究"还是"AI独立发现"。

现在他说超过十个够格发表的新解法。从"找到十个"到"产出超过十个",动词变了:找到 vs 产出。前者暗示发现已有之物,后者暗示创造未有之物。这个措辞变化本身可能就是信号。

数学的特殊性在于它的验证机制。证明写出来了,对就是对,错就是错,没有"差不多"。这让数学成为理想的试验场——结果可判定,进度可衡量。其他领域很少有这么干净的反馈回路。

但这也意味着,当AI开始攻克数学,它攻克的可能是人类认知中最"非人类"的部分。数学不需要身体经验,不需要情感直觉,只需要符号操作和逻辑一致性。如果这是AGI的路,那这条路可能有意绕开了人类认知的某些核心特征。

Bubeck说训练方法通用,所以其他科学会跟上。但这个推论有个跳跃:数学问题的结构化和可验证性,在生物学、材料科学里存在吗?蛋白质折叠有AlphaFold,但那是特定问题。通用化的"自动化研究者"面对模糊定义、数据噪声、因果纠缠的真实世界问题,还能保持同样的进步曲线吗?

播客没给答案,只给了方向。方向本身值得记录:从分钟到天到周,从算术到奥赛到研究前沿,从80%认为不可能到菲尔兹奖得主的日常工具。两年时间,这个压缩比放在任何技术史上都算得上剧烈。

Ryu的42年难题是个 nice story,但可能也是 cherry-picked。一个样本不能说明成功率。播客没提的是:有多少42年难题AI试过但没解出来?有多少数学家用了ChatGPT发现它其实在胡说?这些沉默的数据同样重要,但不在讲述的框架里。

不过Bubeck的诚实值得一提——他承认推特误导,承认最初的十个解法主要是文献检索。这种自我纠正比一味夸耀更有信息量。它暗示了OpenAI内部对"什么算真正的进展"有分歧,或者至少有精细的区分标准。

"AGI时间"的提法把抽象目标具体化了。不是问"什么时候有AGI",而是问"模型能持续思考多久"。这个指标可测量、可比较、可追逐。它把"通用人工智能"从一个哲学概念变成了一个工程进度表。

进度表的下一步是"周和月"。到那时,一个研究问题可能需要人类介入的点会大幅减少。Ryu式的"验证者"角色可能会自动化,或者至少被辅助到接近自动。问题是:当验证本身变得比生成更难,人类还站在什么位置?

播客的氛围是技术性的、乐观的,但不是没有边界感。Bubeck和Ryu都在数学圈里混过,知道什么算真正的突破,什么算漂亮的演示。他们的判断标准内嵌在叙述里:够格发表、菲尔兹奖得主在用、42年难题——这些都是同行评议世界里的硬通货。

这种背景很重要。如果同样的话由产品经理或公关人员说出,权重会不同。数学家身份给了一个内置的 credibility filter,也让某些省略更显眼——比如没提具体是哪些菲尔兹奖得主、在做什么样的"日常研究"。

两年跃迁的叙事背后,是基础设施的隐形积累。推理模型"不存在"到"存在",中间是大量的工程投入、数据整理、训练优化。播客把这些背景静音了,聚焦在能力跃迁本身。这是合理的叙事选择,但读者应该意识到:曲线陡峭不等于起点轻松。

Erdős问题的具体数字也在变化:最初十个(文献检索为主),现在超过十个(真正的新解法)。这个"超过"是多少?十一个还是二十个?播客没给。但"够格发表"的标准意味着它们已经过了某种内部质量门槛,正在进入外部验证流程。

数学期刊的审稿周期以月计。如果这些解法真的在投稿中,我们可能在2025年底或2026年初看到第一波AI辅助或AI生成的正式数学论文。那将是比播客更有分量的证据。

回到那个80%的统计。18个月前,一个会议室里的数学家多数不信。现在,不信的比例可能反过来,或者至少大幅缩减。这种态度转变的速度,在保守的数学共同体里尤其值得关注。数学家以挑剔著称,他们的采用是比任何基准测试都强的信号。

但采用不等于依赖。Ryu的模式——12小时AI辅助,40小时前功尽弃——暗示了一种不对称:AI可能大幅缩短某些路径,但也可能把研究者引向死胡同。验证者的角色因此不是可选的,是结构性的。

这个结构会持续多久?Bubeck说的"自动化研究者"暗示了终极形态:不需要人类验证者,机器自己跑完从问题到证明的全过程。那个愿景和当前的"验证者"模式之间的差距,就是未来几年的工作空间。

播客没谈的是社会维度。如果数学研究加速,数学家的训练体系怎么调整?研究生还要花十年学基本功吗,还是直接上手AI工具?职称评审怎么认定"原创性"?这些不是技术问题,但会决定技术怎么落地。

同样没谈的是失败案例。Ryu的成功故事很亮,但亮故事的选择性本身是一种修辞。我们听不到的是:谁用ChatGPT试了三个月一无所获?谁发现AI的"解法"其实有隐蔽的错误,审稿人没看出来?这些沉默构成了叙事的暗面。

但即便如此,两年从坐标轴到菲尔兹奖助手的跃迁是实证的。它不是预测,是已经发生的能力位移。Bubeck和Ryu的任务是解释"为什么数学",他们的答案是:因为数学最苛刻,最不可妥协,最像"通用智能"需要面对的终极测试。

这个答案有自洽性,也有局限性。它假设"通用"意味着"能处理最严格的逻辑结构",但人类智能的通用性恰恰体现在能适应不严格、模糊、矛盾的环境。数学是理想的试验场,可能正是因为它抽离了这些复杂性。

所以"数学是通往AGI的路"这个命题,可以读作两种意思:一、攻克数学就能攻克一切;二、数学是AGI能力的一个充分测试,但未必是必要测试。播客的叙述倾向于第一种,但逻辑上第二种更稳妥。

无论如何,进度表已经摊开:分钟、天、周、月。下一个刻度到来时,今天的"验证者"模式可能会显得过时。Ryu的12小时经验会被引用为"早期采用者"的典型,而不是新常态。那个转折点什么时候来,播客没说,但"AGI时间"的提法暗示了它在被追逐中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方军舰越聚越多,日本闯大祸,高市早苗猛然发现,自己惹错人了

中方军舰越聚越多,日本闯大祸,高市早苗猛然发现,自己惹错人了

爱吃醋的猫咪
2026-04-29 21:18:26
伊朗货币里亚尔汇率跌至历史新低

伊朗货币里亚尔汇率跌至历史新低

新华社
2026-04-29 21:55:03
中科大少年班监控事件!同学爆出更多细节,没弑母已经很不错了!

中科大少年班监控事件!同学爆出更多细节,没弑母已经很不错了!

知晓科普
2026-04-29 07:00:24
大消息!我国在塔里木、鄂尔多斯、渤海湾新发现225个大中型油气田,其中有13个亿吨级油田!矿产资源家底公布:稀土等14种储量世界第一

大消息!我国在塔里木、鄂尔多斯、渤海湾新发现225个大中型油气田,其中有13个亿吨级油田!矿产资源家底公布:稀土等14种储量世界第一

大风新闻
2026-04-29 11:54:07
人民日报:多带孩子去这4个能量强的地方,养出一生向阳的小孩

人民日报:多带孩子去这4个能量强的地方,养出一生向阳的小孩

新东方家庭教育
2026-04-29 15:50:55
内涵十足!山西代理主帅:我们5打8赢球 全世界都在对抗我们

内涵十足!山西代理主帅:我们5打8赢球 全世界都在对抗我们

狼叔评论
2026-04-29 22:53:08
三观不正的人有多恶心,多可怕?网友:关键是小红书还一堆人挺她

三观不正的人有多恶心,多可怕?网友:关键是小红书还一堆人挺她

夜深爱杂谈
2026-04-29 22:01:40
32核处理器跑巫师3仅30帧:俄中芯片合作的尴尬现实

32核处理器跑巫师3仅30帧:俄中芯片合作的尴尬现实

碳基打工人
2026-04-28 02:44:30
伊朗海军司令:将向敌人展示一种“可怕的武器”

伊朗海军司令:将向敌人展示一种“可怕的武器”

环球网资讯
2026-04-30 07:11:35
安徽一女子称在霸王茶姬中喝出水银,官方通报:奶茶中异物系购买人投放,涉案人员已被公安机关控制

安徽一女子称在霸王茶姬中喝出水银,官方通报:奶茶中异物系购买人投放,涉案人员已被公安机关控制

每日经济新闻
2026-04-29 18:46:56
杭州发布户口新政,5月1日起实施

杭州发布户口新政,5月1日起实施

都市快报橙柿互动
2026-04-29 15:45:26
博主称249元毛巾有暴利,胖东来:将公示毛利并起诉该博主

博主称249元毛巾有暴利,胖东来:将公示毛利并起诉该博主

映射生活的身影
2026-04-29 18:16:29
以色列国防军摧毁黎巴嫩真主党最大地下城

以色列国防军摧毁黎巴嫩真主党最大地下城

以色列计划Pro
2026-04-29 11:45:32
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
百万男网红被曝是海王!同时交往6人,见面就开房,睡觉不爱戴套

百万男网红被曝是海王!同时交往6人,见面就开房,睡觉不爱戴套

叶公子
2026-04-29 14:25:13
连胜3名中国选手!43岁墨菲回应赵心童出局:斯诺克之神庇佑魔咒

连胜3名中国选手!43岁墨菲回应赵心童出局:斯诺克之神庇佑魔咒

风过乡
2026-04-30 07:15:39
伊朗突发暗杀事件

伊朗突发暗杀事件

第一财经资讯
2026-04-29 19:09:32
巴基斯坦总统秘密访华,三天后才公开,首站不去北京去湖南?

巴基斯坦总统秘密访华,三天后才公开,首站不去北京去湖南?

浪子阿邴聊体育
2026-04-29 06:39:08
李在明没下狠手,听到判决结果,尹锡悦老婆金建希面如土色

李在明没下狠手,听到判决结果,尹锡悦老婆金建希面如土色

石江月
2026-04-29 17:09:36
俄罗斯人大量涌入中国,却发现中俄差距越来越大

俄罗斯人大量涌入中国,却发现中俄差距越来越大

杰丝聊古今
2026-04-28 03:43:50
2026-04-30 08:35:00
全栈遛狗员
全栈遛狗员
白天跟需求对线,晚上在小区遛狗。
2016文章数 54关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

55岁资本大佬被羁押在深圳某看守所 被指涉在美强奸案

头条要闻

55岁资本大佬被羁押在深圳某看守所 被指涉在美强奸案

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

房产
健康
教育
旅游
军事航空

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

干细胞治烧烫伤能用了么?

教育要闻

太骄傲了 为他们点赞!包头2名学生画作飞上太空亮相第五届"天宫画展

旅游要闻

五一FUN心冲!AI 选的绝美拍照打卡点,包出片的

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版