网易首页 > 网易号 > 正文 申请入驻

12小时,42 年难题被攻克,AI 离 AGI 近了一步

0
分享至

全文 3,000字 | 阅读约 8 分钟


(OpenAI播客最新对话,两位研究员谈AI与AGI)

一个困扰数学界42年的问题,被解开了。

不是在某个顶级研究所,也不是通过一篇刚发表的论文,而是在一次持续三天、总共约12小时的人机对话中。

2026年4月28日,OpenAI 高级研究员 Ernest Ryu 在 OpenAI 播客中回忆了这段经历:他与 ChatGPT 反复对话,不断指出模型的错误并调整方向,持续逼近结论。这道关于经典优化算法收敛性的难题,此前42年始终无人给出明确答案。直到一个完整的证明出现,Ryu 人工验证了一遍,又让模型复核了一遍,结果完全无误。

“如果没有这些工具,我可能需要三个月,甚至更久。”

同场对话中,Sébastien Bubeck 也谈到:模型在国际数学奥林匹克竞赛中已达到顶尖水平,在部分研究级问题上也开始提供实质性帮助,甚至能将散落在不同领域的既有成果串联起来,走出前人未曾走通的路径。

AI 的能力边界,正在被实实在在地向前推。这是 AGI 进程中值得认真对待的信号。

第一节|从工具到参与者

先建立一个参照系。

2025年初,模型还做不到的事情包括:三个人去野营,消费明细有十几项,帮忙算一下每人该付多少;或者三个时区的人要约一次Zoom会议,帮忙找一个合适的时间。这些听起来很简单的任务,当时的模型都难以可靠完成。

就在同一年,一个困扰数学界42年的开放问题,在12小时的人机对话中被解决了。

这个跨度,靠模型变聪明了这个说法解释不了。事实上,就在大约一年半前,Sébastien Bubeck 参加了一场学术会议上的辩论,主题是:扩展大语言模型能否帮助解决重大数学开放问题。开场投票,80%的与会者认为不可能。辩论结束后,比例变成了五五开。而仅仅八个月后,模型就开始做研究级别的数学了。

这不再是简单的问答过程。模型没有一次性给出答案,也没有沿着稳定路径推进。整个过程来回往复:提出思路,展开推理,发现漏洞,调整路径,再追问,再延展。

这更接近真实的研究状态。

过去的模型,即便能解决复杂问题,本质也停留在输出结果的层面。现在,它开始进入过程本身。研究的推进方式,是在反复试探中逐步逼近,而不是从问题直接跳到答案。模型一旦进入这个过程,角色就从工具变成了参与者。

与此同时,当研究团队也尝试用模型处理一批长期未解的数学问题时,发现有些答案其实早已隐藏在不同领域的既有成果中,只是从未被联系起来。模型通过大规模检索和推理在庞杂知识中找到可用线索并建立连接,在此基础上,新的结果才开始出现。

正因如此,这个案例绝不只是一次成功的解题,它标志着 AI 正式走入了真实的研究流程。

第二节|思考更久,才是真突破

如果只是将其理解为模型突然变强了,很容易得出一个错误结论:这是某一次单点技术跃迁的结果。但 Sébastien Bubeck 在访谈中给出的解释恰恰相反,没有哪一个单一因素能解释这一切,这种变化是多种能力在同一时间叠加后的集中显现。

在所有这些能力中,最核心的突破在于:模型开始能够持续进行更长时间的推理,并在这个过程中保持思路的连贯性。

这一点为什么关键?数学乃至更广泛的科学研究,难点往往不在某一个具体步骤,关键在于整条推导链能否始终成立。只要中间有一个环节出现偏差,后续所有内容都会失去意义。这就要求推理在很长一段时间里持续检查和修正,光往前走是不够的。过去的模型在短步骤上表现不错,但推理链条一旦拉长就容易偏离,很难在复杂任务中持续推进。

要理解这个跨度有多大,可以回到四年前。2022年前后,Google 发布了专门针对数学的模型 Minerva,Sébastien Bubeck 回忆说,他当时激动得差点从椅子上跳起来。原因仅仅是:给模型平面上几个点的坐标,它能画出一条穿过这些点的直线。

科技行业内正在逐渐形成一个新的衡量尺度:“AGI时间”。它衡量的不再是模型有多聪明,而是它能连续思考多久。从最早只能处理几秒钟的简单问题,到可以维持几分钟的推理,再到如今可以围绕一个难题展开数小时甚至数天的探索。

Ernest Ryu 在访谈中用 Codex 做了一个类比。Codex 能够在很长的工作周期内处理庞大的代码仓库,通过不断压缩和整理对话记录,在持续的交互中推进复杂任务。Ryu 认为,数学研究会走上同样的道路:数学笔记相当于代码仓库,推理过程相当于长周期的工作会话。模型不需要在单次对话里完成全部推导,可以像人类研究者一样,今天推进一部分,整理成笔记,下周继续,最终把几个月的思考浓缩进一篇论文。

顺着这个逻辑往前看,如果模型能在更长的周期内保持推理的稳定性,比如几周甚至更久,它所能处理的问题类型就会发生质变。许多需要长期反复推敲的研究任务,也将逐渐进入它的能力范围。

所谓更接近 AGI,不需要等待某个突然降临的分界点。更现实的路径就是思考时间的持续延长:从短暂反应,到持续推理,再到接近人类研究节奏的长期思考。

决定 AI 能力边界的,不只是它能做什么,更是这种能力能维持多久。

第三节|科学,正在被重新组织

数学只是 AI 能力最早影响的一个学科。真正需要关注的,是这种能力一旦普及,会如何改变整个科学工作方式。

第一个层面,是知识的验证方式。Bubeck 团队测试过大量已发表的数学论文,发现其中存在相当数量的错误,有些是小错,有些则是根本性的漏洞。过去,一篇300页的证明从发表到被全面核实,往往需要好几年,期间整个领域可能已经在一个错误的结论上继续往前走了。现在,AI 可以大幅压缩这个检验周期。既有知识体系的可靠性,正在被重新梳理。

第二个层面,是研究的起点。模型开始不只是回答问题,也开始提出问题。访谈中提到,他们内部的模型已经能够生成有质量的研究假设,好到让人类研究者认为这个方向值得专门写一篇论文。当提出问题这个环节也能被 AI 深度辅助时,研究者真正需要保留的核心能力,变成了判断哪些问题值得追,能否在关键节点做出取舍,能否识别哪个方向具有真正的突破性。这些,恰恰是模型目前最难替代的部分。

当然,这种重构并不自动带来研究成果改善。过度依赖模型,反而会让研究者只停留在理解结果的表层,失去深入推导的能力。工具越强,对使用者的判断力要求就越高。

长期来看,科学研究正在经历一次分工的大调整。重复性的推导工作,AI 可以承担越来越多;而判断做什么、往哪里走,这部分的要求反而在提高。研究者的核心价值,正在从执行转向决策。

计算机出现的时候,有人预言数学界将不再有难题。结果计算本身开辟了全新的研究领域,难题只增不减。如今的逻辑如出一辙:工具越强,值得追问的问题就越多,能提出好问题的人就越稀缺。这种变化不会停留在数学领域。材料科学、生物研究,以及所有需要大量推理和验证的学科,只要问题具备清晰结构, AI 都会慢慢参与进来。

AI 加速的,是科学的节奏。没有改变的,是科学需要人来定义方向这件事本身。

结语|方向,仍然在人

42年没有答案的问题,在12小时里出现了结果。这不是终点,只是一个新的起点。

真正拉近距离的,是模型开始能在更长时间里维持连贯的推理,进入了研究过程本身。这一点,比任何单次突破都更值得关注。

工具替代了越来越多的执行,剩下的问题只有一个:你能不能看懂结果,你有没有能力提出下一个更好的问题。

思考被加速,选择仍然在人。

识自AI

本文由AI深度研究院出品,内容整理自 Sebastian Bubeck 与 Ernest Ryu 在 OpenAI 播客的公开访谈,属评论分析性质。内容为观点提炼与合理引述,未逐字复制原访谈材料。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=9-TVwv6wtGQ&t=846s

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
性爱中妻子最想要的“慢节奏高潮”,多数男人不懂

性爱中妻子最想要的“慢节奏高潮”,多数男人不懂

精彩分享快乐
2026-04-29 07:15:03
网络歪风邪气的看不惯!张雪回应为何声援余承东:我看不惯部分人恶搞余承东

网络歪风邪气的看不惯!张雪回应为何声援余承东:我看不惯部分人恶搞余承东

快科技
2026-04-28 18:44:37
“崩老头”现象:00后如何收割中年男性

“崩老头”现象:00后如何收割中年男性

流苏晚晴
2026-04-25 16:31:35
张若昀的评论区把人笑疯了!网友:一个没参加浪姐却无处不在的人

张若昀的评论区把人笑疯了!网友:一个没参加浪姐却无处不在的人

东方不败然多多
2026-04-28 18:52:48
售价200万!华为新车震惊行业

售价200万!华为新车震惊行业

李东阳朋友圈
2026-04-28 16:07:38
人到晚年,最损寿命的根本不是生病,而是这2种“勤快”

人到晚年,最损寿命的根本不是生病,而是这2种“勤快”

荷兰豆爱健康
2026-03-26 13:36:36
数名医生强调:只要做过肠息肉切除手术,术后病人一定关注这4点

数名医生强调:只要做过肠息肉切除手术,术后病人一定关注这4点

叙说医疗健康
2026-04-29 07:00:24
Shams:戈登左小腿伤势严重 掘金已做好戈登无缘G6的准备

Shams:戈登左小腿伤势严重 掘金已做好戈登无缘G6的准备

北青网-北京青年报
2026-04-29 07:46:04
利物浦重磅引援蓝图曝光!锁定德甲第一人,追猎那不勒斯中卫

利物浦重磅引援蓝图曝光!锁定德甲第一人,追猎那不勒斯中卫

夜白侃球
2026-04-29 09:05:36
吴京突袭比亚迪展台被围,大佬现场刷卡提走仰望U8L!

吴京突袭比亚迪展台被围,大佬现场刷卡提走仰望U8L!

沙雕小琳琳
2026-04-29 01:36:01
父母得知我坐飞机失事了,全家赶紧庆祝:儿子,你姐的钱都是你的

父母得知我坐飞机失事了,全家赶紧庆祝:儿子,你姐的钱都是你的

红豆讲堂
2025-04-29 10:38:06
清醒到可怕!亚历山大横扫后语出惊人,雷霆卫冕冠军底蕴拉满!

清醒到可怕!亚历山大横扫后语出惊人,雷霆卫冕冠军底蕴拉满!

田先生篮球
2026-04-28 14:45:01
扎哈罗娃:我们不像乌克兰,不拿士兵的生命去打没意义的仗

扎哈罗娃:我们不像乌克兰,不拿士兵的生命去打没意义的仗

Ck的蜜糖
2026-04-29 09:09:07
调查揭露:俄罗斯通过货运航班获取关键军工部件

调查揭露:俄罗斯通过货运航班获取关键军工部件

桂系007
2026-04-28 04:35:53
美国现任防长曾谈中美开战:11艘航母打击中国,20分钟后1艘不剩

美国现任防长曾谈中美开战:11艘航母打击中国,20分钟后1艘不剩

蜉蝣说
2026-04-28 11:14:47
官方:英超第37轮及曼城vs水晶宫补赛开球时间确定

官方:英超第37轮及曼城vs水晶宫补赛开球时间确定

懂球帝
2026-04-28 22:24:14
世锦赛战报:四位TOP16激战八强,8-8/8-8,赵心童与艾伦强势反击

世锦赛战报:四位TOP16激战八强,8-8/8-8,赵心童与艾伦强势反击

求球不落谛
2026-04-29 05:27:31
直接停摆!苹果iPhone印度扩产遇阻 没有中国团队根本玩不转

直接停摆!苹果iPhone印度扩产遇阻 没有中国团队根本玩不转

快科技
2026-04-29 10:11:23
不愧是加拿大名帅!重用3人造17分惨案,杜锋没苦硬吃广东0-1广州

不愧是加拿大名帅!重用3人造17分惨案,杜锋没苦硬吃广东0-1广州

后仰大风车
2026-04-28 21:45:30
枪手终于开口,刺杀目标不是特朗普?疑问出现,高市早苗火速发声

枪手终于开口,刺杀目标不是特朗普?疑问出现,高市早苗火速发声

老谢谈史
2026-04-28 08:36:47
2026-04-29 10:48:49
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
447文章数 171关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

男子强奸大嫂又杀人被执行死刑 大哥:谈不上高兴难过

头条要闻

男子强奸大嫂又杀人被执行死刑 大哥:谈不上高兴难过

体育要闻

巴黎5-4拜仁夜:身价1.55亿的“足坛笑话”,成了最硬的底牌

娱乐要闻

单依纯演唱会再唱“区区三万天”宣战

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

游戏
时尚
家居
数码
公开课

养女儿游戏《梦幻魔法公主》好评如潮 精致量大还便宜!

刘浩存:明媚中绽放

家居要闻

江景风格 流动的秩序

数码要闻

华为WATCH FIT 5上市 首发腕上微运动 支持5ATM防水

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版