网易首页 > 网易号 > 正文 申请入驻

刚刚,GPT-5首次通过「哥德尔测试」!破解三大数学猜想

0
分享至

新智元报道

编辑:桃子

【新智元导读】GPT-5首次通过「哥德尔测试」,连破三大组合优化猜想!甚至,它能自主推翻原有猜想,给出全新有效解法,当场惊呆OpenAI研究科学家。

AI迎来历史性一刻!

GPT-5成功破解三大猜想,通过了「哥德尔测试」。

OpenAI科学家Sebastien Bubeck惊叹地表示,这类开放性问题,顶尖博士生往往耗费数日才能解决。

不同以往,这项由海法大学和思科主导的研究,首次让AI直面「开放性数学猜想」的挑战。

论文地址:https://arxiv.org/pdf/2509.18383

论文中,团队设计了五项「组合优化」领域的测试任务,每项任务提供1-2篇文献作为了解。

在三个相对简单的问题上,GPT-5给出了近乎完美的解法,证明了其强大的逻辑推理水平。

令人惊喜的是,在猜想二中,它不仅成功求解,还推导出与研究人员预期不同的有效解法,颠覆了原有猜想

这一突破,标志着顶尖AI正从「学习数学」迈向「真正做数学」的关键跨越。

不难看出,AI正为数学发现做出实质性贡献,提前预演了2030年代科研范式的深远变革。

AI单挑「哥德尔测试」

远超陶哲轩想象

此前,陶哲轩曾分享了自己与OpenAI o1合作经验,生动地将其比作「指导一名平庸,但并非完全无能的研究生」。

在他看来,LLM虽能在大量提示后,逐步得出解决方案,但无法独立生成关键概念性想法。

不过,经过一两次迭代,结合工具,AI就能达到「合格研究生」的水平。

OpenAI和谷歌均宣称,自家前沿LLM无需外部工具,即可拿下IMO金牌。

但这个具有挑战性的问题,毕竟是为高中生设计的。

在最新论文中,研究焦点不同:让AI处理更高级的数学猜想,即「哥德尔测试」。

这些猜想要求的不只是解题能力,还需要整合背景知识和创新思维。

为此,研究人员从「组合数学」的子领域——子模最大化中挑选问题。这类问题具体、有明确动机,且控制在能展示数学推理范围内。

与陶哲轩实验不同,团队没有提供大量提示或指导。

论文中,他们精心设计了五大猜想。

只给每个问题一个最小化描述,外加上1-2篇参考文献。

难度设定为:优秀本科生、研究生,有望在一天内解决所有问题,同时确保大部分问题,存在明确猜想及已知解决路径。

GPT-5的任务是,基于有限输入,生成完整证明。

这模拟了真实研究场景:数学家往往从少量线索出发,独立探索。

在测试中,GPT-5表现既有亮点,也有短板,一起看看具体的解题能力。

GPT-5破解三大猜想

猜想一:「单调+非单调」的子模函数在凸多面体上取最大

这个要求好像是,让「两个互相掣肘的收益」加在一起最大化:

一部分收益G会越加东西越大(单调),另一部分 H 可能先涨后跌(非单调),而选择必须落在一个「不能超过上限」的凸集合里。

GPT-5做法是套用连续Frank-Wolfe思路,从零开始,每一步朝着「此刻最能涨分」的方向挪一小步,并使用「遮罩」保证不越界。

它把参考论文里「凹函数」的位置换成 H,推了个递推式,最后得到一个拆分保证——

至少拿到约63%的G(o),再加上37%的H(o)(若H也单调则也是63%),外加一个随步长参数ε线性衰减的小误差。

猜想二:p-system约束下的「双指标」算法

这题允许「价值几乎最优(1−ε)」,但在可行性上稍微超一点(放宽倍数g(ε)),目标是在越广泛的p-system约束下把g(ε)压到尽量小。

GPT-5提了个朴素而有效的流程,每一轮都在当前解的基础上,再做一次「在约束里尽可能有价值」的贪心选集(greedy),最后把若干轮的结果并起来。

证明关键是:每一轮都能把「距离最优」的差距按p/(p+1)的比例缩小,多滚几轮差距就指数式消退,于是只要做 ℓ≈ln(1/ε)/ln((p+1)/p)轮,就能把价值推到1−ε。

这也意味着,放宽倍数 g_p(ε)=⌈ln(1/ε)/ln((p+1)/p)⌉。

部分解题过程如下:

令人意想不到的是,猜想二中,GPT-5甚至推导出不同的近似保证,经核查后推翻原有猜想,并提供了有效解。

猜想三:γ-弱DR子模+凸约束的最大化

这个猜想把「边际收益递减」的连续版放宽为一个强度参数γ(γ=1即标准情形;γ越小,递减越弱)。

GPT-5还是用Frank-Wolfe:步步解一个「沿梯度的线性子问题」,用小步长前进,并靠平滑性控制离散化误差。

核心一步是把经典证明中的关键不等式按γ缩放,于是把著名的1−1/e近似比提升为更一般的1−e^{−γ},再加上一个可调的L/(2K)级别误差项(K为迭代轮数)。

在研究人员看来,结论与推理主体靠谱。

只是GPT-5多假设了「向下封闭」这种其实用不上的条件、以及对「步长总和=1」的细节有点不一致。

可以看出,如果题目有明确的、单一的推理路径,GPT-5表现不错——五道题里有三道能给出几乎正确的证明。

一旦需要把不同证明结合起来,比如4和5,GPT-5就搞不定了。

猜想五中,GPT-5倒是识别出了和作者设想一样的算法,但分析得不对。

他们后来复盘发现,这个证明其实有可能做出来,只是难度比预想的高。比起早期模型,GPT-5在组合优化这种专业领域里,数学能力明显进步,偶尔还会冒出一点小创新。

这恰恰说明了,它现在还缺乏「整合性推理」能力,这是个主要短板。

作者介绍

Moran Feldman

Moran Feldman是海法大学计算机科学系的教授。

在此之前,他曾担任以色列开放大学的教职,并在洛桑联邦理工学院(EPFL)担任博士后研究员,师从Ola Svensson教授。

Amin Karbasi

Amin Karbasi思科基金会AI负责人,曾任Robust Intelligence首席科学家,耶鲁大学教授,谷歌工程师。

参考资料:

https://arxiv.org/abs/2509.18383 https://x.com/tunedgradient/status/1970955153361850606

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
算命先生坦言:头上有两个旋的孩子,多半是这种命,很准

算命先生坦言:头上有两个旋的孩子,多半是这种命,很准

青青会讲故事
2025-10-23 16:45:08
郑州街头法桐树飞絮密集宛如飘雪,有市民称眼睛和鼻子过敏,园林部门回应

郑州街头法桐树飞絮密集宛如飘雪,有市民称眼睛和鼻子过敏,园林部门回应

极目新闻
2026-05-10 13:03:22
国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

故事终将光明磊落
2026-05-10 15:02:43
真被马斯克说中,全球争抢的不是芯片,而是中国20万一台的变压器

真被马斯克说中,全球争抢的不是芯片,而是中国20万一台的变压器

说历史的老牢
2026-05-09 12:34:09
噩耗!姆巴佩无缘国家德比,皇马残阵出击,巴萨一分即可捧杯

噩耗!姆巴佩无缘国家德比,皇马残阵出击,巴萨一分即可捧杯

星耀国际足坛
2026-05-10 22:39:22
央媒发文,63岁梁朝伟高调官宣新身份,日本定居传闻原来早有真相

央媒发文,63岁梁朝伟高调官宣新身份,日本定居传闻原来早有真相

鹿楠
2026-05-10 22:35:06
OPPO母亲节文案引争议,中广协:坚决抵制扭曲亲情等营销行为

OPPO母亲节文案引争议,中广协:坚决抵制扭曲亲情等营销行为

新京报
2026-05-10 13:20:06
表决结果59:0,柯建铭倒戈力挺蓝白,赵少康气急败坏原因曝光!

表决结果59:0,柯建铭倒戈力挺蓝白,赵少康气急败坏原因曝光!

陈博世财经
2026-05-09 13:54:33
中国3大长寿食物,鸡蛋排第3,第1很多人想不到,中老年要常吃

中国3大长寿食物,鸡蛋排第3,第1很多人想不到,中老年要常吃

小胡军事爱好
2026-05-10 22:12:06
离婚不离家?看到陈思诚和阮巨现状,才知道佟丽娅的做法有多高明

离婚不离家?看到陈思诚和阮巨现状,才知道佟丽娅的做法有多高明

原梦叁生
2026-05-09 05:05:40
锁死海峡!阿联酋突袭伊朗,埃及阵风战机驰援:伊朗遭遇凶险包围

锁死海峡!阿联酋突袭伊朗,埃及阵风战机驰援:伊朗遭遇凶险包围

知法而形
2026-05-08 16:39:04
A股:国务院召开重要会议,释放两个信号,明日将迎来新的行情

A股:国务院召开重要会议,释放两个信号,明日将迎来新的行情

云鹏叙事
2026-05-10 14:19:06
山西惜败广厦!总比分1-1平 潘江乱布阵 末节不该弃用刘传兴

山西惜败广厦!总比分1-1平 潘江乱布阵 末节不该弃用刘传兴

体坛热消息
2026-05-10 22:01:03
雪中送炭!中方伸出援手,3小时直飞达沃,给绝境中的莎拉带来希望

雪中送炭!中方伸出援手,3小时直飞达沃,给绝境中的莎拉带来希望

阿凫爱吐槽
2026-05-09 13:41:31
季后赛300三分太难了,现役仅6大神,3人拿4冠,仅1人至今无冠

季后赛300三分太难了,现役仅6大神,3人拿4冠,仅1人至今无冠

大西体育
2026-05-10 19:47:09
穆帅回应重返皇马:5月17日后定未来,高层视其为重建首选

穆帅回应重返皇马:5月17日后定未来,高层视其为重建首选

星耀国际足坛
2026-05-10 22:41:02
杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

照见古今
2026-03-26 19:06:28
15.98万,真的疯了

15.98万,真的疯了

放毒
2026-05-09 18:53:10
33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

阿讯说天下
2026-04-18 14:53:39
中天科技VS光迅科技:一个忙着数钱,一个忙着要账,你更看好谁?

中天科技VS光迅科技:一个忙着数钱,一个忙着要账,你更看好谁?

Thurman在昆明
2026-05-10 20:40:05
2026-05-10 23:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66857关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
健康
手机
亲子
游戏

旅游要闻

一路向前,自在骑行!田园社骑行驿站成为庆云打卡新地标

干细胞能让人“返老还童”吗

手机要闻

联想拯救者手机Y70新一代现身Geekbench

亲子要闻

“顺”还是“剖”?从成为母亲的选择说起

《流放之路2》有望在5月底获得Steam Deck认证

无障碍浏览 进入关怀版