网易首页 > 网易号 > 正文 申请入驻

30位数学家出题也差点没难倒AI,但这似乎还不意味着它“懂数学”

0
分享至

据知名科普杂志《科学美国人》的报道,今年五月中旬,一场由非营利组织 Epoch AI 主办的 FrontierMath 研讨会在加州伯克利秘密举行。三十位被称为“全球最负盛名的数学家”齐聚一堂,他们的任务只有一个:设计出人类专家能够解决、但最先进的 AI 却会束手无策的数学难题。

这场对决的主角,是来自 OpenAI 的推理大语言模型 o4-mini。与早期版本的 ChatGPT 相比,o4-mini 在专门的数据集上进行训练,得到了更强的人类反馈强化,能够进行更加复杂和深入的数学推理。

与会的数学家们,包括弗吉尼亚大学的著名数学家 Ken Ono,在两天的时间里,向这个数字大脑抛出了一系列教授级别的难题。

然而,结果令所有人惊讶。

报道提到,Ken Ono 在会议中遇到了一个令他十分难忘的时刻。他设计了一个在他所在领域(数论)被认为是“开放性问题”的博士级别难题,并将其交给了 o4-mini。在接下来的十分钟里,Ono 和其他与会者在惊愕中见证了 AI 实时展开解题过程。模型首先花了大约两分钟,迅速检索并“掌握”了该领域的相关文献。紧接着,它提出先解决一个简化的“玩具版本”问题以进行学习。几分钟后,它宣布已准备好应对真正的挑战。最终,在总共不到十分钟的时间里,o4-mini 不仅给出了正确答案,其输出的文字甚至带有一种俏皮的自信,结尾写道:“无需引用,因为这个神秘数字是由我计算出来的!”

这一幕给 Ono 带来相当大的冲击,他坦言:“我从未在模型中见过那种推理方式。那是科学家的工作方式。这太吓人了。”他甚至在周日清晨就迫不及待地通过加密通讯软件 Signal 提醒其他与会者,他感觉自己面对的不再是一个程序,而是一个“强大的合作者”。

类似的震撼场面在会议期间反复上演。其他数学家发现,即使是涉及最近研究成果的问题,AI 也表现出惊人的文献检索和应用能力。它能够迅速找到、引用并应用相关的研究结果,这种速度和准确性远超人类专家的预期。伦敦数学科学研究所的 Yang-Hui He 也给出了极高的评价,认为 AI 的表现“比一个非常非常优秀的博士生做得还要多”。

在这场挑战中,o4-mini 在处理需要深度几何直觉和拓扑理解的问题时表现尤其出色,而且其速度远超人类,能在几分钟内完成人类专家需要数周甚至数月才能完成的工作。尽管最终与会者们还是成功找到了 10 个能够难住 AI 的问题,但这个结果本身还是给数学家们带来极大冲击——相比于传统语言模型在类似基准测试中不到 2% 的成功率,o4-mini 展现出的数学推理能力已经达到了前所未有的水平。

不过在这篇文章引发热烈讨论后,一位参与了此次研讨会的数学家、Hyperbolic 创始人 Jasper Zhang 提出了一些异议,他表示,虽然 AI 的进步确实惊人,但原始报道在某些方面“有些夸张,需要澄清”。

Jasper 首先指出了一个被报道淡化,却对整个挑战性质有决定性影响的关键约束:“每个问题都需要一个数值答案”。他解释说,这与高等数学的核心有显著区别。现代数学研究的中心通常是推理与证明,而非纯粹的计算。一个问题可以有复杂的逻辑结构和深刻的理论内涵,但最终被要求输出一个具体的数字,这本身就改变了问题的性质,使得它更偏向于一个可以被计算工具优化的任务。

Jasper 所在的几何与拓扑小组,最初的策略是设计一些需要深刻几何直觉和关键定理理解的博士级别问题。他们相信,这是当前 AI 模型的弱点。但令他们惊讶的是,o4-mini 模型成功解决了他们提出的大部分问题。但这里的“解决”需要打上引号。Jasper 特别提到:“尽管其推理过程有时是错误的,但它仍然设法得出了正确的数值答案。”

这就说明,AI 可能并非通过类似人类的、严谨的逻辑推演来“理解”问题,而是利用其强大的模式匹配和计算能力,找到了一条通往正确数字的路径,哪怕这条路径在数学逻辑上并不完美。

基于这一发现,Jasper 和他的同事调整了策略。他从一篇数学论文中提取了几个中间定理,然后设计了一个新问题,要求将这些定理综合起来,形成一种计算方法。这一次,AI“正如预期地陷入了困境”。Jasper 写道:“它无法将中间步骤联系起来,也无法有效地进行逻辑链条的推理。”这次失败,恰恰揭示了当前 LLM 的深层局限:在需要从零开始进行多步骤、跨概念的逻辑综合与创造时,它仍然力不从心。

除了个别非常吸引眼球的案例,这次会议还揭示了 AI 数学能力的其他重要特征。参与者们发现,o4-mini 在处理涉及最新研究成果的问题时表现出色,能够有效地搜索、理解并应用最新的学术文献。这种能力在某种程度上弥补了人类专家在信息处理速度上的不足。

同时,会议也暴露出 AI 系统的一个潜在风险:过度自信的表达方式。Ono 和 He 都表达了对 o4-mini 结果可能被过度信任的担忧。“有归纳证明、反证法,然后还有恐吓证明,”He 说,“如果你用足够的权威说某件事,人们就会感到害怕。我认为 o4-mini 已经掌握了恐吓证明;它说每件事都充满自信。”

从那 10 个成功“难倒”AI 的问题来看,它们往往需要复杂的多步骤推理和创新性的概念综合,而这也说明,当前 AI 系统的局限还是主要体现在原创性思维和深度逻辑综合能力上。

最后,我们可以用 Jasper 的几点核心看法作为总结:AI 在过去两年确实取得了巨大进步,但目前的 LLM 在很大程度上仍然依赖于模式匹配,其深度推理能力有限。它们尚不具备生成全新数学成果的能力,但极其擅长收集相关文献和起草初步解决方案。人类的监督,尤其是在验证和综合方面,仍然是不可或缺的。

他的预测也更为温和:在未来一到两年内,AI 将主要作为数学家的“助手”,帮助发现新理论和解决开放问题,就像陶哲轩与 DeepMind 的合作那样。之后,AI 才会开始作为“合作者”,并最终独立地推动数学前沿。

参考资料:

1.https://www.scientificamerican.com/article/inside-the-secret-meeting-where-mathematicians-struggled-to-outsmart-ai/

2.https://x.com/zjasper666/status/1931481071952293930

排版:溪树

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

有范又有料
2026-03-24 10:59:07
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
70万韩国青年,选择“消失”

70万韩国青年,选择“消失”

中国新闻周刊
2026-03-26 09:30:07
iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

柴狗夫斯基
2026-03-26 21:15:05
9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

品牌观察官
2026-03-26 17:17:59
西安某建筑公司全方位崩塌!

西安某建筑公司全方位崩塌!

黯泉
2026-03-26 18:49:04
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

春江财富
2026-03-26 15:26:22
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

青眼财经
2026-03-17 16:03:09
2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

万象硬核本尊
2026-03-26 22:23:37
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

感觉会火
2026-03-26 12:06:22
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
2026-03-27 00:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
教育
房产
游戏
本地

400万人爱过的女孩,被黄谣网暴180天后

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版