网易首页 > 网易号 > 正文 申请入驻

马丁·海勒(Martin Hairer)教授近期接受《纽约时报》采访分享他对数学和AI人工智能的见解

0
分享至

置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!

EPFL(洛桑联邦理工学院)很高兴与大家分享近期《纽约时报》于2026年2月7日刊登的对其主任马丁·海勒教授的专访 。在这次内容广泛的对话中,海勒教授反思了人工智能与数学研究之间不断演变的关系,探讨了人工智能在解决深奥的数学问题方面能够做什么,以及不能做什么。

作为菲尔兹奖得主,他结合自身经验,深入剖析了当今的前沿实验、现有人工智能系统在证明原创性结论方面的局限性,以及人类创造力在数学领域经久不衰的作用。此次访谈为我们提供了一个富有洞见的视角,让我们得以了解人工智能如何重塑数学研究,同时也重申了严谨数学思维的基础性重要性。

作者:EPFL洛桑联邦理工学院官网 & Siobhan Roberts(纽约时报记者)2026-2-11

译者:zzllrr小乐(数学科普公众号)2026-2-12

《纽约时报》原文标题——对话:这群数学家正在测试 AI人工智能

大语言模型难以解决研究级别的数学问题。要判断它们到底有多差,还得靠人类。

马丁・海勒身着深绿色高领毛衣,在写满公式与图表的黑板前留影。


马丁・海勒(Martin Hairer),瑞士洛桑联邦理工学院数学家。他同时在该校与伦敦帝国理工学院任职。

图片版权:Aurelien Bergot,《纽约时报》


文 / 西沃恩・罗伯茨(Siobhan Roberts)发表于2026年2月7日

更新于2026年2月10日

几周前,一名高中生给以惊人创造力闻名的数学家马丁・海勒(Martin Hairer)发了一封邮件。这名少年立志成为数学家,但随着AI人工智能的崛起,他开始产生怀疑。“很难理解到底发生了什么,” 他写道,“感觉这些模型每天都在进步,用不了多久,我们就会变得毫无用处。”

他问道:“如果有一台机器在解题上远比我们厉害,数学难道不会失去一部分魔力吗?”

海勒博士于 2014 年获得数学界最高荣誉菲尔兹奖(Fields Medal),并于 2021 年获得奖金丰厚的科学突破奖(Breakthrough Prize)。他同时任职于瑞士洛桑联邦理工学院(EPFL)与伦敦帝国理工学院(Imperial College London)。在回复这名学生时,他指出,很多领域都在面对 AI 带来的 “被淘汰” 焦虑。

“我相信数学其实相当‘安全’。” 海勒博士说。他提到,大语言模型(LLM)—— 也就是聊天机器人的核心技术 —— 现在确实很擅长解决人为设计出来的题目。但他表示:“我还没见过任何一个可信的例子,能证明 LLM 提出了真正全新的想法和(或)概念。”

海勒博士在谈论一篇题为

First Proof
(首轮验证)的新论文 https://arxiv.org/abs/2602.05192 时,提到了这段对话。这篇论文由他与多位数学家合著,包括:斯坦福大学的穆罕默德・阿布扎伊德(Mohammed Abouzaid)、哈佛大学的劳伦・威廉姆斯(Lauren Williams)、运营旧金山湾区咨询公司 MathSci.ai 的 塔玛拉・科尔达(Tamara Kolda)。

这篇论文介绍了一项刚刚启动的实验:收集来自作者未发表研究的真实测试题,旨在为 AI 的数学能力提供一次有实际意义的衡量。

作者们希望,这项研究能为 “AI 已‘攻克’数学领域” 这类常常过于夸张的叙事增添更细致的视角,并减轻炒作带来的后果 —— 比如吓走下一代学生、让科研资助者却步。

“尽管商用 AI 系统无疑已经达到了可以成为数学家有用工具的水平,” 作者们写道,“但在没有专家介入的情况下,AI 系统独立解决研究级数学问题的能力究竟如何,目前仍不明确。”

AI 公司使用一些数学家口中 “人为编造” 或 “限制条件过多” 的题目,来评估和评测 LLM 在无人辅助下的表现 【https://epoch.ai/frontiermath 详情参阅 】。有时,他们会邀请数学家出题,每题报酬约 5000 美元。(First Proof 项目的所有作者均与 AI 公司无任何关联。)

去年4月,2017 年数学新视野奖(New Horizons in Mathematics Prize) 得主阿布扎伊德博士拒绝了这样一份邀请。

“我认为应该有一项更广泛、独立且公开的行动。” 他说。他补充道,First Proof 项目就是第一轮尝试。

“目标是对 AI 的研究能力做出客观评估。” 近期获得古根海姆学者与麦克阿瑟学者称号的劳伦・威廉姆斯(Lauren Williams)博士说。

劳伦・威廉姆斯身着深红色高领毛衣,在哈佛大学一栋建筑的栏杆旁留影。


哈佛大学的劳伦・威廉姆斯。

图片版权:露西・卢(Lucy Lu),《纽约时报》

在这项实验中,来自不同数学领域的作者们,每人贡献了一道来自自己正在进行但尚未发表的研究的测试题。他们也确定了答案;这些解答已在线加密,将于2月13日公布 https://1stproof.org 。

“我们的目标是理解边界 ——AI 究竟能在多大程度上超越它的训练数据和在网上找到的现有解法?” 科尔达博士说。她是少数当选美国国家工程院院士的数学家之一。

研究团队对 OpenAI 的 ChatGPT‑5.2 Pro 与谷歌的 Gemini 3.0 Deep Think 进行了初步测试。作者写道,在仅给一次作答机会的情况下,“目前公开可用的最佳 AI 系统在回答我们的许多问题时都十分吃力。”

论文引言对标题做出了解释:“在烘焙中,首轮发酵(first proof首次醒发)是关键步骤:将整团面团作为一个整体发酵,之后再分割、塑形为面包。” 在发布第一批测试题后,团队邀请数学界共同探索。几个月后,在意见与思路 “发酵” 之后,将开展第二轮更结构化的评测,使用全新一批题目。

团队赶在欧拉日(Euler Day)——2月7日,星期六 —— 发布了 First Proof 论文。该节日以 18 世纪瑞士数学家莱昂哈德・欧拉(Leonhard Euler) 命名。日期对应欧拉数,一个像圆周率 π 一样用途广泛的数学常数,约等于 2.71828……,记为 e。神经网络 AI 系统的训练,基于欧拉为求解常微分方程所发现的方法,即欧拉法(Euler’s method)。

以下对话通过视频会议与邮件进行,经精简与编辑以便清晰阅读。

问:First Proof 方法与其他评测工作相比,新颖之处在哪?

穆罕默德・阿布扎伊德(Mohammed Abouzaid):最主要的新颖点是,我们的测试题真正取自我们自己的研究—— 从我们关心的问题出发。在这个范围内,我们尝试设计可以被测试的问题。

问:什么样的问题适合用来测试?

当前的 AI 系统有一些公认的局限。比如,它们在视觉推理上出了名地差,所以我们避开了这类问题;如果我们的目标是刻意刁难,就会出带图的题。

而且,公司会限制模型单次回复的长度,因为超过一定长度后答案质量会下降,所以我们确保避免答案需要超过五页篇幅的问题。

问:论文谨慎地澄清了 “什么是数学研究”。它到底是什么?

阿布扎伊德:在现代研究中,关键一步往往是识别出核心驱动问题,以及应该从什么方向去处理这个问题。这涉及各种前期工作,而数学创造力就体现在这里。

一旦问题被解决,数学家往往会根据由此引出的新问题,来评价研究贡献的重要性。有时,以某种方式解决一个猜想反而会令人失望,因为它堵死了产生新研究问题的可能。

穆罕默德・阿布扎伊德身着夹克衬衫,未系领带,在户外条板墙前留影。


斯坦福大学的穆罕默德・阿布扎伊德(Mohammed Abouzaid)

图片版权:卡罗琳・方(Carolyn Fong),《纽约时报》

劳伦・威廉姆斯(Lauren Williams):我打个不太严谨的比方。在实验科学里,我可以把研究分成三部分:一、提出重大问题,希望其研究能照亮我们的领域;二、设计实验来回答这个问题;三、执行实验并分析结果。

我可以类似地把数学研究分成对应的三部分:一、提出重大问题,希望其研究能引领我们的领域;二、构建求解框架,把大问题拆成更小、更容易处理的问题 —— 就像我们的测试题;三、找到这些小问题的解,并证明其正确性。

这三部分都必不可少。在 First Proof 项目中,我们聚焦第三部分,因为它最容易被量化。我们可以用小而定义清晰的问题去询问 AI 模型,然后判断答案是否正确。如果让 AI 提出大问题或构建框架,评估其表现会难得多。

问:AI 系统在 “首轮验证” (First Proof)评测中表现如何?

威廉姆斯:针对我的问题,有一次测试出现了一连串有趣的回复。模型会给出一个答案,然后说 “好了,这就是最终解”。接着又说 “等等,停一下,这个情况呢?” 然后以某种方式修改答案。如此反复:“好了,最终解。等等,这里有个坑!” 它陷入了无限循环。

还有一次回答,解的是一道高度相关但并不相同的题。

塔玛拉・科尔达(Tamara Kolda):我的初步结果令人失望:AI 完全搞不懂问题,在答案的某些部分忽略关键信息,而且逻辑根本不连贯。我后来修改了问题表述,加了更明确的说明,试图给 AI 更好的机会。最终结果如何,我们拭目以待。

马丁・海勒(Martin Hairer):我整体注意到一点:模型倾向于在简单的地方铺陈大量细节,你会心想:“行吧,快点,这些我听腻了。”而到了论证的关键部分,它又说得极少。

有时就像在读一篇差劲本科生写的论文:他们大概知道起点在哪,也知道要去哪,但真的不知道怎么过去。于是东拉西扯,到某个点直接塞一句 “因此”,然后祈祷正确。

问:听起来就是典型的 “糊弄式论证”—— 缺乏严谨,跳过复杂环节。

海勒:对,它特别擅长给出这种糊弄式的答案。

问:所以你并不 impressed(被打动)?

海勒:不,我不会这么说。有些时候我其实相当 impressed—— 比如,它能把一堆已知论证串起来,中间夹杂一些计算,而且做得相当正确。这方面它确实很厉害。

问:在你理想的世界里,AI 能为你做什么?

海勒:目前 LLM 的输出很难让人信任。它们表现得无比自信,但你要花很大力气才能确认答案到底对不对;我觉得这在智力上很折磨人。

再说一次,这就像面对一个研究生,你说不清他是真的强,还是只是很会胡说八道。理想的模型应该是可以信任的。

科尔达:AI 被吹得像同事或合作者,但我并不觉得是真的。我的人类同事有各自独特的视角,我尤其喜欢和他们辩论不同观点。而 AI 只有我让它有的观点,这一点意思都没有!

我越来越担心的一点是,AI 可能会无意中减慢科学进步。理论物理学家马克斯・普朗克有句名言常被引用:“科学是在一场场葬礼中进步的。” 我很清楚,我的观点可能大错特错。但如果我的观点被编码进 AI 系统并永远保留下去,会不会阻碍新科学思想的演进?

参考资料

https://actu.epfl.ch/news/prof-m-hairer-on-artificial-intelligence-and-mathe/

https://www.nytimes.com/2026/02/07/science/mathematics-ai-proof-hairer.html

https://arxiv.org/abs/2602.05192

https://1stproof.org

https://epoch.ai/frontiermath

https://arxiv.org/abs/2509.26076

https://arxiv.org/abs/2505.12575

小乐数学科普近期文章

·开放 · 友好 · 多元 · 普适 · 守拙·

让数学

更加

易学易练

易教易研

易赏易玩

易见易得

易传易及

欢迎评论、点赞、在看、在听

收藏、分享、转载、投稿

查看原始文章出处

点击zzllrr小乐

公众号主页

右上角

置顶加星

数学科普不迷路!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛昭晰:浙江省人大常委会原副主任

毛昭晰:浙江省人大常委会原副主任

时尚的弄潮
2026-02-13 03:14:33
交易哈登相当于得俩球星!近3战场均24+10命中率80%,骑士赚大了

交易哈登相当于得俩球星!近3战场均24+10命中率80%,骑士赚大了

你的篮球频道
2026-02-12 12:20:16
挤爆的车抵贷

挤爆的车抵贷

读懂数字财经
2026-02-13 11:06:36
哪些酷刑是人类意志不能承受的?网友:人彘就是早期的感官剥夺!

哪些酷刑是人类意志不能承受的?网友:人彘就是早期的感官剥夺!

解读热点事件
2025-11-19 00:05:05
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

湖北单亲妈妈嫁65岁美国老头,带儿子移民美国,婚后14年老头去世

哄动一时啊
2026-02-09 16:56:31
长安汽车第四代逸动燃油版开启预售,限时价7.49万元起

长安汽车第四代逸动燃油版开启预售,限时价7.49万元起

IT之家
2025-08-25 11:54:52
南京Lily姐火了。
​38岁陪读妈妈,牵着70岁德国工程师的手

南京Lily姐火了。 ​38岁陪读妈妈,牵着70岁德国工程师的手

岁月有情1314
2026-02-05 11:13:16
哈曼:萨拉赫可能在夏天离开利物浦,意甲也许比沙特更为理想

哈曼:萨拉赫可能在夏天离开利物浦,意甲也许比沙特更为理想

画夕
2026-02-13 11:20:03
中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

阿器谈史
2026-01-30 08:40:58
苹果发布 iOS 26.3 系统,修复 37 个漏洞

苹果发布 iOS 26.3 系统,修复 37 个漏洞

简科技
2026-02-12 13:59:57
彩蛋!蛇年最后一期蓝球开01+顺子号!双色球26019期精选7码

彩蛋!蛇年最后一期蓝球开01+顺子号!双色球26019期精选7码

蓝色海边
2026-02-13 08:48:50
罗翔因为沉默上了热搜,道理和常识某些人已不追求了

罗翔因为沉默上了热搜,道理和常识某些人已不追求了

禹人集法
2026-02-09 23:39:41
黄金白银直线跳水,乳制品板块史诗级行情开启

黄金白银直线跳水,乳制品板块史诗级行情开启

东方豪侠
2026-02-13 06:47:57
拒演年会节目遭辞退,十年老员工获赔18万余元

拒演年会节目遭辞退,十年老员工获赔18万余元

环球网资讯
2026-02-13 07:45:13
男子想在丈母娘面前表现自己,便拿起柴刀劈柴,结果惨了

男子想在丈母娘面前表现自己,便拿起柴刀劈柴,结果惨了

胡侃社会百态
2026-02-13 09:19:16
两连冠荣耀达成!上海大鲨鱼男篮CBA俱乐部杯卫冕成功

两连冠荣耀达成!上海大鲨鱼男篮CBA俱乐部杯卫冕成功

上观新闻
2026-02-12 22:23:07
演员向梅:83岁退休后生活悲凉,背后真相曝光,才知道风光后的痛

演员向梅:83岁退休后生活悲凉,背后真相曝光,才知道风光后的痛

白面书誏
2026-01-24 23:31:44
心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

医学科普汇
2026-02-11 06:30:11
OpenAI推出首款采用Cerebras芯片的模型

OpenAI推出首款采用Cerebras芯片的模型

界面新闻
2026-02-13 07:27:26
2026-02-13 11:52:49
小乐数学科普 incentive-icons
小乐数学科普
zzllrr小乐,小乐数学科普,让前沿数学流行起来~
238文章数 7关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

中戏院长落马不足两个月 两任表演系主任主动投案

头条要闻

中戏院长落马不足两个月 两任表演系主任主动投案

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

最大续航703km!全新奔驰纯电GLC 350 L即将国产

态度原创

手机
时尚
教育
公开课
军事航空

手机要闻

全球第六:小米17 Ultra影像DXOMark获166分,全焦段表现稳定

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

教育要闻

直角隐圆模型,一个视频学明白!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国新交付F35隐身战机没雷达

无障碍浏览 进入关怀版