网易首页 > 网易号 > 正文 申请入驻

11位顶尖数学家发了篇没结果的论文,陶哲轩推荐都关注一下

0
分享至

获陶哲轩转发,arXiv上的一篇新论文正在引起巨大关注!

挤进前排后发现,原来这是一项由11位全球顶尖数学家发起的AI实验——

让AI在规定期限内,解决他们各自在真实研究过程中产生的10道“研究级”难题,以此探索“AI+数学”的能力边界。

而且走的还是高斯时代的路子——人类先证明出来,但先不公布答案和过程,等到了合适时间再公开,避免AI偷偷看答案。

以前这是一项为保护数学家证明自己优先解决某道问题的做法,而在AI时代却有了新玩法。



在陶哲轩看来,这项实验非常有意思:

  • 当前“一次性”AI提示似乎难以解决这些问题,但它们已被人类领域专家攻克。可以预见,配备AI工具的其他领域专家也能解决其中相当一部分。这些问题的技术门槛相当高,非领域专家难以验证AI生成的任何输出结果
  • 因此在我看来,要让非专家解决其中任何一个问题都极具挑战性——当然,意外惊喜也并非不可能。在截止期限前,这项实验能否产生任何显著成果,将十分值得关注。



好好好,既然老陶如此安利了,咱这就开扒完整实验过程(doge)。

解完10道数学题,然后…藏起证明过程

概括而言,通过提出一套名为First Proof的实验方案,这群数学家想做一件事——

检验当前AI系统,是否具备独立解决研究级数学问题的能力



在这之前,虽然很多商用AI成了数学家手中的实用工具(如用于文献检索、代码编写、手稿校验等),但对于AI是否具备他们想验证的能力,学界始终缺乏相关清晰结论。

这背后一个很重要的原因,就是评测手段的缺失。

放眼市面上的数学AI基准,目前绝大多数都聚焦于竞赛题,此类题目虽然便于规模化测试,却与真实的数学研究存在本质差异(甚至可能存在数据污染问题)。

而数学家面对的真实情况往往是——

问题并非精确定义完成,解法也不存在明确模板,需要在大量试探、修正和结构性判断中逐步推进。

基于这样的背景,这群来自斯坦福、哥伦比亚、哈佛等高校及科研机构的数学家们齐聚一堂,设计了10道研究级数学问题,覆盖代数组合学、谱图论、代数拓扑、随机分析、辛几何等多个数学分支

这里补充一下,一开始其实是20道题,不过按4个标准筛选后最终只留下了10道——AI能理解问题表述、无隐藏公开答案、作者同意按要求发布证明、每位团队成员仅贡献1道题。

完整10道题目指路论文以下位置:



论文表示,First Proof区别于现有基准的地方在于:

  • 问题来自数学家当前研究中发现的真实疑问,答案为证明过程,需人类专家评分;
  • 问题全公开但答案无任何公开记录,供社区验证但不可重复使用,同时彻底消除数据污染;
  • 允许AI无限制使用网络搜索等外部资源,贴近真实研究场景。



划重点,这10道题均来自作者自身的研究过程,是未来发表成果中的小型核心引理,未在互联网、会议等任何公共渠道发布,从根源避免数据污染。

每道题的人类证明不超过5页(适配当前AI的技术限制),且加密发表于下面的这个网站。



最终答案将于2026年2月13日公开,在此之前全球用户均可以用这10道题来测试他们想要考验的AI。

GPT和Gemini先来挑战一波

而在广发全球英雄帖之后,这群数学家也先自己测试了一波:

邀请GPT 5.2 Pro和Gemini 3 Deepthink,对10道题进行一次性作答测试

他们明确表示,First Proof仅聚焦数学研究最后、也是最明确的阶段——

在问题表述和研究背景已经清晰给定的前提下,检验AI是否能够完成严谨的数学证明,而不评估AI提出研究问题、构建新理论框架或发明新定义的能力。

换言之,这是一场单纯的能力边界测试。在假设所有前期研究工作已经完成的情况下,看看AI能否独立走完“从命题到正确证明”的最后一公里。

而实验结果显示:

  • 在当前公开可用的最佳AI系统,仅有一次作答机会的情况下,它们难以解答我们提出的多数问题

不过作者也预计,如果允许人类与AI反复对话、追问、引导,就很有可能让AI给出更好的答案。



再划重点,为了最大程度减少这一实验可能造成的数据污染问题,他们还有这样的举措:

  • 我们关闭了用于训练和改进模型的数据共享选项,但我们知晓谷歌仍会保留数据3天,而OpenAI会保留30天。
  • (即便如此)在整个过程中,我们始终尽力确保所提问题的答案保持私密。

未来,这群数学家也计划在数月内设计第二套问题集,并在实验设计上进一步收紧变量——

在与相关模型方达成明确协议的前提下,先让前沿AI系统完成测试,再统一公开问题与答案,从而将First Proof逐步发展为一个可复用、可比较的研究级数学能力基准。

在此基础上,实验设置也将逐步“去人工化”。例如,放宽当前对证明长度、表达形式等人为限制,引入来自不同数学分支的问题,使测试不再局限于某一类技术路径,而是覆盖更广泛的研究场景。

更进一步,作者也明确表示,长期目标并不只是评估AI在“解题”阶段的表现,而是逐步探索更高阶能力的评测方式,比如这次先忽略的提出新问题、构建新理论框架的能力。



不得不说,以上种种也符合陶哲轩一直以来对AI的判断——

未来的趋势不是AI代替数学家,而是讲求人机协作。

而First Proof的价值,也不在于给AI下一个“及格或不及格”的结论,而在于第一次用真实、未公开、研究级的问题,来试图界定AI当前所能触及的边界。

换言之,即使只完整解出一道题,也足以成为AI数学研究史上一个值得记录的节点。

就是这时间会不会有点太短了?(截止到2月13日)



论文:
https://arxiv.org/abs/2602.05192
答案加密地址:
https://1stproof.org/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军有能力打赢解放军吗?俄媒:两军差距大,除兵员其他全是劣势

美军有能力打赢解放军吗?俄媒:两军差距大,除兵员其他全是劣势

万物知识圈
2026-03-14 11:33:41
姚晨官宣离婚,二婚前夫老底被扒!恶心一幕发生,刘烨果然没说错

姚晨官宣离婚,二婚前夫老底被扒!恶心一幕发生,刘烨果然没说错

潮鹿逐梦
2026-03-16 16:43:35
张本美和夺冠后!提到王曼昱和孙颖莎,感谢大藤,喜提41万奖金

张本美和夺冠后!提到王曼昱和孙颖莎,感谢大藤,喜提41万奖金

无人倾听无人倾听
2026-03-16 06:55:31
朝鲜不忍了,10枚导弹齐射,美韩日拉响警报,半岛局势彻底变天!

朝鲜不忍了,10枚导弹齐射,美韩日拉响警报,半岛局势彻底变天!

嫹笔牂牂
2026-03-15 16:50:17
深观察|五年规划,何以“法”定乾坤?

深观察|五年规划,何以“法”定乾坤?

澎湃新闻
2026-03-16 15:06:27
沪媒赞武磊双响:法拉利再老也是法拉利,中超禁区之王回来了

沪媒赞武磊双响:法拉利再老也是法拉利,中超禁区之王回来了

懂球帝
2026-03-16 12:40:10
卢秀燕刚飞完美国,郑丽文马上要搭机去广东,国民党内部两条路

卢秀燕刚飞完美国,郑丽文马上要搭机去广东,国民党内部两条路

李博世财经
2026-03-16 14:23:33
以总理发视频自证仍“在世”!伊朗宣布,首次使用新武器打以色列

以总理发视频自证仍“在世”!伊朗宣布,首次使用新武器打以色列

每日经济新闻
2026-03-16 00:53:59
就在今天!中国女篮迎来好消息,宫鲁鸣接受批评,调整球员出场时间

就在今天!中国女篮迎来好消息,宫鲁鸣接受批评,调整球员出场时间

篮球看比赛
2026-03-16 11:33:33
刘文祥麻辣烫致歉:停止合作,全部销毁

刘文祥麻辣烫致歉:停止合作,全部销毁

21世纪经济报道
2026-03-16 18:00:53
末日预兆再现?海边偶遇两条“末日鱼”,长度超5个成年人

末日预兆再现?海边偶遇两条“末日鱼”,长度超5个成年人

Science科学说
2026-03-15 08:05:03
张近东2387亿资产清零!首富传奇落幕,妻子、儿子的话让他泪奔

张近东2387亿资产清零!首富传奇落幕,妻子、儿子的话让他泪奔

生活新鲜市
2026-03-15 20:41:24
鹿哈启动赔付,带货牛肚退一赔三,预计赔偿26.9亿元

鹿哈启动赔付,带货牛肚退一赔三,预计赔偿26.9亿元

浙江之声
2026-03-16 14:38:45
巴铁直接亮剑!一夜平推坎大哈,塔利班被打出684:0的惨败

巴铁直接亮剑!一夜平推坎大哈,塔利班被打出684:0的惨败

老马拉车莫少装
2026-03-15 22:12:14
樊振东加盟德甲杜塞尔多夫俱乐部

樊振东加盟德甲杜塞尔多夫俱乐部

澎湃新闻
2026-03-16 18:46:32
王清海:黄芪的3个“黄金搭档”,一起泡水喝,给血管做个大扫除

王清海:黄芪的3个“黄金搭档”,一起泡水喝,给血管做个大扫除

蜡笔小小子
2026-03-15 15:25:29
帕金斯:申京的防守让我恶心,马刺连续点名打他15个回合

帕金斯:申京的防守让我恶心,马刺连续点名打他15个回合

懂球帝
2026-03-16 09:47:14
哈萨克斯坦举行修宪公投,“将重塑政治体制”

哈萨克斯坦举行修宪公投,“将重塑政治体制”

观察者网
2026-03-15 17:32:21
不可错过!3月16日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月16日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-16 15:24:23
澳大利亚女足主帅:我非常尊重米利西奇,他是一个优秀的教练

澳大利亚女足主帅:我非常尊重米利西奇,他是一个优秀的教练

懂球帝
2026-03-16 14:04:19
2026-03-16 19:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12290文章数 176413关注度
往期回顾 全部

教育要闻

最新!华师复试办法发布!

头条要闻

日媒:中国卫星"监视"美军基地 10分钟经过日本上空1次

头条要闻

日媒:中国卫星"监视"美军基地 10分钟经过日本上空1次

体育要闻

那个送老奶奶去医院的球员 成了队史第一人

娱乐要闻

姚晨曹郁发离婚声明 多年前已结束婚姻

财经要闻

梁文锋推迟V4,是为根治龙虾的健忘症?

科技要闻

“龙虾”当道,五位养虾人探讨人类出路

汽车要闻

大众全球首款9系旗舰SUV 上汽大众ID.ERA 9X首秀

态度原创

时尚
手机
亲子
游戏
教育

内娱小白花,公然模仿某巨星却被全网夸爆?

手机要闻

首发哈苏2亿超清四摄!OPPO Find N6影像配置官宣

亲子要闻

萌娃爆笑问老妈年龄,脑袋里的想法太逗了

全新丧尸搜打撤试玩爆火!《Arc Raiders》开发商新作

教育要闻

人生回报率最高的这10件事,孩子做对就能超越90%同龄人

无障碍浏览 进入关怀版