网易首页 > 网易号 > 正文 申请入驻

陶哲轩敲警钟!谷歌DeepMind联手五大神殿,用AI向世纪难题宣战

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:桃子

【新智元导读】谷歌DeepMind再出重拳,集结全球五大顶尖机构,以AI之力直指数学界圣杯!同时,陶哲轩也发出冷静警示:须警惕AI滥用带来的潜在风险。

今天,谷歌DeepMind重磅发起「AI赋能数学计划」,集结了全球五大顶尖机构。

他们将用上谷歌最强数学AI,去探索发现新的疆域。


这其中,有夺下IMO金牌的Gemini Deep Think,有算法发现AI智能体AlphaEvolve,还有形式化证明自动补全AlphaProof。

目前,首批合作机构阵容,堪称豪华:

这五大机构有着一个共同的使命,发掘可以被AI点亮的数学难题,加速科学发现。

然而,陶哲轩担忧的是,「当前AI在数学研究中应用加深,除了负责任的使用,AI滥用的案例也屡见不鲜」。

因此他认为,现在正是时候,启动关于如何最佳融入AI、透明披露其作用,并缓解风险的讨论。


或许,这不仅能守护数学研究的严谨性,还将为AI+数学融合铺就道路。

五大顶尖机构,联手强攻数学难题

数学,是宇宙最基础的语言。

在谷歌DeepMind看来,AI可以作为强大工具,与数学家合作,激发其创造力。

「AI赋能数学计划」的诞生,就是为了:

发掘有望借助AI获得深刻见解的新一代数学难题;

构建支持这些前沿探索所需的基础设施与工具;

最终加速科学发现的步伐。


这项计划,将由Google.org提供资金支持,以及谷歌DeepMind的顶尖技术。

几个月来,谷歌DeepMind自身的研究,取得了飞速进步。

2024年,AlphaGeometry和AlphaProof在IMO竞赛中,拿下了银牌。


而搭载Deep Think的最新Gemini模型,更是在今年IMO中取得了金牌水平的表现,完美破解5题拿下35分。



在数学分析、几何学、组合数学和数论领域50个公开难题上,20%题目中,AlphaEvolve取得了最优解。

而且,在数学与算法发现领域,它发明了一种全新的、更高效的矩阵乘法方法。


具体来说,在4x4矩阵乘法这一特定问题上,它发现了仅需48次标量乘法的算法。

这一结果,打破了1969年由Strassen算法,创下长达50年的历史纪录。

不仅如此,在计算机科学领域,AlphaEvolve协助研究员发现了全新的数学结构。

同时,它还发现了有些复杂问题的求解难度,其实比人们过去想的还要高,这让研究者对计算边界看得更清楚、更精准,为未来的研究探明方向。


以上这些进展,都是当前AI模型快速发展的有力证明。

对于AI的全部潜力,还有它怎么搞定思考最深奥的科学问题,人类的理解才刚刚开始。

AI+数学,边界在哪?

一直以来,陶哲轩是「AI+数学」领域应用的看好者,也是最佳实践者。

他曾多次联手GPT-5 Pro等顶尖AI,破解了许多数学领域的难题,大大提升了效率。


毋庸置疑,在数学领域,LLM和证明助手等AI工具,正悄然改变研究范式。

最近,一些顶尖论文开始融合AI,推动了从形式化证明到复杂计算的创新。


论文地址:https://borisalexeev.com/pdf/erdos707.pdf

然而,随着AI的深度介入,也引发了一个关键问题:

如何确保这些工具的使用,不损害论文的严谨性和价值?

陶哲轩献策

借此契机,陶哲轩在公开平台上发起了讨论,在长帖中,他提出了三大建议。


以下,AI一词,它不仅涵盖LLM,也包括神经网络、可满足性求解器、证明助手以及任何其他复杂的工具。

1AI使用声明

论文中,所有对AI实质性的使用,超出其基础功能,比如自动补全、拼写检查,或搜索引擎AI摘要,都必须明确声明。

2AI风险讨论与缓解措施

论文中,应讨论所用AI工具可能带来的一般性风险,并说明为缓解这些风险已采取的措施。

以下将举例说明:

2.1. 内容虚构,出现了「幻觉」

AI可能会编造参考文献、证明过程或文本,导致事实错误。

建议不要在论文正文中,使用AI生成的文本;若必须使用AI输出,则用不同字体或标记清晰标注。

2.2. 缺乏可复现性

专有AI或高计算成本的结果难以复现。解决方案是,开源提示词、工作流程、认证数据等,让他人能低成本验证。

2.3. 缺乏可解释性

AI输出往往晦涩,其解释可能站不住脚。建议为每个AI输出配以人类撰写的、可读性强的对应内容。

比如,一个定理可以同时包含一个由人类撰写、易于阅读的非形式化证明,以及一个由AI生成但不易阅读的形式化证明。

2.4. 缺乏可验证性

AI易藏细微错误,检查耗时。

形式化验证,一致性检查,都有助于缓解这一问题,并采用多层次方法。

关键是标注验证范围,在定理旁加「校验标记」,未验证部分则明确说明。


2.5. 目标形式化不当

AI可能精确解决「错位」目标,即形式化后的命题偏离作者意图。为此,应从独立来源获取形式化目标,或由人类深入审视形式化过程。

2.6. 可能利用漏洞达成目标

与上一问题相关联,AI可能会钻形式化表述的空子,如添加任意公理「证明」命题。

应对方法是,列出已知漏洞,并讨论排除机制确保过程严谨。

2.7. AI生成代码有Bug

AI生成代码bug更加隐蔽,难以用传统标准方法来检测修复。

为此,建议采用大量单元测试、外部验证,或将AI使用限于简单场景,复杂任务需由人类修改适配。

3 责任归属

最终,论文的所有作者,必须为AI贡献内容承担责任,包括任何不准确、疏漏或虚假陈述。

除非明确标记为「未经核实」,否则作者不能推卸。

以上这些,仅是陶哲轩的抛砖引玉,他希望加入更多的讨论,和业界研究人员进一步完善这份清单。

评论下方,一位研究者John Dvorak直戳痛点——

除非我们能跨过临界点,让所有数学证明都用Lean做形式化验证,成为学界的标配,否则这个问题基本无解。

说到底,在Lean普及之前,这些法子虽然治标不治本。


对此,陶哲轩抛出了最近看到的一个观点,即用AI审稿质量是可以的,但它并非是主要的筛选工具质之一。

否则就会触发「古德哈特定律」(Goodhart's law),AI工具就会找到漏洞,用一些异常、分布之外的文本字符串就能绕开审核。

说白了,AI评估器顶多给人类审核当个辅助,而不能完全取代人类评估者。


参考资料:

https://blog.google/technology/google-deepmind/ai-for-math/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

https://ai-math.zulipchat.com//channel/539992-Web-public-channel---AI-Math/topic/Best.20practices.20for.20incorporating.20AI.20etc.2E.20in.20papers/near/546518354

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!河北35岁女子征婚,不上班不做饭,要求每个月给一万生活费

震惊!河北35岁女子征婚,不上班不做饭,要求每个月给一万生活费

火山詩话
2026-03-23 07:28:09
18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

娱你同欢
2026-03-17 16:08:28
世预赛生死战!22队争6个名额,输球=无缘世界杯,意大利决战苦主

世预赛生死战!22队争6个名额,输球=无缘世界杯,意大利决战苦主

球场没跑道
2026-03-24 11:21:29
美国空袭伊拉克安巴尔省人民动员军总部,致15名成员死亡

美国空袭伊拉克安巴尔省人民动员军总部,致15名成员死亡

Nee看
2026-03-24 18:06:35
陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

史海孤雁
2026-03-24 17:26:17
充分认知违禁境外剧危害,各平台需压实“守门人”责任

充分认知违禁境外剧危害,各平台需压实“守门人”责任

十二师在线
2026-03-24 12:55:50
女子打小孩骨折后续: 身份被扒,已被拘留,家属发声: 坚决不和解

女子打小孩骨折后续: 身份被扒,已被拘留,家属发声: 坚决不和解

奇思妙想草叶君
2026-03-23 16:14:53
沈梦辰杜海涛正式解绑:四年婚姻,各自安好!

沈梦辰杜海涛正式解绑:四年婚姻,各自安好!

人间颂
2026-03-23 12:12:56
秦岭乱扔垃圾后续:燕镜男紧急道歉,工作单位曝光,不是公职人员

秦岭乱扔垃圾后续:燕镜男紧急道歉,工作单位曝光,不是公职人员

凡知
2026-03-24 15:51:20
于东来儿媳首次正面露面,颜值封神,和婆婆马丽撞脸像复制粘贴

于东来儿媳首次正面露面,颜值封神,和婆婆马丽撞脸像复制粘贴

往史过眼云烟
2026-03-23 19:27:43
在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

解读热点事件
2026-02-04 00:05:07
最自私的3个星座,有你吗?

最自私的3个星座,有你吗?

同道大叔
2026-03-24 22:02:24
张雪峰心脏骤停抢救传闻,助理回应惹网友猜疑,朋友圈露蛛丝马迹

张雪峰心脏骤停抢救传闻,助理回应惹网友猜疑,朋友圈露蛛丝马迹

爱写的樱桃
2026-03-24 19:57:34
最新披露:刺杀哈梅内伊的前48小时,内塔尼亚胡如何说服特朗普

最新披露:刺杀哈梅内伊的前48小时,内塔尼亚胡如何说服特朗普

上观新闻
2026-03-24 13:26:06
太疯狂!文班狂砍26+15创40年神迹

太疯狂!文班狂砍26+15创40年神迹

仰卧撑FTUer
2026-03-24 12:32:03
量化的刀太快,昨天涨停,今天跌停,化工龙头把散户都薅出火星

量化的刀太快,昨天涨停,今天跌停,化工龙头把散户都薅出火星

鹏哥投研
2026-03-24 10:51:13
穿纸尿裤的14岁少年,不幸离去

穿纸尿裤的14岁少年,不幸离去

新京报
2026-03-24 08:55:55
小朋友说过最离谱的话是啥?网友:哈哈哈,这个画面感也太强了点

小朋友说过最离谱的话是啥?网友:哈哈哈,这个画面感也太强了点

带你感受人间冷暖
2026-02-05 02:09:15
《冬去春来》直到冯铁友秘密被揭露,才知徐胜利最后结局是什么!

《冬去春来》直到冯铁友秘密被揭露,才知徐胜利最后结局是什么!

临云史策
2026-03-24 15:08:56
资本想“零元购”胖东来?于东来一招“分钱”破局

资本想“零元购”胖东来?于东来一招“分钱”破局

流苏晚晴
2026-03-19 18:05:53
2026-03-25 00:19:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2611723文章数 6101关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

头条要闻

张雪峰因心源性猝死抢救无效去世 终年41岁

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

教育
时尚
亲子
房产
军事航空

教育要闻

上音召开2026届毕业生就业创业工作推进会

豪门梦破碎后,她居然还能爆红?

亲子要闻

哎,为什么我的妈妈是个老外!

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

军事要闻

以色列媒体:美国计划于4月9日结束对伊朗战争

无障碍浏览 进入关怀版