网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

缺钱但不缺洞见：刚刚，陶哲轩揭秘AI如何吞噬数学项目的灵魂！

2025-09-14 17:36:46　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：犀牛

【新智元导读】大模型相当于奥数金牌生真的成立吗？陶哲轩的洞见：必须把AI研究中的隐性目标说清楚、管起来。与此同时，香港大学马毅教授团队参与发布的GAUSS框架，用三大领域、十二项技能给AI做数学体检，不只看对错，更挖推理、学习与创造力的短板。

陶哲轩最近的日子过得不太舒服。

他频频发声吐槽科研经费短缺，甚至还得抽出宝贵的时间和精力去到处筹款。

不过，作为当世最伟大的数学家之一，他并未停止研究探索。

这不，就在刚刚，他发表了一篇短博客，犀利地指出了当前AI数学研究中的一个核心问题——

AI虽然能够解决研究中的那些显性目标，但我们也付出了大量的隐形代价。

AI研究中的隐性代价

数学家们的研究项目通常都会有一个终极目标，比如：「年底前，完成对数学定理X的证明。」

然而，在这个终极目标里，还隐藏着一些看不见、摸不着，却同样重要的东西。

它们没有被写在墙上，却存在于团队的每个人心中。

比如，我们希望通过这个项目：

为开源数学库Mathlib贡献出可复用的代码；
团队里的新手能在此过程中成长为独当一面的专家；
在严谨的证明过程中，能碰撞出对定理X更深刻、更本质的理解；
更重要的是，希望凝聚一个充满活力、热爱钻研的学术社区。

这些，就是项目中的「隐性目标」。

过去，科学家们很少为这些隐性目标担忧。

因为在一个由人类主导的项目里，所有这些隐形目标几乎都与写在墙上的那个「终极目标」相伴而生。

这个过程就像一位优秀的登山向导，他不仅要带领队伍登顶，更会在此过程中教会大家识别植物、阅读星空、团结协作。

登顶（显性目标）与团队成长（隐性目标）的实现，几乎是同一趟旅程的两个侧面。

然而，现在情况不同了。

正如陶哲轩指出的那样——AI的到来，使得之前的这种约定俗成面临前所未有的挑战。

一场关于项目目标的「隐性危机」，已经悄然降临。

AI破坏者与Goodhart定律

在深入陶哲轩的洞见之前，我们不妨先来理解一个他在博文中提到的经济学定律——Goodhart定律（Goodhart's law）。

它的核心思想用一句话就能概括：当一个「度量指标」被过度依赖并转化为「行为目标」时，这个指标将不再能准确反映其原本要衡量的真实状态，甚至会扭曲行为、偏离初始目标。

听起来有点绕？举个栗子。

一家公司的客服中心，为了提升服务效率，设立了一个KPI：缩短平均通话时长。

管理层认为，通话时间越短，意味着问题解决得越快，客户满意度自然就高。

最初，这个指标确实激励客服人员更高效地沟通。

但很快，为了追求极致的「短」，一些员工开始在遇到复杂问题时，巧妙地引导客户挂断电话，甚至直接挂断。

结果呢？

平均通话时长这个数字变得异常漂亮，但客户满意度却跌入谷底。

原本用于衡量效率的标尺，在成为被追逐的目标后，彻底失去了它原有的意义。

这就是Goodhart定律——它像一面镜子，照出了系统中的投机取巧和目标的异化。

不幸的是，按照陶哲轩的洞见，AI——尤其是那些强大的优化算法——正是Goodhart定律最忠实、也是最极致的执行者。

给AI一个明确的目标，它就会像一个无比强大、绝对专注，却又近乎天真的「阿拉丁神灯」，动用全部算力、不惜一切代价去实现所谓的「终极目标」，而完全忽略那些也许是同样重要的「隐形目标」。

陶哲轩的这些担忧，正在他所熟悉的数学形式化证明领域发生。

回到上文中的场景。

那个「完成定理X证明」的显性目标，如果交给一个人类团队，他们为了构建一个优雅、可读、可维护的证明，自然会去打磨那些基础定义和引理，这些成果顺理成章地就能被整合进Mathlib，惠及整个学术圈。

在这个过程中，新手通过模仿、学习和实践，逐渐掌握了核心技能；团队成员之间的讨论、争辩与合作，本身就深化了对数学结构的理解，并加强了社区的凝聚力。

但如果将这个任务交给一个超级AI呢？

在AI的目标函数里，只有一行冷冰冰的指令：「找到一条从公理到定理X的逻辑路径」。

它可能会在几小时内，生成一个长达数万行、逻辑上无懈可击，但人类完全无法阅读、无法理解、无法复用的证明。

它可能绕过所有常规的、优美的引理，用一种我们前所未见的、诡异的「捷径」直达终点。

从显性目标来看，AI取得了100分的完美成绩。

但那些隐性目标呢？

对Mathlib的贡献？零。这份天书般的证明基本上毫无复用价值。
新人的成长？零。没有人能从中学到任何东西。
深化对数学的理解？可能是负分。它甚至可能破坏我们对「好的证明」的品味。
社区的建设？零。整个过程是黑箱操作，没有人与人之间的互动。

AI以其极致的效率，在达成显性目标的同时，精准地「优化」掉了所有我们珍视的、却未曾明确声明的隐性价值。

它完美地登上了山顶，却把整片森林夷为平地。

陶哲轩的建议

陶哲轩没有将矛头指向AI本身，而是指向了我们人类自己——项目的设计者和管理者。

他提醒我们，在AI日益成为强大工具的今天，我们不能再依赖过去那种约定俗成的默契。

必须做出更艰苦的努力，去审视、去挖掘、去明确定义那些我们曾经认为「理所当然」的隐性目标。

这意味着，项目管理者需要从「指标的设定者」转变为「价值的诠释者」。

在启动一个项目前，需要组织一场更深入的讨论，不仅要问做什么，更要反复追问为什么要做这件事，以及在这个过程中，我们希望获得哪些「副产品」。

比如：

我们追求的，仅仅是软件代码的最终交付，还是一个高内聚、可传承的开发团队？
我们想要的，仅仅是一个抓人眼球的广告文案，还是一个能沉淀品牌价值、引发用户情感共鸣的故事？
我们需要的，仅仅是一个数学定理的冰冷证明，还是一个能启发后人、枝繁叶茂的知识体系？

这些问题，在AI时代变得无比尖锐与迫切。

GAUSS：不止测评AI的答案

好消息是，陶哲轩的这些担忧正被越来越多的数学家们看到。

更重要的是，他们中的一些杰出代表已经给出了一些解决的方案。

近日，一群来自国际顶尖大学(伯克利、加州理工、斯坦福、华盛顿大学等)数学系的博士(大部分是曾经的奥数金牌得主)，以及香港大学计算与数据科学学院院长、AI讲座教授马毅对最新的GPT5等模型各方面的数学能力进行了全面、专业、客观的验证。

AI们的数学能力到底如何了？

为此，他们发布了一个长达120页的报告，提出了如何对大语言模型数学能力进行专业评价的框架——GAUSS。

项目地址：https://gaussmath.ai/

报告地址：https://drive.google.com/file/d/1ka15SjUl2FhzQMPOv4GQyyu5rb0tVAJT/view

GAUSS旨在系统地分解和评估问题解决所依赖的核心认知技能。

与现有数据集不同，GAUSS不仅检查最终答案——它还评估知识、概念理解、问题解决策略、沟通、学习和创造力等维度，为模型的能力和局限性提供全面评估。

GAUSS的目标：

能力拆分：把模型的本事拆成12个维度，一项项评估，用像「雷达图」那样的方式一眼看出哪里强、哪里弱。
防题熟：不光用GSM8K、MATH这些老基准，多加更难的题，比如奥赛题、研课作业、研究型题目，别靠刷熟题拿高分。
防泄题：精挑细选题目，确保是模型训练时没见过的，这样评测才公平、靠谱。

GAUSS将数学能力划分为三大领域、十二项技能：

数学知识与理解：数学知识记忆、知识与理论的理解
计算与分析能力：问题求解与沟通、解题框架、逻辑思维与推理、书写与呈现
学习、元技能与创造力：学习新知识、直觉、元技能、数学建模、泛化、创造力

这一结构从基础的知识回忆到创造性的命题，全面拆解了数学认知的各个层面。

GAUSS官网还给出了一些他们测试的实例，更多实例可以在项目官网查看。

归根结底，GAUSS不只是一个基准测试那么简单，它标志着方法论的转变——从「模型有没有解出题？」转向「按技能维度看，模型的强项和短板是什么？」

通过同时揭示优势与薄弱环节，GAUSS为打造下一代AI系统提供了路线图：不止于产出答案，而能展现真正的推理、学习与发现能力。

而这，恰好呼应了陶哲轩的担忧——我们不能只看AI给出的答案，还要考虑其他的「隐形项目」。

相信随着越来越多的研究人员注意到这些问题，也会得到越来越多的像GAUSS这样的应对方案。

参考资料：

https://mathstodon.xyz/@tao/115196924307085967

https://gaussmath.ai/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

谷歌AlphaEvolve太香了，陶哲轩甚至发了篇论文，启发数学新构造

机器之心Pro 2025-11-06 17:28:11
0 跟贴 0
陶哲轩力推AlphaEvolve：多个难题中超越人类最优解

量子位 2025-11-07 17:13:46
4 跟贴 4

一个叫高斯的AI，只用了三周完成强素数定理

量子位 2025-09-20 00:57:38
0 跟贴 0

AI带货频频“翻车”，谁应负责？

虎嗅APP 2025-11-08 02:46:10
0 跟贴 0
34岁王虹惊呆数学界！两天横扫国际奖，难怪韦神都追着听她讲课

春秋论娱 2025-11-06 15:10:53
9 跟贴 9

70岁保洁员的数学梦

新京报 2025-11-07 07:54:46
1 跟贴 1

数学书也可以有趣有温度

金台资讯 2025-11-07 06:16:50
1 跟贴 1
填写不同的自然数，这种万能方法一定要会

郎老师趣味数学课堂 2025-11-07 11:13:33
1 跟贴 1

小升初几何题：连结OE看看是否一目了然

公考客栈店小二 2025-11-04 14:30:00
1 跟贴 1
半径为10的扇形中有两个半圆相切，求阴影部分面积

公考客栈店小二 2025-11-06 16:00:00
0 跟贴 0
高中数学专题点关于直线对称性问题，注意隐藏条件的挖掘和应用

唐老师小课堂 2025-11-06 12:59:44
0 跟贴 0
小升初几何题难倒了无数考生，就连学霸也摇头

公考客栈店小二 2025-11-06 08:36:00
0 跟贴 0
来上课了——高一下核心词汇讲解（三）第1段

沙中的世界 2025-11-07 23:22:41
3 跟贴 3
高中数学专题不等式的解集应用，结合对数与指数函数的性质解决

唐老师小课堂 2025-11-06 12:57:43
0 跟贴 0
四年级奥数，全班50人，仅3人做对

郎老师趣味数学课堂 2025-11-06 08:35:05
0 跟贴 0
有同学说太难了，可有同学说so easy！你认为呢

公考客栈店小二 2025-11-05 10:45:00
0 跟贴 0
小升初几何题，难倒了不少小学毕业生

公考客栈店小二 2025-11-06 22:49:20
5 跟贴 5
求面积的几何题，难倒了不少孩子

公考客栈店小二 2025-11-07 12:30:00
0 跟贴 0
三年级奥数，不要一个个地试了，这种方法太好了用了

郎老师趣味数学课堂 2025-11-07 11:17:02
0 跟贴 0
青年路小学学子闪耀数学学术年会：共赴“数量关系”的智慧盛宴

网易山西 2025-11-05 16:44:49
0 跟贴 0
有的说太难了，可有的说看到题就会秒出答案！你认为难吗

公考客栈店小二 2025-11-05 10:30:00
0 跟贴 0
悲剧！一名27岁研究生被发现在实验室身亡

超级数学建模 2025-11-07 23:07:28
9 跟贴 9
高一数学基础题目利用基本不等式求3x+2y的最小值

三乐大掌柜 2025-11-03 13:52:41
6 跟贴 6
比例模型是如何能准确模拟全尺寸船只行为的？！

大哥搞笑配音 2025-11-07 11:13:12
1 跟贴 1
1.7万亿俄罗斯高铁项目！中企意外出局，为何转投欧洲？

一饮山河 2025-11-05 16:04:57
0 跟贴 0
高中数学基本不等式求分式最小值，如何求解此题？

三乐大掌柜 2025-11-04 14:35:52
5 跟贴 5
小升初奥数培优专题多个分数的和的计算，裂项法的规律化简求解

唐老师小课堂 2025-11-06 12:52:37
0 跟贴 0
看似很简单，但是很多孩子都没有思路

公考客栈店小二 2025-11-06 09:36:00
0 跟贴 0
开题报告很重要，听我给你耍一套～

正儿八经的陈老师 2025-11-05 10:38:28
0 跟贴 0
二次函数字母系数终极大总结！

大鹏老师讲数学 2025-11-06 19:32:09
5 跟贴 5
9岁男孩思路清晰轻松解开题目，网友：这题你会怎么解？

河南都市频道 2025-11-07 14:26:55
0 跟贴 0
杭州一小区物业退出不干了，选聘进场4年，称业主拖欠物业费1200多万元

大风新闻 2025-11-07 08:57:02
15728 跟贴 15728
国外小哥用钢丝制造独一无二的飞机模型

奇奇趣世界 2025-11-07 09:45:48
3 跟贴 3
2025年上海市运筹学会学术年会暨上海市科协学术年会“数学+医疗”平行论坛成功举办 | 学会事

上观新闻 2025-11-07 22:49:14
1 跟贴 1
青年路小学东山分校七巧板“拼”出数学作业新精彩

网易山西 2025-11-05 10:03:28
0 跟贴 0
【向阳·探数】趣味数学伴成长实践探索乐无穷

商讯 2025-11-07 09:45:33
0 跟贴 0
紫东路小学：探案闯关识图形数学课堂真有趣

大象新闻 2025-11-07 20:10:03
0 跟贴 0
记住这些关键词！选择题多考10分！

胜利老师讲一消 2025-11-05 13:46:03
1 跟贴 1
小学数学讲题小美女【11】

讲题课堂 2025-11-06 12:26:37
5 跟贴 5
高思｜让普娃数学逆袭的好课，双十一福利来了

萌芽研究所BUD 2025-11-06 21:44:16
0 跟贴 0

这届网友要「造反」了！雷军抖音视频首次遭举报下架

这届网友要「造反」了！雷军抖音视频首次遭举报下架

汽车有文化

2025-11-07 20:33:15

量子科技入列“十五五”！8家硬核企业加速落地，抢占万亿赛道

量子科技入列“十五五”！8家硬核企业加速落地，抢占万亿赛道

Thurman在昆明

2025-11-07 13:51:53

恭喜！23岁落选港姐正式签约TVB，前艺人爸爸分享喜悦

恭喜！23岁落选港姐正式签约TVB，前艺人爸爸分享喜悦

日落于西

2025-11-07 17:02:50

企业25%企业所得税、20%分红个税，核定征收，统统按照0.3%征收！

企业25%企业所得税、20%分红个税，核定征收，统统按照0.3%征收！

七橘姐姐

2025-10-09 16:30:15

福建舰服役，新华社通稿，这四个字出现7次，美驻华使馆一言不发

福建舰服役，新华社通稿，这四个字出现7次，美驻华使馆一言不发

潮鹿逐梦

2025-11-07 14:23:36

史上最大军售黄了？埃及刚要买中国歼-10，转头签美国332亿大单

史上最大军售黄了？埃及刚要买中国歼-10，转头签美国332亿大单

起喜电影

2025-11-07 14:12:23

知名大牌关店近千家！上海仍有数百家，很多人买过；网友意外：不应该啊

知名大牌关店近千家！上海仍有数百家，很多人买过；网友意外：不应该啊

新民晚报

2025-11-07 22:19:29

一种新型 “软啃老”正在扩散：40岁子女不伸手要钱不蹭住，却用这2种方式拖垮父母

一种新型 “软啃老”正在扩散：40岁子女不伸手要钱不蹭住，却用这2种方式拖垮父母

有故事的人

2025-11-04 06:17:05

反转？波蒂斯：字母哥见义勇为是假的，若是真的早就有视频流出了

反转？波蒂斯：字母哥见义勇为是假的，若是真的早就有视频流出了

懂球帝

2025-11-07 15:37:11

这一次当众落泪的陈芋汐，给全红婵提了个醒，原来周继红说的没错

这一次当众落泪的陈芋汐，给全红婵提了个醒，原来周继红说的没错

小鬼头体育

2025-11-08 01:47:10

台当局抗议，要求大陆允许赴陆参会，国台办提条件：不答应就别来

台当局抗议，要求大陆允许赴陆参会，国台办提条件：不答应就别来

博览历史

2025-11-06 20:54:03

摊牌了！郭德纲1天喜提3个新身份，全网恭喜，于谦一个字都没说错

摊牌了！郭德纲1天喜提3个新身份，全网恭喜，于谦一个字都没说错

丁丁鲤史纪

2025-11-07 18:23:19

和男友挑新家具准备同居，他去接电话时，导购阿姨一句话我愣住了

和男友挑新家具准备同居，他去接电话时，导购阿姨一句话我愣住了

红豆讲堂

2025-11-02 17:20:03

现在我才明白，为什么农村光棍越来越多

现在我才明白，为什么农村光棍越来越多

加油丁小文

2025-11-07 05:30:03

马塔：我想继续证明我依然能享受足球，并且保持高水平状态

马塔：我想继续证明我依然能享受足球，并且保持高水平状态

懂球帝

2025-11-07 09:25:12

李显龙预言：印度经济终将超越中国！

李显龙预言：印度经济终将超越中国！

荆楚寰宇文枢

2025-11-07 21:49:01

郭晶晶也没想到，79岁公公霍震霆再破天花板，让整个豪门圈沉默了

郭晶晶也没想到，79岁公公霍震霆再破天花板，让整个豪门圈沉默了

阿讯说天下

2025-11-06 17:47:45

荷兰政府花200亿挽留无效，光刻机巨头ASML为何执意从老家搬走？

荷兰政府花200亿挽留无效，光刻机巨头ASML为何执意从老家搬走？

凡知

2025-11-06 11:38:13

万万没想到王家卫报应来的太快了！刘嘉玲梁朝伟晒出三人亲密合影

万万没想到王家卫报应来的太快了！刘嘉玲梁朝伟晒出三人亲密合影

乐悠悠娱乐

2025-11-07 10:22:15

明明是抢来的，反当“筹码”跟中国提条件…

明明是抢来的，反当“筹码”跟中国提条件…

观察者网

2025-11-07 22:12:04

AI产业主平台领航智能+时代

13811文章数 66238关注度

往期回顾全部

科技要闻

75%赞成！特斯拉股东同意马斯克天价薪酬

头条要闻

奥巴马意外现身庆祝胜利

头条要闻

奥巴马意外现身庆祝胜利

体育要闻

是天才更是强者，18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府：安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心林肯航海家场地试驾

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

时尚

健康

亲子

公开课

家居要闻

现代自由功能美学居所

“这条围巾”才是今年的顶流单品，时髦的女人都有它

超声探头会加重受伤情况吗？

亲子要闻

教育部等三部门：科学保护儿童远视储备量

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版