网易首页 > 网易号 > 正文 申请入驻

缺钱但不缺洞见:刚刚,陶哲轩揭秘AI如何吞噬数学项目的灵魂!

0
分享至


新智元报道

编辑:犀牛

【新智元导读】大模型相当于奥数金牌生真的成立吗?陶哲轩的洞见:必须把AI研究中的隐性目标说清楚、管起来。与此同时,香港大学马毅教授团队参与发布的GAUSS框架,用三大领域、十二项技能给AI做数学体检,不只看对错,更挖推理、学习与创造力的短板。

陶哲轩最近的日子过得不太舒服。

他频频发声吐槽科研经费短缺,甚至还得抽出宝贵的时间和精力去到处筹款。


不过,作为当世最伟大的数学家之一,他并未停止研究探索。

这不,就在刚刚,他发表了一篇短博客,犀利地指出了当前AI数学研究中的一个核心问题——

AI虽然能够解决研究中的那些显性目标,但我们也付出了大量的隐形代价


AI研究中的隐性代价

数学家们的研究项目通常都会有一个终极目标,比如:「年底前,完成对数学定理X的证明。」

然而,在这个终极目标里,还隐藏着一些看不见、摸不着,却同样重要的东西。

它们没有被写在墙上,却存在于团队的每个人心中。

比如,我们希望通过这个项目:

  • 为开源数学库Mathlib贡献出可复用的代码;

  • 团队里的新手能在此过程中成长为独当一面的专家;

  • 在严谨的证明过程中,能碰撞出对定理X更深刻、更本质的理解;

  • 更重要的是,希望凝聚一个充满活力、热爱钻研的学术社区。

这些,就是项目中的「隐性目标」。


过去,科学家们很少为这些隐性目标担忧。

因为在一个由人类主导的项目里,所有这些隐形目标几乎都与写在墙上的那个「终极目标」相伴而生。

这个过程就像一位优秀的登山向导,他不仅要带领队伍登顶,更会在此过程中教会大家识别植物、阅读星空、团结协作。

登顶(显性目标)与团队成长(隐性目标)的实现,几乎是同一趟旅程的两个侧面。

然而,现在情况不同了。

正如陶哲轩指出的那样——AI的到来,使得之前的这种约定俗成面临前所未有的挑战。

一场关于项目目标的「隐性危机」,已经悄然降临。

AI破坏者与Goodhart定律

在深入陶哲轩的洞见之前,我们不妨先来理解一个他在博文中提到的经济学定律——Goodhart定律(Goodhart's law)。


它的核心思想用一句话就能概括:当一个「度量指标」被过度依赖并转化为「行为目标」时,这个指标将不再能准确反映其原本要衡量的真实状态,甚至会扭曲行为、偏离初始目标

听起来有点绕?举个栗子。

一家公司的客服中心,为了提升服务效率,设立了一个KPI:缩短平均通话时长

管理层认为,通话时间越短,意味着问题解决得越快,客户满意度自然就高。

最初,这个指标确实激励客服人员更高效地沟通。

但很快,为了追求极致的「短」,一些员工开始在遇到复杂问题时,巧妙地引导客户挂断电话,甚至直接挂断。

结果呢?

平均通话时长这个数字变得异常漂亮,但客户满意度却跌入谷底。

原本用于衡量效率的标尺,在成为被追逐的目标后,彻底失去了它原有的意义。

这就是Goodhart定律——它像一面镜子,照出了系统中的投机取巧和目标的异化。


不幸的是,按照陶哲轩的洞见,AI——尤其是那些强大的优化算法——正是Goodhart定律最忠实、也是最极致的执行者。

给AI一个明确的目标,它就会像一个无比强大、绝对专注,却又近乎天真的「阿拉丁神灯」,动用全部算力、不惜一切代价去实现所谓的「终极目标」,而完全忽略那些也许是同样重要的「隐形目标」。

陶哲轩的这些担忧,正在他所熟悉的数学形式化证明领域发生。

回到上文中的场景。

那个「完成定理X证明」的显性目标,如果交给一个人类团队,他们为了构建一个优雅、可读、可维护的证明,自然会去打磨那些基础定义和引理,这些成果顺理成章地就能被整合进Mathlib,惠及整个学术圈。

在这个过程中,新手通过模仿、学习和实践,逐渐掌握了核心技能;团队成员之间的讨论、争辩与合作,本身就深化了对数学结构的理解,并加强了社区的凝聚力。

但如果将这个任务交给一个超级AI呢?

在AI的目标函数里,只有一行冷冰冰的指令:「找到一条从公理到定理X的逻辑路径」。

它可能会在几小时内,生成一个长达数万行、逻辑上无懈可击,但人类完全无法阅读、无法理解、无法复用的证明。

它可能绕过所有常规的、优美的引理,用一种我们前所未见的、诡异的「捷径」直达终点。

从显性目标来看,AI取得了100分的完美成绩。

但那些隐性目标呢?

  • 对Mathlib的贡献? 零。这份天书般的证明基本上毫无复用价值。

  • 新人的成长? 零。没有人能从中学到任何东西。

  • 深化对数学的理解? 可能是负分。它甚至可能破坏我们对「好的证明」的品味。

  • 社区的建设? 零。整个过程是黑箱操作,没有人与人之间的互动。

AI以其极致的效率,在达成显性目标的同时,精准地「优化」掉了所有我们珍视的、却未曾明确声明的隐性价值。

它完美地登上了山顶,却把整片森林夷为平地

陶哲轩的建议

陶哲轩没有将矛头指向AI本身,而是指向了我们人类自己——项目的设计者和管理者。

他提醒我们,在AI日益成为强大工具的今天,我们不能再依赖过去那种约定俗成的默契。

必须做出更艰苦的努力,去审视、去挖掘、去明确定义那些我们曾经认为「理所当然」的隐性目标。

这意味着,项目管理者需要从「指标的设定者」转变为「价值的诠释者」。


在启动一个项目前,需要组织一场更深入的讨论,不仅要问做什么,更要反复追问为什么要做这件事,以及在这个过程中,我们希望获得哪些「副产品」。

比如:

  • 我们追求的,仅仅是软件代码的最终交付,还是一个高内聚、可传承的开发团队?

  • 我们想要的,仅仅是一个抓人眼球的广告文案,还是一个能沉淀品牌价值、引发用户情感共鸣的故事?

  • 我们需要的,仅仅是一个数学定理的冰冷证明,还是一个能启发后人、枝繁叶茂的知识体系?

这些问题,在AI时代变得无比尖锐与迫切。

GAUSS:不止测评AI的答案

好消息是,陶哲轩的这些担忧正被越来越多的数学家们看到。

更重要的是,他们中的一些杰出代表已经给出了一些解决的方案。

近日,一群来自国际顶尖大学(伯克利、加州理工、斯坦福、华盛顿大学等)数学系的博士(大部分是曾经的奥数金牌得主),以及香港大学计算与数据科学学院院长、AI讲座教授马毅对最新的GPT5等模型各方面的数学能力进行了全面、专业、客观的验证。

AI们的数学能力到底如何了?

为此,他们发布了一个长达120页的报告,提出了如何对大语言模型数学能力进行专业评价的框架——GAUSS。



项目地址:https://gaussmath.ai/


报告地址:https://drive.google.com/file/d/1ka15SjUl2FhzQMPOv4GQyyu5rb0tVAJT/view

GAUSS旨在系统地分解和评估问题解决所依赖的核心认知技能。

与现有数据集不同,GAUSS不仅检查最终答案——它还评估知识、概念理解、问题解决策略、沟通、学习和创造力等维度,为模型的能力和局限性提供全面评估。

GAUSS的目标:

  • 能力拆分:把模型的本事拆成12个维度,一项项评估,用像「雷达图」那样的方式一眼看出哪里强、哪里弱。

  • 防题熟:不光用GSM8K、MATH这些老基准,多加更难的题,比如奥赛题、研课作业、研究型题目,别靠刷熟题拿高分。

  • 防泄题:精挑细选题目,确保是模型训练时没见过的,这样评测才公平、靠谱。

GAUSS将数学能力划分为三大领域、十二项技能:

  1. 数学知识与理解:数学知识记忆、知识与理论的理解

  2. 计算与分析能力:问题求解与沟通、解题框架、逻辑思维与推理、书写与呈现

  3. 学习、元技能与创造力:学习新知识、直觉、元技能、数学建模、泛化、创造力

这一结构从基础的知识回忆到创造性的命题,全面拆解了数学认知的各个层面。

GAUSS官网还给出了一些他们测试的实例,更多实例可以在项目官网查看。


归根结底,GAUSS不只是一个基准测试那么简单,它标志着方法论的转变——从「模型有没有解出题?」转向「按技能维度看,模型的强项和短板是什么?」

通过同时揭示优势与薄弱环节,GAUSS为打造下一代AI系统提供了路线图:不止于产出答案,而能展现真正的推理、学习与发现能力。

而这,恰好呼应了陶哲轩的担忧——我们不能只看AI给出的答案,还要考虑其他的「隐形项目」。

相信随着越来越多的研究人员注意到这些问题,也会得到越来越多的像GAUSS这样的应对方案。

参考资料:

https://mathstodon.xyz/@tao/115196924307085967

https://gaussmath.ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
伊朗高层48小时转移15亿美元出境,哈梅内伊儿子转了3.28亿美元

伊朗高层48小时转移15亿美元出境,哈梅内伊儿子转了3.28亿美元

桂系007
2026-01-15 14:15:21
宝能姚振华实名举报,相关部门回应:举报不实,拍卖正常推进

宝能姚振华实名举报,相关部门回应:举报不实,拍卖正常推进

南方都市报
2026-01-15 11:04:11
原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

以茶带书
2026-01-15 14:14:27
开年暴击,四川某光伏巨头清仓式裁员!

开年暴击,四川某光伏巨头清仓式裁员!

黯泉
2026-01-15 10:59:17
湖南小女孩突发心脏病死亡后:知情人曝更多,母亲已社死,恐担责

湖南小女孩突发心脏病死亡后:知情人曝更多,母亲已社死,恐担责

阿纂看事
2026-01-15 14:09:01
好友见证贺娇龙从苦孩子成长为“推介官”,多人已赶赴昭苏送她最后一程,有摄影师缺席她最后一次拍摄遗憾自责

好友见证贺娇龙从苦孩子成长为“推介官”,多人已赶赴昭苏送她最后一程,有摄影师缺席她最后一次拍摄遗憾自责

极目新闻
2026-01-15 17:46:12
噩耗传来不足1天,恶心一幕出现,“贪心”的贺娇龙被批演过头了

噩耗传来不足1天,恶心一幕出现,“贪心”的贺娇龙被批演过头了

有范又有料
2026-01-15 15:54:50
女子因厨师长一句不干就滚,在店门口躺了四天,店家还立一块牌子

女子因厨师长一句不干就滚,在店门口躺了四天,店家还立一块牌子

社会日日鲜
2026-01-15 06:52:20
9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

有范又有料
2026-01-15 15:26:30
千亿换来百万辆,赛力斯交给华为的天价学费到底值不值?

千亿换来百万辆,赛力斯交给华为的天价学费到底值不值?

汽车十三行
2026-01-15 09:22:09
山姆中国一年卖 1400 亿、增长 40%:不是超市不行,是“靠收地租”的零售走不通了!

山姆中国一年卖 1400 亿、增长 40%:不是超市不行,是“靠收地租”的零售走不通了!

新浪财经
2026-01-15 00:06:03
16亿只是保底,马斯克想给朱晓彤的是100亿

16亿只是保底,马斯克想给朱晓彤的是100亿

字母榜
2026-01-15 14:44:13
机场偶遇宋佳,姐真的是老了,面部松弛下垂严重,岁月是把杀猪刀

机场偶遇宋佳,姐真的是老了,面部松弛下垂严重,岁月是把杀猪刀

温读史
2026-01-15 11:48:44
聂卫平曾多次和邓小平打桥牌:老爷子牌技比我好得多,但出错牌也会虚心听取批评

聂卫平曾多次和邓小平打桥牌:老爷子牌技比我好得多,但出错牌也会虚心听取批评

极目新闻
2026-01-15 15:09:28
凑凑火锅郑州门店清零?呷哺呷哺回应

凑凑火锅郑州门店清零?呷哺呷哺回应

鲁中晨报
2026-01-15 14:11:08
盘后央行重磅利好!降息来了,A股午盘走强,ETF出现天量抛盘

盘后央行重磅利好!降息来了,A股午盘走强,ETF出现天量抛盘

看财经show
2026-01-15 16:57:15
裁判文书上网隐去法官姓名,破了“几十年的规矩”

裁判文书上网隐去法官姓名,破了“几十年的规矩”

中国新闻周刊
2026-01-15 12:29:36
强冷空气+冻雨已在路上!重庆天气即将“变脸”......

强冷空气+冻雨已在路上!重庆天气即将“变脸”......

鲁中晨报
2026-01-15 18:39:05
闫学晶一家三口现身机场!疑似遇到麻烦,老公不停打电话面露难色

闫学晶一家三口现身机场!疑似遇到麻烦,老公不停打电话面露难色

阿纂看事
2026-01-15 15:56:31
2026-01-15 19:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14339文章数 66490关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美方就伊朗局势密集发声 专家:动武的后果将十分严重

头条要闻

美方就伊朗局势密集发声 专家:动武的后果将十分严重

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

家居
房产
数码
游戏
手机

家居要闻

自在自宅 个性自由

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

数码要闻

定档1月29日!AMD Ryzen 7 9850X3D发售时间已经确认

一次性角色:《生化》14年未回归的角色被遗忘了吗?

手机要闻

小米公布2026年国补支持区域:叠加科技年货节优惠,至高6折

无障碍浏览 进入关怀版