网易首页 > 网易号 > 正文 申请入驻

陶哲轩携AI再战数学!o4-mini秒怂弃赛,Claude 20分钟通关

0
分享至

新智元报道

编辑:桃子

【新智元导读】陶哲轩YouTube视频第二弹震撼来袭!这一次,他让AI挑战在Lean中形式化代数蕴含证明,结果Claude约20分通关,o4-mini太过谨慎直接「弃赛」。

3天后,陶哲轩YouTube视频二更来了。

这次,他尝试了一种更短、更概念化的证明版本,并测试Claude、o4-mini能否基于之前的非形式和形式证明,生成类似的形式化代码。

实验的核心是,在Lean中形式化同一个代数蕴含的证明。

此外,他还发文深入剖析了,自动化工具不同尺度上的效率表现,以及自动化与人工干预之间的微妙平衡。

Claude 20分完成,o4-mini弃题

最新实验中,陶哲轩围绕一个代数蕴含展开(algebraic implication):证明方程1689蕴含方程2。

录制前,他已进行了一次测试。

这里直接在Claude/o4-mini中粘贴prompt,然后附上非形式证明、形式证明、方程三个附件。

接下来,一起看看这两个模型具体表现如何?

Claude

实验中,Claude整体表现出色,能够快速将非形式证明的单行,转化为看似合理的Lean代码。

它生成了与之前形式化证明结构相似的代码,并成功定义了关键的幂函数。

然而,陶哲轩创建一个新文件,在Claude编译过程中,却发现错误——它假设从自然数1开始,而Lean中的自然数从0开始。

另外,Claude未能正确处理方程的对称性,比如x=(y·x)·z,导致了证明逻辑出现偏差。

尽管单行代码生成高效,但缺乏对整体结构的理解,使得错误诊断和修复变得困难。

通过人工干预,陶哲轩修复了这些问题,最终在20分钟内完成形式化。

o4-mini

相比之下,o4-mini表现得更为谨慎。

与Claude类似,o4-mini一上来也创建了一个幂函数,却胜过前者。

它正确识别了幂函数定义中的问题,magmas中没有单位元1,因此不能简单假设0=>x设置为等于1。

然而,o4-mini在关键时刻却选择了「放弃」,仅生成了部分证明代码,并在修复步骤中输出「抱歉」。

最终,o4-mini未能完成形式化证明。

陶哲轩表示,它的谨慎策略虽避免了严重错误,但也限制了其在复杂任务中的实用性。

有趣的是,o4-mini和Claude同样遇到了类似对称性问题,表明LLM在处理数学逻辑的细微差别时,存在共同的局限。

总之,整个实验目标看似简单,即让AI工具将人类可读的证明转化为Lean代码,并在证明助手中成功编译。

然而,陶哲轩的实验揭示了自动化的复杂性,尤其是在效率和正确性之间的平衡。

100%过度自动化,毁掉数学未来?

在长达一周的自动形式化实验中,陶哲轩得出了一个教训——

即使纯粹专注于效率,仅接受在证明助手中实际编译并产生预期结果的形式化,衡量效率的尺度现在也产生了显著差异。

在形式化数学证明过程中,效率可以从以下四个不同尺度衡量。

1. 单形式化:加快证明中任意一行的形式化

2. 单一引理形式化:加快形式化证明中的任一引理

3. 单一证明形式化:加快形式化定理的任一证明

4. 「整个教科书」形式化:加快形式化整个教科书的成果

每个尺度看似都在指向同一个目标:更快地完成形式化。然而,实际操作中,这些尺度的优化策略可能互相冲突。

陶哲轩以自己最近的实验为例,尝试用一些自动化工具,加速形式化过程。

我意识到,许多当前的自动化工具可以在其中一个尺度上加速形式化,但出乎意料的是,过度依赖此类工具可能会削弱在其他尺度上形式化的能力。

比如,依赖类型匹配工具canonical在「单行形式化」(尺度1)的任务中,表现出色。

它能快速解析,并生成正确的代码,在此过程中,陶哲轩几乎无需手动干预。

然而,当过于依赖canonical,盲目接受它对某一步的解析,并迅速进入下一步时,他发现自己逐渐失去了对证明整体结构的把握。

这导致了,在「引理形式化」(尺度2)上,诊断和修复错误变得更加困难,因为到了此刻,陶哲轩对证明步骤之间的联系缺乏深入的理解。

有趣的是,修复这些错误的过程,却让陶哲轩本人受益匪浅。

通过手动检查和调整,他逐渐理解了引理之间的作用,这反过来提升了其解决「单一证明形式化」(尺度3)任务的能力。

这种「意外收获」让他意识到,完全依赖自动化工具,可能会让自己错过对证明结构的深刻洞察,而这些这些洞察在更大尺度上至关重要。

陶哲轩认为结论是,「最优的自动化水平并不是100%,而是介于0%和100%之间的某个值」。

从每个尺度上来说,自动化工具应该被用来减少重复性的繁琐工作,但同时必须保留足够的人为干预,以审查和修复局部问题,从加深人类对所有尺度任务结构的理解。

更广义地看,如果我们100%依赖自动化工具解决所有任务,可能会失去对任务空间的熟悉度。

在面对中等,甚至高难度任务时,自动化工具可靠性下降,我们却可能因缺乏经验而束手无策。

值得警醒的是,过度聚焦于单一尺度的效率优化,可能会违背数学形式化的长远目标。

其终极目标,不仅是生成在证明助手中编译的代码,更是要创造一个灵活、可用、不断演变且富有启发性的形式化数学语料库。

参考资料:

https://mathstodon.xyz/@tao/114498906474280949

https://mathstodon.xyz/@tao/114501119350851281

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

奇思妙想草叶君
2026-03-25 12:40:13
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

全景体育V
2026-03-26 08:16:09
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

大风新闻
2026-03-26 15:51:37
倒计时开始!特朗普将迎来终极翻车时刻!

倒计时开始!特朗普将迎来终极翻车时刻!

一个坏土豆
2026-03-25 20:56:19
女子在按摩店做理疗时被技师偷走金项链

女子在按摩店做理疗时被技师偷走金项链

新闻晨报随申Hi
2026-03-26 09:56:05
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
业绩狂飙200%!中国AI for Science第一股盈利,行业拐点已至

业绩狂飙200%!中国AI for Science第一股盈利,行业拐点已至

智药局
2026-03-25 22:34:23
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
伊朗对以色列发起导弹打击 以多地响起防空警报

伊朗对以色列发起导弹打击 以多地响起防空警报

财联社
2026-03-26 14:50:24
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

阿纂看事
2026-03-25 21:31:59
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

环球网资讯
2026-03-26 13:30:10
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
京牌不再稀缺,北京车市进入理性新阶段

京牌不再稀缺,北京车市进入理性新阶段

音乐时光的娱乐
2026-03-26 14:59:43
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

LULU生活家
2026-03-26 14:50:15
这一次,全新腾势Z9GT只为“颠覆”而来

这一次,全新腾势Z9GT只为“颠覆”而来

汽车公社
2026-03-26 08:32:46
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
2026-03-26 16:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
艺术
游戏
本地
公开课

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

艺术要闻

哪一座桥不是风景?

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版