网易首页 > 网易号 > 正文 申请入驻

Copilot上大分,仅数天,陶哲轩的估计验证工具卷到2.0!

0
分享至

机器之心报道

编辑:杜伟、大盘鸡

本周二,我们报道了菲尔兹奖得主陶哲轩的一个开源项目 ——在大模型的协助下编写了一个概念验证软件工具,来验证涉及任意正参数的给定估计是否成立(在常数因子范围内)。

在项目中,他开发了一个用于自动(或半自动)证明分析中估计值的框架。估计值是 X≲Y(在渐近记法中表示 X=O (Y))或 X≪Y(在渐近符号中表示 X=o (Y))形式的不等式。

这才几天的时间,这个估计验证工具的 2.0 版本就来了!

陶哲轩对该工具进行了两次全面改进。

首先,他将其改造成一个基础的证明助手(proof assistant),同时能够处理一些命题逻辑;接着,他根据评论者的反馈,将其改造成一个更加灵活的证明助手(在几个关键方面特意模仿了 Lean 证明助手),它也由功能强大的 Python 符号代数包 sympy 提供支持。

陶哲轩认为现在得到了一个稳定的框架,并可以进一步扩展该工具。他最初的目标只是自动化(或半自动化)标量函数渐近估计的证明,但原则上可以继续向该工具添加策略、新的 sympy 类型和引理,以处理范围广泛的其他数学任务。

该证明助手的 2.0 版本已经上传到了 GitHub。同样地,与自己以前的编码一样,陶哲轩最终「严重」依赖大语言模型的帮助来理解 Python 和 sympy 的一些细节,其中 Github Copilot 的自动补全功能尤其有用。

虽然该工具支持全自动证明,但陶哲轩决定现在更多地关注半自动交互式证明,其中人类用户提供高级「策略」,然后证明助手执行必要的计算,直到证明完成。

GitHub 地址:https://github.com/teorth/estimates

根据项目简介,这是一个利用 Python 开发的轻量级证明助手,其功能远逊于 Lean、Isabelle 或 Rocq 等完整证明助手,但希望它能够轻松用于证明一些简短而繁琐的任务,例如验证一个不等式或估计是否由其他不等式或估计推导出来。该助手的一个具体目标是为渐近估计(asymptotic estimates)提供支持。

具体实现过程

下载相关文件后,即可在 Python 中启动证明助手,只需输入「from main import *」并加载一个预先制作的练习即可。以下是其中一个练习:

这是证明助手对以下问题的形式化描述:如果 x, y, z 是正实数,且 x<2y 且 y<3z+1,则证明 x<7z+2。

证明助手的工作方式是:用户指示助手使用各种「策略」来简化问题,直到问题得到解决。在本例中,该问题可以通过线性算法求解,具体形式化为「Linarith ()」策略:

如果有人想更详细地了解线性算法的工作原理,可以使用「verbose」标志(flag)来运行此策略。

有时,证明过程会涉及情况拆分,最终的证明会呈现出树状结构。这里有个例子:其务是证明假设 (x>-1)∧(x<1) 且 (y>-2)∧(y<2) 蕴涵 (x+y>-3)∧(x+y<3):

这里,根据使用的三种策略对证明进行「伪精益」描述:策略「cases h」 1 对假设「 h1」进行情况拆分,然后在两种情况下分别应用「simp_all」策略来简化。

该工具支持渐近估计。陶哲轩找到了一种在 Sympy 中实现量级形式化的方法。事实证明,Sympy 在某种意义上已经可以原生实现非标准分析:它的符号变量有一个「is_number」标志,基本上对应于非标准分析中「标准」数的概念。

举例而言,数字 3 的「sympy」版本「S (3)」有「S (3).is_number == True」,因此是标准的;而整数变量「n = Symbol ("n", integer=true)」有「n.is_number == False 」,因此是非标准的。

对数线性规划求解器还可以通过相当强力的「分支」方法处理低阶项。

陶哲轩计划开始开发用于估计符号函数的函数空间范数工具,例如创建一些策略来部署诸如 Holder 不等式和 Sobolev 嵌入不等式之类的引理。Sympy 框架看起来足够灵活,可以为这些类型的对象创建更多对象类。目前,他只有一个概念验证引理来说明这个框架,即算术平均 - 几何平均(arithmetic mean-geometric mean)引理。

陶哲轩最后表示,他对这个证明助手的基本框架非常满意,因此愿意接受进一步的建议或新功能的贡献,例如引入新的数据类型、引理和策略,或者一些示例问题。这些问题应该很容易被这个助手解决,但目前由于缺乏合适的策略和引理而超出了它的能力。

数学形式化证明实验纪实

而就在刚刚,陶哲轩又发了一个新项目。

他最近尝试了一个小实验:尝试利用现代自动化工具(如 GitHub Copilot 和 Lean 证明助手)来半自动地形式化一个一页纸的数学证明。这个证明来自他在 Equational Theories Project 中的合作者 Bruno Le Floch。

  • 视频演示:https://www.youtube.com/watch?v=cyyR7j2ChCI
  • 讨论地址:https://leanprover.zulipchat.com/#narrow/channel/458659-Equational/topic/Alternative.20proofs.20of.20E1689.E2.8A.A2E2
  • GitHub 链接:https://github.com/teorth/estimate_tools/blob/master/EstimateTools/test/equational.lean

陶哲轩尝试「盲做」这个证明,即不真正理解证明结构的前提下,直接用工具去拼出形式化过程。他用约 33 分钟完成了形式化过程。对他来说,这是一种很不一样的工作方式 —— 不靠对整个证明的大局理解,而是完全依赖于工具处理逻辑细节。

在 Zulip 讨论中,Bruno Le Floch 最初指出,在论文中「E1689-E2 的所有已知证明都是计算机辅助」这一说法太绝对了。他自己后来给出了一个更具可读性的「人类版本」,虽有些步骤灵感来自 prover9,但整体不应算作纯计算机证明。

陶哲轩回应:那我们可以更新 blueprint,并在论文中注明我们在项目中得到了一个非计算机生成的版本。

故事就此开始,陶哲轩选择做一个实验。「我尝试完全基于 Bruno 的草稿,一步步进行形式化,过程非常依赖 Copilot 和 Lean 的 canonical 策略。」他将原稿拆解成细小逻辑单元,让工具处理约一半细节,剩下的由自己手动填补,完成了一个可以通过验证的 Lean 形式化证明,还录了视频上传到 YouTube。

实际证明, 虽然这种方法看起来有点机械,但对于结构不强、以技术推导为主的证明,是有效的。AI 工具可以代劳大量繁琐推理,让人专注于「如何表达」而不是「是否合理」。

这场实验还暴露出一些 Lean 项目协作工具的问题。目前项目使用的 blueprint 工具只支持每个命题绑定一个证明版本。如果要同时记录人类证明和 AI 生成的版本,会发生覆盖,管理混乱。

如果你对这个话题感兴趣,建议直接查看 Zulip 讨论区,了解更多一线协作细节。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军营救飞行员一定会被拍成电影,加个女主角不就是《黄河绝恋》吗?

美军营救飞行员一定会被拍成电影,加个女主角不就是《黄河绝恋》吗?

蓬辉堂
2026-04-06 20:09:28
突发!陈丽华逝世,享年85岁,死因曝光,生前跟迟重瑞立三条规矩

突发!陈丽华逝世,享年85岁,死因曝光,生前跟迟重瑞立三条规矩

潮鹿逐梦
2026-04-07 11:19:31
醒过来了!伊朗:美国的临时停火,只是为进一步侵略创造喘息之机

醒过来了!伊朗:美国的临时停火,只是为进一步侵略创造喘息之机

清沐执笔
2026-04-06 19:18:29
伊朗缴获美军飞行员的私人物品,有牙膏,内裤,牛肉干,压缩食品

伊朗缴获美军飞行员的私人物品,有牙膏,内裤,牛肉干,压缩食品

魔都姐姐杂谈
2026-04-06 13:11:53
郑丽文高铁往返南京,清晨拜谒中山陵,392级台阶藏满深意

郑丽文高铁往返南京,清晨拜谒中山陵,392级台阶藏满深意

刘襈说体坛
2026-04-03 15:23:26
相见于长城汽车,魏建军与于东来碰撞出什么样的火花?

相见于长城汽车,魏建军与于东来碰撞出什么样的火花?

新京报
2026-04-03 20:32:08
马克龙签完反华声明,法专机抵达韩国,不到48小时,他又算计中方

马克龙签完反华声明,法专机抵达韩国,不到48小时,他又算计中方

书纪文谭
2026-04-06 18:23:04
后续!安徽失联女童已遇害,凶手是女邻居,此前有人精准预测

后续!安徽失联女童已遇害,凶手是女邻居,此前有人精准预测

潮鹿逐梦
2026-04-07 00:36:40
殡葬新规定公布:3月30日起实施,不买墓也合法,不用为墓地愁了

殡葬新规定公布:3月30日起实施,不买墓也合法,不用为墓地愁了

兴史兴谈
2026-04-06 11:10:10
易中天,获奖励20万元

易中天,获奖励20万元

极目新闻
2026-04-06 21:04:19
陈丽华逝世,享年85岁,曾以505亿元位居胡润女企业家榜第三

陈丽华逝世,享年85岁,曾以505亿元位居胡润女企业家榜第三

都市快报橙柿互动
2026-04-07 11:05:50
陈丽华逝世,富华国际集团官网已变黑白

陈丽华逝世,富华国际集团官网已变黑白

中新经纬
2026-04-07 11:07:21
陈丽华身价500亿坐拥北京一条街,婚后给丈夫定三条规矩

陈丽华身价500亿坐拥北京一条街,婚后给丈夫定三条规矩

老呶侃史
2026-01-05 18:56:38
娃哈哈百亿遗产纠纷迎转折!宗馥莉和弟妹被曝清明握手言和:共同去给宗庆后扫墓

娃哈哈百亿遗产纠纷迎转折!宗馥莉和弟妹被曝清明握手言和:共同去给宗庆后扫墓

快科技
2026-04-07 10:17:04
“北溪”事件重演?“土耳其溪”管道炸药疑云惊扰多方

“北溪”事件重演?“土耳其溪”管道炸药疑云惊扰多方

环球网资讯
2026-04-07 06:56:19
84栋,价值14亿!深圳最惨别墅群,沦为月租250块当停车场

84栋,价值14亿!深圳最惨别墅群,沦为月租250块当停车场

GA环球建筑
2026-04-06 23:00:49
张雪的妈妈是作家何琼,毕业于厦门大学,曾贷款55万支持张雪创业

张雪的妈妈是作家何琼,毕业于厦门大学,曾贷款55万支持张雪创业

汉史趣闻
2026-04-07 08:45:15
张雪峰去世半个月,团队成员正式复播,武亮穿黑衣,超10万人支持

张雪峰去世半个月,团队成员正式复播,武亮穿黑衣,超10万人支持

180视角
2026-04-07 11:15:21
“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

“还真把自己当盘菜了”,北京职高女被全网嘲笑,含金量0人买单

妍妍教育日记
2026-04-06 09:15:12
安徽6岁失联女童已遇害:凶手是35岁女邻居,正脸曝光,面相老实

安徽6岁失联女童已遇害:凶手是35岁女邻居,正脸曝光,面相老实

南城无双
2026-04-07 02:27:36
2026-04-07 12:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12690文章数 142616关注度
往期回顾 全部

科技要闻

年化营收300亿美元!Anthropic砸算力大单

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

游戏
本地
家居
房产
旅游

卡普空小萝莉来了!《识质存在》倒计时10天:月球等你

本地新闻

跟着歌声游安徽,听古村回响

家居要闻

雅致惬意 感知生活之美

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

旅游要闻

宿迁海选项羽NPC徐州刘姓男子夺冠,果然是“一生之敌”?项王故里景区:真不是故意的

无障碍浏览 进入关怀版