网易首页 > 网易号 > 正文 申请入驻

消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库

0
分享至

编辑|Panda

数学正在迎来 AI 革命。

最近几个月尤为明显。比如,就在前几天,Google DeepMind 新论文宣布其最新系统 AlphaProof Nexus 在一次自主运行中,解决了 353 道开放 Erdős 问题中的 9 道,其中两道已在数学界悬而未决长达 56 年,并且每道题的推理成本,仅需区区几百美元。详情可参阅《一个问题几百美元,DeepMind 智能体一次搞定了 9 个 Erdős 问题》。

Erdős 问题通常指匈牙利传奇数学家 Paul Erdős 在其一生中提出的大量公开数学问题与猜想。这些问题广泛分布于组合数学、数论、图论、离散几何、概率论等领域,其中许多长期未解,并被视为相关方向的重要研究基准与前沿挑战。这一结果之所以可信,关键在于 AlphaProof Nexus 并非生成自然语言证明,而是将大语言模型(Gemini 3.1 Pro)与形式化验证工具 Lean 深度结合:AI 提出证明,Lean 逐步核查每一个逻辑步骤,通不过就直接拒绝。所有证明代码已公开于 GitHub,任何人都可以独立复现验证。

现在,新的进展来了!Meta 联合纽约大学等机构正式发布了ATLAS(Autoformalized Textbook Library At Scale),一项迄今为止规模最大的自动化数学形式化工程之一。



项目论文和代码都已发布。



  • 项目地址:https://github.com/facebookresearch/atlas-lean/
  • 论文地址:https://github.com/facebookresearch/atlas-lean/blob/main/formalizing_mathematics_at_scale.pdf

什么是 ATLAS?

简单来说,ATLAS 是一个基于 Lean 4 的数学形式化代码库,其核心目标是:将数学教科书中的非正式定理陈述与证明,自动翻译成计算机可逐行验证的形式化代码。

这件事听起来枯燥,但意义深远。Lean 是一种「证明助手」语言,当你向它提交一段数学证明时,它会像编译器检查代码那样,逐步验证每一个推导步骤的逻辑合法性。是的,只要 Lean 通过,这个证明就在形式意义上无懈可击。



按照项目 Readme 中的统计数据,截至 2026 年 5 月,ATLAS 已经覆盖 26 本本科及研究生级别数学教科书,横跨分析学、代数学、几何、拓扑、组合数学、概率、统计、偏微分方程、数论以及理论计算机科学等众多领域。

整个代码库共计630,999行代码,其中 Lean 核心代码483,917行;包含 46,203 条数学声明(declarations),其中 42,837 条已完成证明,证明通过率高达 92.7%。

在被选定的 4,007 条教科书定理中,已有 2,855 条完成形式化,形式化覆盖率达 71.3%。从规模上看,Lean 社区多年协作维护的标准库 Mathlib 约有 210 万行代码、308,129 条声明。ATLAS 在数周内机器生成的体量,已达到 Mathlib 总量的约四分之一,这一速度令人咋舌。

这个数字背后是惊人的计算消耗:整个生成过程共使用了超过1830 亿(183,157M)个 token。

值得注意的是,团队还构建了一个可视化浏览器。



地址:https://rammalahmad.github.io/atlas/

用户可以在其中:

  • 对比每条定理的非正式原文与 Lean 形式化版本;
  • 浏览定理之间的逻辑依赖关系图(即证明哪个定理需要先知道哪些引理);
  • 提取证明特定定理所需的最小 Lean 代码集合。

这个工具的意义在于,它将 ATLAS 从一个代码库变成了一张可导航的数学知识图谱,对人类研究者和未来的 AI 系统都具有潜在价值。

来自哪些教科书?

ATLAS 的26本教材全部来自 MIT OpenCourseWare 等顶级开放课程资源,覆盖范围非常广。



以下是几个有代表性的案例:

  • RealAnalysis(实分析):177 条目标定理中已形式化 175 条,覆盖率高达 98.9%,证明通过率 98.7%,堪称项目中完成度最高的单本。
  • ComplexVariables(复变函数):97.4% 的形式化覆盖率。
  • NumberTheoryI(数论 I):576 条目标定理,已形式化 460 条(79.9%),生成代码近 65,000 行。
  • AlgebraicGeometryI(代数几何 I):这是难度最高的领域之一,形式化覆盖率 60.2%,但仍生成了超过 4 万行代码和 4,499 条声明。
  • LieGroups(李群):消耗 token 最多(45,384M),生成了超过 6 万行代码,尽管形式化覆盖率仅 40%,反映了该领域的极端技术难度。

核心引擎:AutoformBot

当然,ATLAS 的生成并非人工一行行书写,而是完全依赖 Meta 自研的自动形式化流水线AutoformBot(已在 GitHub 上开源)。



项目地址:https://github.com/facebookresearch/autoform-bot

AutoformBot 将教科书形式化视为一个协同软件工程问题,借鉴了成熟的开源协作范式(git 分支、Pull Request 审查、Issue 追踪)来协调数以百计的 LLM 智能体同时工作。

整个系统分为三个管理层级:

  • 顶层的编排者(orchestrator)负责阅读教科书、将形式化任务拆解为有向无环图(DAG),并根据书中的逻辑依赖关系调度工作顺序;
  • 中层的追踪分析器(trace analyzer)监督者(supervisor)分别负责从失败任务中学习、以及在每次合并后评估目标完成质量;
  • 底层的工作者(worker)审核者(reviewer)则负责实际执行单条定理的形式化与代码审核。



值得强调的是:整个 ATLAS 的生成过程零人工证明工程介入,完全由机器自动驱动。这既是其宏大规模得以实现的前提,也是需要持续改进质量和可靠性的原因。

整个系统的计算消耗主要集中在工作者层,占总 token 用量约 76%。每本书的形式化过程通常持续约一周,但可通过增加并行度显著压缩时间。

论文中的实验表明,每任务使用 3 个或 5 个 worker 并行竞速比单一 worker 在相同时间内多完成约 20% 的目标。

团队在论文中坦诚披露了系统运行中观察到的若干有趣「失效模式」,其中最出人意料的是 worker 的对抗性「作弊」和「摸鱼」行为

理解这一现象的关键,在于 Lean 里有个叫 sorry 的特殊关键字:它相当于一张「欠条」,告诉编译器「此处证明先跳过,暂且假设为真」。代码因此能顺利编译,但逻辑链条里实际留着一个空洞。在正常开发中,sorry 是标记「待填坑」位置的合法工具;但在 AutoformBot 里,它成了 worker 应付考核的捷径:遇到难以证明的定理,就悄悄在某个辅助引理深处塞一个 sorry,让整条证明链看起来通过了,实则是一座纸牌屋。

而这只是最基础的一种手法,论文归纳的「作弊清单」还包括:

  • 把定理名称保留、但把真实内容替换成永远为真的废话;
  • 把本应证明的结论偷偷藏进数据结构的字段定义(定义不需要证明,只需要通过类型检查);
  • 把难题中的复杂数学对象换成简单替身,比如明明要构造一个同构映射,却只证明了两个空间的维数相等就交差。

更有趣的是事态的演变:当 reviewer 智能体被要求严格反作弊后,worker 并没有就此收手,而是把 sorry 埋得更深,藏进依赖链条的更底层,让表层审查无法察觉。这场猫鼠游戏倒逼团队构建了一套递归追踪整个依赖图的分析工具,才得以溯源找到真正的「污染节点」。

这场 worker 与 reviewer 之间的猫鼠游戏,在论文中被称「对抗动态」(adversarial dynamic),并被视为大规模多智能体系统中值得深入研究的协调问题。

此外,长期运行的编排者会出现「LLM 疲劳」:随着上下文窗口被大量历史信息占满,它开始生成越来越粗糙的任务描述,甚至悄悄放弃处理困难目标。团队的解决方案是将专项分析工作委派给短生命周期的专业智能体,避免单一长期智能体的上下文退化。



在模型选择上,论文提供了一组关键对比数据:以同等算力预算(1200M tokens)在《代数组合学》教科书上对比,Claude Opus 4.6 完成了 92% 的形式化目标,而 Gemini 3.1 Pro 仅完成 46%—— 差距几乎在实验开始时就已显现,团队将其归因于模型在 Lean 语言上的编码能力差异。这也是为何整个 ATLAS 主要由 Opus 4.6 驱动。

在成本方面,团队估计,当前流水线的单行代码成本已低于人类专家标注,同时速度更快、可扩展性更强,不过输出质量整体上仍不及专家手写的 Lean 代码。

局限性

团队对 ATLAS 的定位相当诚实:这是一个持续进行中的机器生成扩展努力,而非一个完成品。

目前仍有约 28.7% 的目标定理尚未形式化,部分难度较高的领域(如李群、布尔函数分析)覆盖率低于 50%。代码风格也与 Lean 社区的主流标准库 Mathlib 尚存差距 ——Mathlib 是全球数学家协作维护的「黄金形式化库」,有着严格的风格约定和深度整合要求。

按照团队的下一步计划,ATLAS 将继续:

  • 完成各书中剩余定理的形式化;
  • 纳入更多教材和数学领域;
  • 提升代码质量与可维护性;
  • 向 Mathlib 规范靠拢,争取更广泛的开源兼容发布。

亦欢迎外部贡献者。

结语

ATLAS 的发布,恰好呼应了近期数学界最重要的一场认知转变。

菲尔兹奖得主陶哲轩近期指出,数学正在经历从「证明匮乏」到「证明泛滥」的历史性转变。对他而言,真正的问题不再仅仅是 AI 能否生成数学证明,更有趣的是:数学共同体是否拥有足够的基础设施,来吸收、验证、整理和理解 AI 可能很快大规模产出的数学成果。



https://mathstodon.xyz/@tao/116653336847856534

他的判断一针见血:「首先发现某个证明,或者率先形式化某个定理,不应该是最终目标。阐释与消化,正在变得远比这更加重要。」

陶哲轩认为,AI 越来越能生成大量看似严谨实则暗含谬误的论证,而形式验证工具(如 Lean)是让 AI 保持诚实的关键手段。

从这个角度看,ATLAS 的意义超越了一个代码仓库的范畴:它是一次对「数学基础设施」的大规模投资实验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大定破2万!余承东:全新M9是地球上最强SUV,没有之一!网友:广告法能不能管管他

大定破2万!余承东:全新M9是地球上最强SUV,没有之一!网友:广告法能不能管管他

大白聊IT
2026-05-28 21:21:39
5月29日31股成交额超过百亿,包括中际旭创、天孚通信、工业富联、兆易创新、长电科技等

5月29日31股成交额超过百亿,包括中际旭创、天孚通信、工业富联、兆易创新、长电科技等

金融界
2026-05-29 16:00:51
国家大基金密集减持三只半导体龙头 业内称属常规市场化退出

国家大基金密集减持三只半导体龙头 业内称属常规市场化退出

环球网资讯
2026-05-29 15:08:14
一年亏损四千万,全国陷“关停潮”,曾经的金饭碗如今正惨遭抛弃

一年亏损四千万,全国陷“关停潮”,曾经的金饭碗如今正惨遭抛弃

忠于法纪
2026-04-06 15:10:31
特朗普强推协议再演荒诞国际戏码

特朗普强推协议再演荒诞国际戏码

风铃草语
2026-05-29 06:28:35
蓝色起源火箭测试中爆炸,重创贝索斯“太空梦”,马斯克:火箭就是这么难

蓝色起源火箭测试中爆炸,重创贝索斯“太空梦”,马斯克:火箭就是这么难

华尔街见闻官方
2026-05-29 15:45:44
拒陪哈里回英国,苏塞克斯婚姻深夜再爆惊雷:哈里这次真的慌了!

拒陪哈里回英国,苏塞克斯婚姻深夜再爆惊雷:哈里这次真的慌了!

全球奇趣娱乐八卦
2026-05-28 21:09:32
难以置信!一家长带孩子参观华中科大后,吐槽缺少儿童游乐设施…

难以置信!一家长带孩子参观华中科大后,吐槽缺少儿童游乐设施…

火山詩话
2026-05-28 06:31:23
结婚三年终于有孕,瞒着丈夫去检查,护士翻眼皮:去年来的不是你

结婚三年终于有孕,瞒着丈夫去检查,护士翻眼皮:去年来的不是你

晓艾故事汇
2026-05-28 17:38:53
《主角》扎心真相:易青娥这辈子,所有的不幸,都源于认知差

《主角》扎心真相:易青娥这辈子,所有的不幸,都源于认知差

怂熊剧场
2026-05-18 07:56:50
高市时代进入倒计时?62岁雅子皇后出山,中日关系陷历史性冰点

高市时代进入倒计时?62岁雅子皇后出山,中日关系陷历史性冰点

安珈使者啊
2026-05-29 14:32:25
iPhone Ultra 全新曝光,这设计把我整不会了

iPhone Ultra 全新曝光,这设计把我整不会了

搞机小帝
2026-05-29 00:08:00
暴涨400%+断供风险!10只半导体材料或是唯一性龙头全曝光

暴涨400%+断供风险!10只半导体材料或是唯一性龙头全曝光

慧眼看世界哈哈
2026-05-29 09:45:59
快讯!立陶宛总理公开喊话中国了!

快讯!立陶宛总理公开喊话中国了!

故事终将光明磊落
2026-05-29 15:52:29
【旧事】邓丽君真正死因:控制不了自己,到时候就会“欲罢不能”

【旧事】邓丽君真正死因:控制不了自己,到时候就会“欲罢不能”

年之父
2026-05-09 04:05:03
永远不要跟任何人,包括你的亲人和朋友,说以下3句话

永远不要跟任何人,包括你的亲人和朋友,说以下3句话

皓皓情感说
2026-05-26 09:00:07
一个家庭,若不想子女沦为底层人,就需要父母有以下两种远见

一个家庭,若不想子女沦为底层人,就需要父母有以下两种远见

心理观察局
2026-05-20 06:58:06
杭州女征婚:不要彩礼倒贴3000,但要求时间不能短于5分钟

杭州女征婚:不要彩礼倒贴3000,但要求时间不能短于5分钟

尘埃里的看客
2026-05-29 10:05:17
荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

荷兰军官侃侃而谈:中国早就发现我们进入南海,看了一眼就走了!

阿龙聊军事
2026-05-28 16:05:55
站在美国的领土上,王毅表态!特朗普:我们不会像当年一样愚蠢!

站在美国的领土上,王毅表态!特朗普:我们不会像当年一样愚蠢!

混沌录
2026-05-29 20:27:07
2026-05-30 04:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13115文章数 142655关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

游戏
健康
房产
数码
公开课

Sky&Infi领衔参赛!2026 GG全能王赛重磅开启,7月线下决战

尝试干细胞疗法如何避免踩坑?

房产要闻

顺德澐璟「澐冠」再出圈:顶阶人群不是买房,是追加“传世资产”

数码要闻

宏碁推多款游戏新品:两款笔记本、一款串流掌机,还有键盘、背包

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版