消耗1830亿token，Meta用AI把数学教材翻译成了一个超大Lean库|定理|数论|教科书|meta

消耗1830亿token，Meta用AI把数学教材翻译成了一个超大Lean库

2026-05-29 13:43:30　来源: 机器之心Pro

河北举报

分享至

编辑｜Panda

数学正在迎来 AI 革命。

最近几个月尤为明显。比如，就在前几天，Google DeepMind 新论文宣布其最新系统 AlphaProof Nexus 在一次自主运行中，解决了 353 道开放 Erdős 问题中的 9 道，其中两道已在数学界悬而未决长达 56 年，并且每道题的推理成本，仅需区区几百美元。详情可参阅《一个问题几百美元，DeepMind 智能体一次搞定了 9 个 Erdős 问题》。

Erdős 问题通常指匈牙利传奇数学家 Paul Erdős 在其一生中提出的大量公开数学问题与猜想。这些问题广泛分布于组合数学、数论、图论、离散几何、概率论等领域，其中许多长期未解，并被视为相关方向的重要研究基准与前沿挑战。这一结果之所以可信，关键在于 AlphaProof Nexus 并非生成自然语言证明，而是将大语言模型（Gemini 3.1 Pro）与形式化验证工具 Lean 深度结合：AI 提出证明，Lean 逐步核查每一个逻辑步骤，通不过就直接拒绝。所有证明代码已公开于 GitHub，任何人都可以独立复现验证。

现在，新的进展来了！Meta 联合纽约大学等机构正式发布了ATLAS（Autoformalized Textbook Library At Scale），一项迄今为止规模最大的自动化数学形式化工程之一。

项目论文和代码都已发布。

项目地址：https://github.com/facebookresearch/atlas-lean/
论文地址：https://github.com/facebookresearch/atlas-lean/blob/main/formalizing_mathematics_at_scale.pdf

什么是 ATLAS？

简单来说，ATLAS 是一个基于 Lean 4 的数学形式化代码库，其核心目标是：将数学教科书中的非正式定理陈述与证明，自动翻译成计算机可逐行验证的形式化代码。

这件事听起来枯燥，但意义深远。Lean 是一种「证明助手」语言，当你向它提交一段数学证明时，它会像编译器检查代码那样，逐步验证每一个推导步骤的逻辑合法性。是的，只要 Lean 通过，这个证明就在形式意义上无懈可击。

按照项目 Readme 中的统计数据，截至 2026 年 5 月，ATLAS 已经覆盖 26 本本科及研究生级别数学教科书，横跨分析学、代数学、几何、拓扑、组合数学、概率、统计、偏微分方程、数论以及理论计算机科学等众多领域。

整个代码库共计630,999行代码，其中 Lean 核心代码483,917行；包含 46,203 条数学声明（declarations），其中 42,837 条已完成证明，证明通过率高达 92.7%。

在被选定的 4,007 条教科书定理中，已有 2,855 条完成形式化，形式化覆盖率达 71.3%。从规模上看，Lean 社区多年协作维护的标准库 Mathlib 约有 210 万行代码、308,129 条声明。ATLAS 在数周内机器生成的体量，已达到 Mathlib 总量的约四分之一，这一速度令人咋舌。

这个数字背后是惊人的计算消耗：整个生成过程共使用了超过1830 亿（183,157M）个 token。

值得注意的是，团队还构建了一个可视化浏览器。

地址：https://rammalahmad.github.io/atlas/

用户可以在其中：

对比每条定理的非正式原文与 Lean 形式化版本；
浏览定理之间的逻辑依赖关系图（即证明哪个定理需要先知道哪些引理）；
提取证明特定定理所需的最小 Lean 代码集合。

这个工具的意义在于，它将 ATLAS 从一个代码库变成了一张可导航的数学知识图谱，对人类研究者和未来的 AI 系统都具有潜在价值。

来自哪些教科书？

ATLAS 的26本教材全部来自 MIT OpenCourseWare 等顶级开放课程资源，覆盖范围非常广。

以下是几个有代表性的案例：

RealAnalysis（实分析）：177 条目标定理中已形式化 175 条，覆盖率高达 98.9%，证明通过率 98.7%，堪称项目中完成度最高的单本。
ComplexVariables（复变函数）：97.4% 的形式化覆盖率。
NumberTheoryI（数论 I）：576 条目标定理，已形式化 460 条（79.9%），生成代码近 65,000 行。
AlgebraicGeometryI（代数几何 I）：这是难度最高的领域之一，形式化覆盖率 60.2%，但仍生成了超过 4 万行代码和 4,499 条声明。
LieGroups（李群）：消耗 token 最多（45,384M），生成了超过 6 万行代码，尽管形式化覆盖率仅 40%，反映了该领域的极端技术难度。

核心引擎：AutoformBot

当然，ATLAS 的生成并非人工一行行书写，而是完全依赖 Meta 自研的自动形式化流水线AutoformBot（已在 GitHub 上开源）。

项目地址：https://github.com/facebookresearch/autoform-bot

AutoformBot 将教科书形式化视为一个协同软件工程问题，借鉴了成熟的开源协作范式（git 分支、Pull Request 审查、Issue 追踪）来协调数以百计的 LLM 智能体同时工作。

整个系统分为三个管理层级：

顶层的编排者（orchestrator）负责阅读教科书、将形式化任务拆解为有向无环图（DAG），并根据书中的逻辑依赖关系调度工作顺序；
中层的追踪分析器（trace analyzer）监督者（supervisor）分别负责从失败任务中学习、以及在每次合并后评估目标完成质量；
底层的工作者（worker）审核者（reviewer）则负责实际执行单条定理的形式化与代码审核。

值得强调的是：整个 ATLAS 的生成过程零人工证明工程介入，完全由机器自动驱动。这既是其宏大规模得以实现的前提，也是需要持续改进质量和可靠性的原因。

整个系统的计算消耗主要集中在工作者层，占总 token 用量约 76%。每本书的形式化过程通常持续约一周，但可通过增加并行度显著压缩时间。

论文中的实验表明，每任务使用 3 个或 5 个 worker 并行竞速比单一 worker 在相同时间内多完成约 20% 的目标。

团队在论文中坦诚披露了系统运行中观察到的若干有趣「失效模式」，其中最出人意料的是 worker 的对抗性「作弊」和「摸鱼」行为

理解这一现象的关键，在于 Lean 里有个叫 sorry 的特殊关键字：它相当于一张「欠条」，告诉编译器「此处证明先跳过，暂且假设为真」。代码因此能顺利编译，但逻辑链条里实际留着一个空洞。在正常开发中，sorry 是标记「待填坑」位置的合法工具；但在 AutoformBot 里，它成了 worker 应付考核的捷径：遇到难以证明的定理，就悄悄在某个辅助引理深处塞一个 sorry，让整条证明链看起来通过了，实则是一座纸牌屋。

而这只是最基础的一种手法，论文归纳的「作弊清单」还包括：

把定理名称保留、但把真实内容替换成永远为真的废话；
把本应证明的结论偷偷藏进数据结构的字段定义（定义不需要证明，只需要通过类型检查）；
把难题中的复杂数学对象换成简单替身，比如明明要构造一个同构映射，却只证明了两个空间的维数相等就交差。

更有趣的是事态的演变：当 reviewer 智能体被要求严格反作弊后，worker 并没有就此收手，而是把 sorry 埋得更深，藏进依赖链条的更底层，让表层审查无法察觉。这场猫鼠游戏倒逼团队构建了一套递归追踪整个依赖图的分析工具，才得以溯源找到真正的「污染节点」。

这场 worker 与 reviewer 之间的猫鼠游戏，在论文中被称「对抗动态」（adversarial dynamic），并被视为大规模多智能体系统中值得深入研究的协调问题。

此外，长期运行的编排者会出现「LLM 疲劳」：随着上下文窗口被大量历史信息占满，它开始生成越来越粗糙的任务描述，甚至悄悄放弃处理困难目标。团队的解决方案是将专项分析工作委派给短生命周期的专业智能体，避免单一长期智能体的上下文退化。

在模型选择上，论文提供了一组关键对比数据：以同等算力预算（1200M tokens）在《代数组合学》教科书上对比，Claude Opus 4.6 完成了 92% 的形式化目标，而 Gemini 3.1 Pro 仅完成 46%—— 差距几乎在实验开始时就已显现，团队将其归因于模型在 Lean 语言上的编码能力差异。这也是为何整个 ATLAS 主要由 Opus 4.6 驱动。

在成本方面，团队估计，当前流水线的单行代码成本已低于人类专家标注，同时速度更快、可扩展性更强，不过输出质量整体上仍不及专家手写的 Lean 代码。

局限性

团队对 ATLAS 的定位相当诚实：这是一个持续进行中的机器生成扩展努力，而非一个完成品。

目前仍有约 28.7% 的目标定理尚未形式化，部分难度较高的领域（如李群、布尔函数分析）覆盖率低于 50%。代码风格也与 Lean 社区的主流标准库 Mathlib 尚存差距 ——Mathlib 是全球数学家协作维护的「黄金形式化库」，有着严格的风格约定和深度整合要求。

按照团队的下一步计划，ATLAS 将继续：

完成各书中剩余定理的形式化；
纳入更多教材和数学领域；
提升代码质量与可维护性；
向 Mathlib 规范靠拢，争取更广泛的开源兼容发布。

亦欢迎外部贡献者。

结语

ATLAS 的发布，恰好呼应了近期数学界最重要的一场认知转变。

菲尔兹奖得主陶哲轩近期指出，数学正在经历从「证明匮乏」到「证明泛滥」的历史性转变。对他而言，真正的问题不再仅仅是 AI 能否生成数学证明，更有趣的是：数学共同体是否拥有足够的基础设施，来吸收、验证、整理和理解 AI 可能很快大规模产出的数学成果。

https://mathstodon.xyz/@tao/116653336847856534

他的判断一针见血：「首先发现某个证明，或者率先形式化某个定理，不应该是最终目标。阐释与消化，正在变得远比这更加重要。」

陶哲轩认为，AI 越来越能生成大量看似严谨实则暗含谬误的论证，而形式验证工具（如 Lean）是让 AI 保持诚实的关键手段。

从这个角度看，ATLAS 的意义超越了一个代码仓库的范畴：它是一次对「数学基础设施」的大规模投资实验。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.