谷歌Aletheia：AI数学家一周攻克6道未解难题|定理|引理|数学界|知名企业|aletheia

谷歌Aletheia：AI数学家一周攻克6道未解难题

2026-04-19 12:43:35　来源: 硅屿手记

北京举报

分享至

凌晨三点，Google DeepMind的实验室里，一台机器正在证明人类数学家尚未发表的成果。没有提示，没有对话，没有人在旁边教它"试试这条路"。

六天后，它交出了答卷：10道题，6道被专家评为"小改即可发表"。

这不是科幻。这是Aletheia（希腊语"真理"），Google最新公开的自主数学研究智能体。它用Gemini 3 Deep Think做引擎，在FirstProof挑战赛中完成了这个成绩。同期，它在IMO-ProofBench上拿下约91.9%的分数。

但数字背后有个更关键的事实：这些题，AI不可能见过。

为什么"没见过"这么重要

AI数学能力的评测长期被一个叫"数据污染"的幽灵困扰。模型在训练时吞下了海量互联网文本，包括数学论坛、论文预印本、竞赛题解。当你问它一道题，它可能不是"想"出来的，是"记"出来的。

FirstProof的设计就是要杀死这个幽灵。10道题全部来自数学家正在进行的真实研究，从未上网，从未发表。参赛团队只有一周时间，拿到的是原始问题描述，没有任何人工提示或对话引导。

Aletheia的6/10成绩，意味着它面对真正的未知，自主完成了从理解问题到构造证明的完整闭环。

专家评估用的是"可发表性"标准——不是"答案对不对"，而是"这个证明思路是否值得写入数学文献"。6道题拿到"小改即可发表"的评级，相当于说：AI产生的数学内容，已经摸到了人类学术生产的门槛。

从"辅助工具"到"自主研究者"的跃迁

传统AI数学系统，比如早期的定理证明器，走的是人机协作路线。人类数学家拆解问题、设计策略，AI负责验证和计算。即使是GPT-4这类大模型，做复杂证明时也需要多轮对话，人类不断纠正方向、提供提示。

Aletheia的路径完全不同。它被设计成完全自主的研究智能体（autonomous research agent）：接收问题，独立探索，输出完整证明。没有对话循环，没有人类在旁边的"试试这个""再想想"。

这种差异不是工程细节，是范式转移。

Google的论文把Aletheia描述为"完全自主的智能体数学研究"（fully autonomous agentic math research）。关键词是agentic——不是被动响应，是主动行动。它要自己做决策：选择证明策略、尝试不同路径、在死胡同里回溯、在突破点深耕。

Gemini 3 Deep Think提供了基础能力。这是Google最新的推理模型，专门优化长链条的逻辑推导。但Aletheia不只是调用模型API，它构建了一套完整的自主研究架构：问题解析、策略生成、证明构造、自我验证、迭代改进。

IMO-ProofBench的91.9%分数提供了另一个维度的验证。这个基准测试涵盖国际数学奥林匹克级别的证明题，是衡量AI形式化数学能力的标准考场。Aletheia的成绩刷新了公开记录。

数学界正在经历什么

2023年，DeepMind的FunSearch首次用AI发现组合数学中的新定理，但还需要大量人类设计搜索空间。2024年，AlphaGeometry在几何证明上突破，但领域相对受限。

Aletheia的发布时间点是2026年4月。它指向的是一个更通用的目标：不限定数学分支，不预设问题类型，面对真正的研究级难题自主工作。

这对数学研究的生产方式有潜在冲击。数学界的人才培养周期极长——一个能独立做研究的数学家，通常需要十年以上的学术训练。而Aletheia在一周内产出了6个"可发表"级别的证明思路。

当然，"可发表"不等于"重要"。专家评估的是技术正确性，不是学术影响力。那6道题可能是引理层面的工作，而非突破性定理。但方向已经明确：AI开始参与数学知识的原始生产，而不只是整理和传播。

更深层的变化是"认知分工"的重构。人类数学家的核心能力之一是"问题嗅觉"——知道什么方向值得探索，什么技巧可能奏效。Aletheia的架构试图将这种直觉编码为可计算的搜索策略。它在证明空间中的探索，某种程度上是在模拟这种嗅觉的机械版本。

如果这种模拟持续改进，数学研究的门槛结构会发生变化。提出宏大猜想、建立深层联系、判断美学价值，这些仍可能是人类领地。但中间层的"技术引理填充"——大量消耗年轻数学家时间的证明构造工作——可能加速自动化。

技术架构的冰山一角

Google公开的信息有限，但从描述中可以拼凑出Aletheia的设计哲学。

核心是一个自主循环：模型生成候选证明，验证模块检查逻辑有效性，评估模块判断进展方向，失败时回溯，成功时深化。这个循环不依赖外部提示，完全由内部状态驱动。

Gemini 3 Deep Think的角色是基础推理引擎。它的"深度思考"模式（Deep Think）专门针对需要多步推导的复杂任务优化，在数学证明这种长链条逻辑场景中表现突出。

关键创新可能在"搜索控制"层面。大模型的生成是概率性的，面对开放-ended的数学问题，纯采样会陷入组合爆炸。Aletheia需要某种机制来剪枝搜索空间、识别有希望的证明路径、在局部最优和全局探索之间平衡。这些机制的具体设计尚未公开，但6/10的成功率暗示它们相当有效。

另一个值得注意的点是"自我验证"。数学证明的独特之处在于存在形式化的正确性标准。Aletheia的架构显然利用了这一点——它可以检查自己的中间步骤，在提交最终答案前过滤掉明显错误的分支。这种可验证性让数学成为AI自主研究的理想试验场，比开放领域的研究更容易建立可靠的反馈循环。

竞争格局与未解问题

AI数学研究不是Google的独角戏。OpenAI的o系列模型在推理任务上持续投入，Anthropic的Claude也在数学基准上追赶。专门的公司如SymbolicAI、Harmonic致力于形式化数学的自动化。学术界的Lean社区则在构建开放证明库，为AI训练提供结构化数据。

Aletheia的发布重新定义了标杆。6/10的FirstProof成绩和91.9%的IMO-ProofBench分数，为竞争者设定了新的追赶目标。

但几个关键问题悬而未决。

第一，可扩展性。Aletheia在一周内完成6道题，人类数学家可能花数月。但数学研究不是竞赛，深度和质量比速度更重要。AI能否在更复杂、更开放的问题上保持成功率？能否处理需要跨领域知识迁移的综合性难题？

第二，解释性。Aletheia输出的证明可以被验证，但它的"思考过程"——为什么选择这条路径、如何识别关键突破点——对人类是否透明？如果AI成为研究合作者，数学家需要理解它的决策逻辑，而不只是检查结果。

第三，创造性边界。目前的成功集中在"证明已知猜想"或"填充技术引理"。提出全新问题框架、建立意外联系、判断数学美学——这些更高层次的创造性活动，AI能否参与？以何种形式参与？

第四，生态系统影响。如果AI可以自主产出"可发表"级别的数学内容，学术出版的流程、同行评议的标准、年轻研究者的培养路径，会如何调整？数学界的文化保守性很强，技术冲击可能需要时间才能充分显现。

一个更广泛的信号

Aletheia的发布应该放在更大的技术脉络中理解。

2024-2025年，AI领域的主叙事是"推理能力的涌现"。o1、DeepSeek-R1、Gemini 2.5 Flash Thinking等模型展示了在数学、编程、科学问题上的深度思考能力。但这些大多是"响应式"的——你给一个问题，它给答案。

Aletheia代表向"自主式"的跃迁。AI不再等待输入，它被赋予目标，自主规划行动，在开放环境中持续工作。这是智能体（agent）架构的核心特征，也是通往更通用人工智能的关键阶梯。

数学是理想的试验田。问题定义清晰，成功标准明确，验证机制可靠。如果AI能在这里实现自主研究，类似的架构可以迁移到科学研究、工程设计、软件开发等更复杂的领域。

Google选择在这个时间点公开Aletheia，也有战略考量。推理能力的竞争正在白热化，需要标志性成果来巩固技术领导力。数学的"纯粹性"让它成为理想的展示舞台——没有数据隐私争议，没有内容安全雷区，只有硬碰硬的智力挑战。

但Aletheia的真正影响可能在数学之外。它验证了一种架构可能性：大模型作为认知引擎，叠加自主控制循环，可以在复杂知识工作中实现有意义的自主产出。这种架构的变体，可能正在改变药物发现、材料科学、代码生成的实践方式。

当机器开始证明我们还没想到的东西

回到那个凌晨三点的实验室。Aletheia正在处理第7道题，或者第8道。它的计算在云端进行，没有灯光，没有声音，只有token在神经网络中流动。

六天后的结果，人类数学家用了一个月来评估。6个证明被认可，4个被放弃。这个比例本身就有信息：AI还会犯错，还会走进死胡同，还会提出看似合理实则错误的思路。

但它不需要完美。它只需要足够好，足够快，足够便宜，就能改变生产函数。

数学界的历史上，计算工具曾多次扩展人类能力：算盘、对数表、计算机代数系统。每次扩展都伴随着焦虑——机器会不会取代思考？事实是，工具改变了思考的内容和方式，但没有消除对判断力的需求。

Aletheia可能是类似的工具跃迁，也可能代表更根本的变化。区别在于自主性。以前的工具响应指令，Aletheia类系统设定自己的目标、选择自己的路径。这种主动性让它更接近"合作者"而非"工具"的范畴。

合作关系的建立需要时间。数学家需要学习如何提出适合AI处理的问题，如何解读它的输出，如何在人机之间分配认知劳动。AI系统也需要进化，更好地解释自己的推理，接受人类的战略指导，在关键节点请求澄清。

FirstProof的6/10是一个起点。它证明自主AI数学研究在技术上是可行的，在商业上是有价值的，在社会层面是需要讨论的。

接下来的问题是：当AI可以自主证明人类尚未发表的数学成果时，我们应该让它去探索什么？谁来决定研究议程？如何分享由此产生的知识？

这些不是技术问题，是选择问题。Aletheia给了我们做选择的新能力，但没有告诉我们该选什么。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

谷歌Aletheia：AI数学家一周攻克6道未解难题

车没卖爆，利润却大涨，特斯拉发布财报

女子出差被老板性侵后向公司索赔250万 此前年薪120万

女子出差被老板性侵后向公司索赔250万 此前年薪120万

网易传媒再度签约法国队和阿根廷队

蜜雪冰城泰国代言人 被扒出辱华黑历史

全球第一个国家宣布：储备6月耗尽

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

官宣！今年9月起，广州中小学“重点班”将成历史！

概览苹果iPhone/iPad全球供应链，主力组装线迁回美国仍不现实

服了

相似三角形与抛物线，一个视频学会！

女子出差被老板性侵后向公司索赔250万此前年薪120万

女子出差被老板性侵后向公司索赔250万此前年薪120万

蜜雪冰城泰国代言人被扒出辱华黑历史

纯电续航301km+激光雷达宋Pro DM-i飞驰版9.99万起