凌晨三点,Google DeepMind的实验室里,一台机器正在证明人类数学家尚未发表的成果。没有提示,没有对话,没有人在旁边教它"试试这条路"。
六天后,它交出了答卷:10道题,6道被专家评为"小改即可发表"。
![]()
这不是科幻。这是Aletheia(希腊语"真理"),Google最新公开的自主数学研究智能体。它用Gemini 3 Deep Think做引擎,在FirstProof挑战赛中完成了这个成绩。同期,它在IMO-ProofBench上拿下约91.9%的分数。
但数字背后有个更关键的事实:这些题,AI不可能见过。
为什么"没见过"这么重要
AI数学能力的评测长期被一个叫"数据污染"的幽灵困扰。模型在训练时吞下了海量互联网文本,包括数学论坛、论文预印本、竞赛题解。当你问它一道题,它可能不是"想"出来的,是"记"出来的。
FirstProof的设计就是要杀死这个幽灵。10道题全部来自数学家正在进行的真实研究,从未上网,从未发表。参赛团队只有一周时间,拿到的是原始问题描述,没有任何人工提示或对话引导。
Aletheia的6/10成绩,意味着它面对真正的未知,自主完成了从理解问题到构造证明的完整闭环。
专家评估用的是"可发表性"标准——不是"答案对不对",而是"这个证明思路是否值得写入数学文献"。6道题拿到"小改即可发表"的评级,相当于说:AI产生的数学内容,已经摸到了人类学术生产的门槛。
从"辅助工具"到"自主研究者"的跃迁
传统AI数学系统,比如早期的定理证明器,走的是人机协作路线。人类数学家拆解问题、设计策略,AI负责验证和计算。即使是GPT-4这类大模型,做复杂证明时也需要多轮对话,人类不断纠正方向、提供提示。
Aletheia的路径完全不同。它被设计成完全自主的研究智能体(autonomous research agent):接收问题,独立探索,输出完整证明。没有对话循环,没有人类在旁边的"试试这个""再想想"。
这种差异不是工程细节,是范式转移。
Google的论文把Aletheia描述为"完全自主的智能体数学研究"(fully autonomous agentic math research)。关键词是agentic——不是被动响应,是主动行动。它要自己做决策:选择证明策略、尝试不同路径、在死胡同里回溯、在突破点深耕。
Gemini 3 Deep Think提供了基础能力。这是Google最新的推理模型,专门优化长链条的逻辑推导。但Aletheia不只是调用模型API,它构建了一套完整的自主研究架构:问题解析、策略生成、证明构造、自我验证、迭代改进。
IMO-ProofBench的91.9%分数提供了另一个维度的验证。这个基准测试涵盖国际数学奥林匹克级别的证明题,是衡量AI形式化数学能力的标准考场。Aletheia的成绩刷新了公开记录。
数学界正在经历什么
2023年,DeepMind的FunSearch首次用AI发现组合数学中的新定理,但还需要大量人类设计搜索空间。2024年,AlphaGeometry在几何证明上突破,但领域相对受限。
Aletheia的发布时间点是2026年4月。它指向的是一个更通用的目标:不限定数学分支,不预设问题类型,面对真正的研究级难题自主工作。
这对数学研究的生产方式有潜在冲击。数学界的人才培养周期极长——一个能独立做研究的数学家,通常需要十年以上的学术训练。而Aletheia在一周内产出了6个"可发表"级别的证明思路。
当然,"可发表"不等于"重要"。专家评估的是技术正确性,不是学术影响力。那6道题可能是引理层面的工作,而非突破性定理。但方向已经明确:AI开始参与数学知识的原始生产,而不只是整理和传播。
更深层的变化是"认知分工"的重构。人类数学家的核心能力之一是"问题嗅觉"——知道什么方向值得探索,什么技巧可能奏效。Aletheia的架构试图将这种直觉编码为可计算的搜索策略。它在证明空间中的探索,某种程度上是在模拟这种嗅觉的机械版本。
如果这种模拟持续改进,数学研究的门槛结构会发生变化。提出宏大猜想、建立深层联系、判断美学价值,这些仍可能是人类领地。但中间层的"技术引理填充"——大量消耗年轻数学家时间的证明构造工作——可能加速自动化。
技术架构的冰山一角
Google公开的信息有限,但从描述中可以拼凑出Aletheia的设计哲学。
核心是一个自主循环:模型生成候选证明,验证模块检查逻辑有效性,评估模块判断进展方向,失败时回溯,成功时深化。这个循环不依赖外部提示,完全由内部状态驱动。
Gemini 3 Deep Think的角色是基础推理引擎。它的"深度思考"模式(Deep Think)专门针对需要多步推导的复杂任务优化,在数学证明这种长链条逻辑场景中表现突出。
关键创新可能在"搜索控制"层面。大模型的生成是概率性的,面对开放-ended的数学问题,纯采样会陷入组合爆炸。Aletheia需要某种机制来剪枝搜索空间、识别有希望的证明路径、在局部最优和全局探索之间平衡。这些机制的具体设计尚未公开,但6/10的成功率暗示它们相当有效。
另一个值得注意的点是"自我验证"。数学证明的独特之处在于存在形式化的正确性标准。Aletheia的架构显然利用了这一点——它可以检查自己的中间步骤,在提交最终答案前过滤掉明显错误的分支。这种可验证性让数学成为AI自主研究的理想试验场,比开放领域的研究更容易建立可靠的反馈循环。
竞争格局与未解问题
AI数学研究不是Google的独角戏。OpenAI的o系列模型在推理任务上持续投入,Anthropic的Claude也在数学基准上追赶。专门的公司如SymbolicAI、Harmonic致力于形式化数学的自动化。学术界的Lean社区则在构建开放证明库,为AI训练提供结构化数据。
Aletheia的发布重新定义了标杆。6/10的FirstProof成绩和91.9%的IMO-ProofBench分数,为竞争者设定了新的追赶目标。
但几个关键问题悬而未决。
第一,可扩展性。Aletheia在一周内完成6道题,人类数学家可能花数月。但数学研究不是竞赛,深度和质量比速度更重要。AI能否在更复杂、更开放的问题上保持成功率?能否处理需要跨领域知识迁移的综合性难题?
第二,解释性。Aletheia输出的证明可以被验证,但它的"思考过程"——为什么选择这条路径、如何识别关键突破点——对人类是否透明?如果AI成为研究合作者,数学家需要理解它的决策逻辑,而不只是检查结果。
第三,创造性边界。目前的成功集中在"证明已知猜想"或"填充技术引理"。提出全新问题框架、建立意外联系、判断数学美学——这些更高层次的创造性活动,AI能否参与?以何种形式参与?
第四,生态系统影响。如果AI可以自主产出"可发表"级别的数学内容,学术出版的流程、同行评议的标准、年轻研究者的培养路径,会如何调整?数学界的文化保守性很强,技术冲击可能需要时间才能充分显现。
一个更广泛的信号
Aletheia的发布应该放在更大的技术脉络中理解。
2024-2025年,AI领域的主叙事是"推理能力的涌现"。o1、DeepSeek-R1、Gemini 2.5 Flash Thinking等模型展示了在数学、编程、科学问题上的深度思考能力。但这些大多是"响应式"的——你给一个问题,它给答案。
Aletheia代表向"自主式"的跃迁。AI不再等待输入,它被赋予目标,自主规划行动,在开放环境中持续工作。这是智能体(agent)架构的核心特征,也是通往更通用人工智能的关键阶梯。
数学是理想的试验田。问题定义清晰,成功标准明确,验证机制可靠。如果AI能在这里实现自主研究,类似的架构可以迁移到科学研究、工程设计、软件开发等更复杂的领域。
Google选择在这个时间点公开Aletheia,也有战略考量。推理能力的竞争正在白热化,需要标志性成果来巩固技术领导力。数学的"纯粹性"让它成为理想的展示舞台——没有数据隐私争议,没有内容安全雷区,只有硬碰硬的智力挑战。
但Aletheia的真正影响可能在数学之外。它验证了一种架构可能性:大模型作为认知引擎,叠加自主控制循环,可以在复杂知识工作中实现有意义的自主产出。这种架构的变体,可能正在改变药物发现、材料科学、代码生成的实践方式。
当机器开始证明我们还没想到的东西
回到那个凌晨三点的实验室。Aletheia正在处理第7道题,或者第8道。它的计算在云端进行,没有灯光,没有声音,只有token在神经网络中流动。
六天后的结果,人类数学家用了一个月来评估。6个证明被认可,4个被放弃。这个比例本身就有信息:AI还会犯错,还会走进死胡同,还会提出看似合理实则错误的思路。
但它不需要完美。它只需要足够好,足够快,足够便宜,就能改变生产函数。
数学界的历史上,计算工具曾多次扩展人类能力:算盘、对数表、计算机代数系统。每次扩展都伴随着焦虑——机器会不会取代思考?事实是,工具改变了思考的内容和方式,但没有消除对判断力的需求。
Aletheia可能是类似的工具跃迁,也可能代表更根本的变化。区别在于自主性。以前的工具响应指令,Aletheia类系统设定自己的目标、选择自己的路径。这种主动性让它更接近"合作者"而非"工具"的范畴。
合作关系的建立需要时间。数学家需要学习如何提出适合AI处理的问题,如何解读它的输出,如何在人机之间分配认知劳动。AI系统也需要进化,更好地解释自己的推理,接受人类的战略指导,在关键节点请求澄清。
FirstProof的6/10是一个起点。它证明自主AI数学研究在技术上是可行的,在商业上是有价值的,在社会层面是需要讨论的。
接下来的问题是:当AI可以自主证明人类尚未发表的数学成果时,我们应该让它去探索什么?谁来决定研究议程?如何分享由此产生的知识?
这些不是技术问题,是选择问题。Aletheia给了我们做选择的新能力,但没有告诉我们该选什么。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.