网易首页 > 网易号 > 正文 申请入驻

谷歌Aletheia:AI数学家一周攻克6道未解难题

0
分享至

凌晨三点,Google DeepMind的实验室里,一台机器正在证明人类数学家尚未发表的成果。没有提示,没有对话,没有人在旁边教它"试试这条路"。

六天后,它交出了答卷:10道题,6道被专家评为"小改即可发表"。


这不是科幻。这是Aletheia(希腊语"真理"),Google最新公开的自主数学研究智能体。它用Gemini 3 Deep Think做引擎,在FirstProof挑战赛中完成了这个成绩。同期,它在IMO-ProofBench上拿下约91.9%的分数。

但数字背后有个更关键的事实:这些题,AI不可能见过。

为什么"没见过"这么重要

AI数学能力的评测长期被一个叫"数据污染"的幽灵困扰。模型在训练时吞下了海量互联网文本,包括数学论坛、论文预印本、竞赛题解。当你问它一道题,它可能不是"想"出来的,是"记"出来的。

FirstProof的设计就是要杀死这个幽灵。10道题全部来自数学家正在进行的真实研究,从未上网,从未发表。参赛团队只有一周时间,拿到的是原始问题描述,没有任何人工提示或对话引导。

Aletheia的6/10成绩,意味着它面对真正的未知,自主完成了从理解问题到构造证明的完整闭环。

专家评估用的是"可发表性"标准——不是"答案对不对",而是"这个证明思路是否值得写入数学文献"。6道题拿到"小改即可发表"的评级,相当于说:AI产生的数学内容,已经摸到了人类学术生产的门槛。

从"辅助工具"到"自主研究者"的跃迁

传统AI数学系统,比如早期的定理证明器,走的是人机协作路线。人类数学家拆解问题、设计策略,AI负责验证和计算。即使是GPT-4这类大模型,做复杂证明时也需要多轮对话,人类不断纠正方向、提供提示。

Aletheia的路径完全不同。它被设计成完全自主的研究智能体(autonomous research agent):接收问题,独立探索,输出完整证明。没有对话循环,没有人类在旁边的"试试这个""再想想"。

这种差异不是工程细节,是范式转移。

Google的论文把Aletheia描述为"完全自主的智能体数学研究"(fully autonomous agentic math research)。关键词是agentic——不是被动响应,是主动行动。它要自己做决策:选择证明策略、尝试不同路径、在死胡同里回溯、在突破点深耕。

Gemini 3 Deep Think提供了基础能力。这是Google最新的推理模型,专门优化长链条的逻辑推导。但Aletheia不只是调用模型API,它构建了一套完整的自主研究架构:问题解析、策略生成、证明构造、自我验证、迭代改进。

IMO-ProofBench的91.9%分数提供了另一个维度的验证。这个基准测试涵盖国际数学奥林匹克级别的证明题,是衡量AI形式化数学能力的标准考场。Aletheia的成绩刷新了公开记录。

数学界正在经历什么

2023年,DeepMind的FunSearch首次用AI发现组合数学中的新定理,但还需要大量人类设计搜索空间。2024年,AlphaGeometry在几何证明上突破,但领域相对受限。

Aletheia的发布时间点是2026年4月。它指向的是一个更通用的目标:不限定数学分支,不预设问题类型,面对真正的研究级难题自主工作。

这对数学研究的生产方式有潜在冲击。数学界的人才培养周期极长——一个能独立做研究的数学家,通常需要十年以上的学术训练。而Aletheia在一周内产出了6个"可发表"级别的证明思路。

当然,"可发表"不等于"重要"。专家评估的是技术正确性,不是学术影响力。那6道题可能是引理层面的工作,而非突破性定理。但方向已经明确:AI开始参与数学知识的原始生产,而不只是整理和传播。

更深层的变化是"认知分工"的重构。人类数学家的核心能力之一是"问题嗅觉"——知道什么方向值得探索,什么技巧可能奏效。Aletheia的架构试图将这种直觉编码为可计算的搜索策略。它在证明空间中的探索,某种程度上是在模拟这种嗅觉的机械版本。

如果这种模拟持续改进,数学研究的门槛结构会发生变化。提出宏大猜想、建立深层联系、判断美学价值,这些仍可能是人类领地。但中间层的"技术引理填充"——大量消耗年轻数学家时间的证明构造工作——可能加速自动化。

技术架构的冰山一角

Google公开的信息有限,但从描述中可以拼凑出Aletheia的设计哲学。

核心是一个自主循环:模型生成候选证明,验证模块检查逻辑有效性,评估模块判断进展方向,失败时回溯,成功时深化。这个循环不依赖外部提示,完全由内部状态驱动。

Gemini 3 Deep Think的角色是基础推理引擎。它的"深度思考"模式(Deep Think)专门针对需要多步推导的复杂任务优化,在数学证明这种长链条逻辑场景中表现突出。

关键创新可能在"搜索控制"层面。大模型的生成是概率性的,面对开放-ended的数学问题,纯采样会陷入组合爆炸。Aletheia需要某种机制来剪枝搜索空间、识别有希望的证明路径、在局部最优和全局探索之间平衡。这些机制的具体设计尚未公开,但6/10的成功率暗示它们相当有效。

另一个值得注意的点是"自我验证"。数学证明的独特之处在于存在形式化的正确性标准。Aletheia的架构显然利用了这一点——它可以检查自己的中间步骤,在提交最终答案前过滤掉明显错误的分支。这种可验证性让数学成为AI自主研究的理想试验场,比开放领域的研究更容易建立可靠的反馈循环。

竞争格局与未解问题

AI数学研究不是Google的独角戏。OpenAI的o系列模型在推理任务上持续投入,Anthropic的Claude也在数学基准上追赶。专门的公司如SymbolicAI、Harmonic致力于形式化数学的自动化。学术界的Lean社区则在构建开放证明库,为AI训练提供结构化数据。

Aletheia的发布重新定义了标杆。6/10的FirstProof成绩和91.9%的IMO-ProofBench分数,为竞争者设定了新的追赶目标。

但几个关键问题悬而未决。

第一,可扩展性。Aletheia在一周内完成6道题,人类数学家可能花数月。但数学研究不是竞赛,深度和质量比速度更重要。AI能否在更复杂、更开放的问题上保持成功率?能否处理需要跨领域知识迁移的综合性难题?

第二,解释性。Aletheia输出的证明可以被验证,但它的"思考过程"——为什么选择这条路径、如何识别关键突破点——对人类是否透明?如果AI成为研究合作者,数学家需要理解它的决策逻辑,而不只是检查结果。

第三,创造性边界。目前的成功集中在"证明已知猜想"或"填充技术引理"。提出全新问题框架、建立意外联系、判断数学美学——这些更高层次的创造性活动,AI能否参与?以何种形式参与?

第四,生态系统影响。如果AI可以自主产出"可发表"级别的数学内容,学术出版的流程、同行评议的标准、年轻研究者的培养路径,会如何调整?数学界的文化保守性很强,技术冲击可能需要时间才能充分显现。

一个更广泛的信号

Aletheia的发布应该放在更大的技术脉络中理解。

2024-2025年,AI领域的主叙事是"推理能力的涌现"。o1、DeepSeek-R1、Gemini 2.5 Flash Thinking等模型展示了在数学、编程、科学问题上的深度思考能力。但这些大多是"响应式"的——你给一个问题,它给答案。

Aletheia代表向"自主式"的跃迁。AI不再等待输入,它被赋予目标,自主规划行动,在开放环境中持续工作。这是智能体(agent)架构的核心特征,也是通往更通用人工智能的关键阶梯。

数学是理想的试验田。问题定义清晰,成功标准明确,验证机制可靠。如果AI能在这里实现自主研究,类似的架构可以迁移到科学研究、工程设计、软件开发等更复杂的领域。

Google选择在这个时间点公开Aletheia,也有战略考量。推理能力的竞争正在白热化,需要标志性成果来巩固技术领导力。数学的"纯粹性"让它成为理想的展示舞台——没有数据隐私争议,没有内容安全雷区,只有硬碰硬的智力挑战。

但Aletheia的真正影响可能在数学之外。它验证了一种架构可能性:大模型作为认知引擎,叠加自主控制循环,可以在复杂知识工作中实现有意义的自主产出。这种架构的变体,可能正在改变药物发现、材料科学、代码生成的实践方式。

当机器开始证明我们还没想到的东西

回到那个凌晨三点的实验室。Aletheia正在处理第7道题,或者第8道。它的计算在云端进行,没有灯光,没有声音,只有token在神经网络中流动。

六天后的结果,人类数学家用了一个月来评估。6个证明被认可,4个被放弃。这个比例本身就有信息:AI还会犯错,还会走进死胡同,还会提出看似合理实则错误的思路。

但它不需要完美。它只需要足够好,足够快,足够便宜,就能改变生产函数。

数学界的历史上,计算工具曾多次扩展人类能力:算盘、对数表、计算机代数系统。每次扩展都伴随着焦虑——机器会不会取代思考?事实是,工具改变了思考的内容和方式,但没有消除对判断力的需求。

Aletheia可能是类似的工具跃迁,也可能代表更根本的变化。区别在于自主性。以前的工具响应指令,Aletheia类系统设定自己的目标、选择自己的路径。这种主动性让它更接近"合作者"而非"工具"的范畴。

合作关系的建立需要时间。数学家需要学习如何提出适合AI处理的问题,如何解读它的输出,如何在人机之间分配认知劳动。AI系统也需要进化,更好地解释自己的推理,接受人类的战略指导,在关键节点请求澄清。

FirstProof的6/10是一个起点。它证明自主AI数学研究在技术上是可行的,在商业上是有价值的,在社会层面是需要讨论的。

接下来的问题是:当AI可以自主证明人类尚未发表的数学成果时,我们应该让它去探索什么?谁来决定研究议程?如何分享由此产生的知识?

这些不是技术问题,是选择问题。Aletheia给了我们做选择的新能力,但没有告诉我们该选什么。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯诺克世锦赛首轮:庞俊旭轰单杆122分,暂时4-5落后世界第2

斯诺克世锦赛首轮:庞俊旭轰单杆122分,暂时4-5落后世界第2

凌空倒钩
2026-04-23 06:17:28
大张伟翻白眼,王鸥在综艺里叹气说北京房价太高,她根本退不了休

大张伟翻白眼,王鸥在综艺里叹气说北京房价太高,她根本退不了休

西楼知趣杂谈
2026-04-22 11:49:20
张天爱太大胆了穿这么敢去沙滩玩

张天爱太大胆了穿这么敢去沙滩玩

阿废冷眼观察所
2026-04-14 12:42:56
梁家辉:五封金像影帝,可能仍被低估

梁家辉:五封金像影帝,可能仍被低估

红星新闻
2026-04-22 20:45:21
离婚的小姑子带娃住进婚房,怀孕的我回娘家,老公:这房我买的!

离婚的小姑子带娃住进婚房,怀孕的我回娘家,老公:这房我买的!

墨染尘香
2026-04-18 15:21:50
美国至今想不通:一个没留过学的中国人,凭什么造出于敏构型?

美国至今想不通:一个没留过学的中国人,凭什么造出于敏构型?

抽象派大师
2026-04-21 01:30:23
17年前,他把黄家驹念成黄家“狗”,自以为幽默,没想到断送前程

17年前,他把黄家驹念成黄家“狗”,自以为幽默,没想到断送前程

老吴教育课堂
2026-04-21 11:35:25
爷爷生前录音赠孙女109万元遗产,六个姑姑不服要求平分,法院:录音无效,重新分配,患小儿麻痹症姑姑拿大头

爷爷生前录音赠孙女109万元遗产,六个姑姑不服要求平分,法院:录音无效,重新分配,患小儿麻痹症姑姑拿大头

鲁中晨报
2026-04-17 17:00:03
察可军现状:在山东老家经商,接手家族商业帝国,早已身价过亿

察可军现状:在山东老家经商,接手家族商业帝国,早已身价过亿

阅微札记
2026-04-22 17:12:42
他曾担任广东省委书记,被调任湖北省委书记时,却被年轻人代替

他曾担任广东省委书记,被调任湖北省委书记时,却被年轻人代替

老范谈史
2026-04-22 09:22:44
别吃!广州一医院近期收治多名中毒重症患者!医生:无特效药,50克致命

别吃!广州一医院近期收治多名中毒重症患者!医生:无特效药,50克致命

城事特搜
2026-04-22 19:34:10
包养10位情妇,睡觉靠翻牌,生下11个私生子,75岁仍在拼命生娃!

包养10位情妇,睡觉靠翻牌,生下11个私生子,75岁仍在拼命生娃!

蜉蝣说
2026-04-17 11:02:03
泪目 伊朗88人辗转50小时抵达中国 霸气亮相亚沙会:全员手放胸前

泪目 伊朗88人辗转50小时抵达中国 霸气亮相亚沙会:全员手放胸前

风过乡
2026-04-23 08:03:23
高考后我向暗恋三年的校花表白,却遭到拒绝,12年后我们再次相遇

高考后我向暗恋三年的校花表白,却遭到拒绝,12年后我们再次相遇

云姐说情
2025-08-06 10:02:36
美国24小时内连遭三噩耗,特朗普或下台,伊领袖介入

美国24小时内连遭三噩耗,特朗普或下台,伊领袖介入

誮惜颜a
2026-04-23 08:39:21
余承东再放豪言:问界M9让中国汽车产业家家都学习 新M9要让他们永远追不上

余承东再放豪言:问界M9让中国汽车产业家家都学习 新M9要让他们永远追不上

快科技
2026-04-23 09:06:34
用真实的数据来说话,穆里尼奥想入主皇马,就需要更衣室的支持率

用真实的数据来说话,穆里尼奥想入主皇马,就需要更衣室的支持率

穆里尼奥主义者
2026-04-22 21:33:52
何润东突然火了,全网扒他国籍和立场,结果发现根本不是那么回事

何润东突然火了,全网扒他国籍和立场,结果发现根本不是那么回事

小娱乐悠悠
2026-04-22 09:22:35
文班亚马脑震荡会缺席多久?马刺跟队记者爆料:他甚至没有去医院

文班亚马脑震荡会缺席多久?马刺跟队记者爆料:他甚至没有去医院

体坛野秀才
2026-04-22 12:52:03
段永平:40 岁我就退休了,我最深刻的体会

段永平:40 岁我就退休了,我最深刻的体会

新浪财经
2026-04-22 22:42:05
2026-04-23 09:43:00
硅屿手记
硅屿手记
有态度网友ytd
2849文章数 13关注度
往期回顾 全部

科技要闻

车没卖爆,利润却大涨,特斯拉发布财报

头条要闻

女子出差被老板性侵后向公司索赔250万 此前年薪120万

头条要闻

女子出差被老板性侵后向公司索赔250万 此前年薪120万

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

全球第一个国家宣布:储备6月耗尽

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

房产
手机
亲子
教育
公开课

房产要闻

官宣!今年9月起,广州中小学“重点班”将成历史!

手机要闻

概览苹果iPhone/iPad全球供应链,主力组装线迁回美国仍不现实

亲子要闻

服了

教育要闻

相似三角形与抛物线,一个视频学会!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版