网易首页 > 网易号 > 正文 申请入驻

谷歌最新论文宣告AI成独立科研主体

0
分享至

日前,谷歌DeepMind 与多所顶尖学术机构的研究者联合发布论文《Aletheia:自主攻克FirstProof数学难题挑战赛》(arXiv:2602.21201) 。


论文的核心是,评估名为 Aletheia 的数学研究代理系统在 FirstProof 这一公开挑战中的表现。

在没有人类干预的情况下,Aletheia成功完成多道研究级数学难题。

这不是简单的“算对了题”,而是达到了接近学术发表标准的证明水平。

这意味着 AI 开始真正触及“数学创造力”,这个长期被认为是人类专属的领域。

FirstProof 不是简单的算术或者基础证明题,而是由专业数学家设定的一组十个研究级难度的问题。

这些问题往往涉及抽象概念和严谨推理,传统上只有受过训练的数学家才能应对。组织方希望通过这个挑战评估当前 AI 在数学领域的真实能力边界。


Aletheia 也并不是一个普通的自动答题机器人,而是一个结合了生成式模型和验证机制的智能体,基于谷歌最新的大模型架构 Gemini 3 Deep Think。

它的设计目标不仅是输出答案,而是在 无人类干预的前提下 尽可能自动地提出数学证明。

也就是说,从理解题意、构思思路、生成证明草稿,到最终输出一段严谨 LaTeX 格式的证明文本,整个过程都是由智能体自主完成的。

Aletheia 由三个核心模块构成:

猜想生成:从数学文献中识别有价值的开放问题,并生成形式化命题。

自主证明搜索:结合符号推理、启发式搜索与自我修正,寻找形式化证明。

严谨验证:使用自动证明检验器与自我批判机制,过滤无效论证并确保正确性。


整个流程完全自动化,无需人类撰写提示、选择问题或审核中间步骤。Aletheia 自主判断哪些问题可解、哪些方向有价值、以及证明何时完成且正确。

论文作者为了评估其真实能力,在整个流程中严格排除了人为提示和干预,只保留最终专家对结果的判断与评价。

在 FirstProof 的十个问题中,Aletheia 成功给出了六个问题的可评估解答,被独立数学专家(有些来自论文作者之外的学术界)认为,满足出版前的“可修订发表”标准。


更重要的是,这种能力是在没有人工设计思路的情况下实现的,充分体现了 AI 在数学推理上从辅助工具向真正“研究伙伴”的转变。

值得注意的是,Aletheia 并不是在所有问题上都做到了完美。在那些极其复杂或高度依赖深厚数学直觉的问题上,它仍然无法给出有效输出。所以说,暂时它还不是完全合格的数学家。

但总的来说,这项工作标志着 AI 在数学研究领域取得了实质性的进展。

从 ChatGPT 或 Gemini 这类大语言模型能会话式讨论数学,到 Aletheia 能在没有人类引导的情况下解决复杂证明问题,是科研史上的一次重要里程碑。

虽然距离完全取代人类数学家还有很长的路要走,但这一成果无疑推动了人工智能在创意推理与科学发现方面的边界。

这不仅对数学界是重要突破,也预示着未来 AI 将在数学、物理、计算机科学,乃至整个基础科研领域,承担越来越重要的角色。

也就是说,AI第一次真正从“辅助工具”进化为独立科研主体,开创了“AI自主做科学研究”的全新范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看哭了!伊朗亮出最后底牌,让美国胆寒的出现了!

看哭了!伊朗亮出最后底牌,让美国胆寒的出现了!

大嘴说天下
2026-03-05 20:52:18
信号很强烈!中央罕见表态,A股这些板块即将大涨!

信号很强烈!中央罕见表态,A股这些板块即将大涨!

付一夫
2026-03-06 07:30:22
伊朗通告全球,不与美国谈判,三国计划下场,特朗普发现情况不妙

伊朗通告全球,不与美国谈判,三国计划下场,特朗普发现情况不妙

基斯默默
2026-03-06 14:34:33
全国人大代表戴茵建议不对70岁以上老人开自动续费

全国人大代表戴茵建议不对70岁以上老人开自动续费

IT之家
2026-03-06 14:41:03
伊朗说要动用新一代导弹打击美以目标

伊朗说要动用新一代导弹打击美以目标

财联社
2026-03-06 18:09:35
很多人还不知道,原来只要知道对方手机号码,就可以查到对方位置了!

很多人还不知道,原来只要知道对方手机号码,就可以查到对方位置了!

CG说科技
2026-03-05 16:59:05
伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

哲叔视野
2026-03-06 09:26:23
国家发改委主任:新建、改扩建1000所普通高中,增加学位200万个以上,支持双一流高校本科扩招10万人以上

国家发改委主任:新建、改扩建1000所普通高中,增加学位200万个以上,支持双一流高校本科扩招10万人以上

极目新闻
2026-03-06 18:28:25
下饭文化杀死了多少中国胃,一碗米饭的阴谋

下饭文化杀死了多少中国胃,一碗米饭的阴谋

富贵说
2026-03-05 15:56:38
大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风新闻
2026-03-06 13:45:07
双手奉上的雷达,说明华为想通了

双手奉上的雷达,说明华为想通了

虎嗅APP
2026-03-06 09:05:07
人类灭亡已成定局?马斯克预言人类灭绝方式,科学家早已算出日期

人类灭亡已成定局?马斯克预言人类灭绝方式,科学家早已算出日期

猪小艳吖
2026-03-06 15:07:43
伊朗称一艘美国油轮在科威特边境遭袭

伊朗称一艘美国油轮在科威特边境遭袭

财联社
2026-03-06 19:44:30
政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

政府报告三提“休假”背后:一年117天假 为什么中国人还休不够

冷观互联网
2026-03-06 11:48:12
广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

大象新闻
2026-03-06 02:03:20
美以开打一周欲拖盟友“下水” 伊朗再袭美“林肯”号航母

美以开打一周欲拖盟友“下水” 伊朗再袭美“林肯”号航母

大象新闻
2026-03-06 07:27:19
伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

麓谷隐士
2026-03-06 07:37:46
执掌苏宁30年,从江苏首富到资产清零!张近东经历了什么?

执掌苏宁30年,从江苏首富到资产清零!张近东经历了什么?

新浪财经
2026-03-05 21:16:23
外交部副部长苗得雨吊唁哈梅内伊

外交部副部长苗得雨吊唁哈梅内伊

第一财经资讯
2026-03-06 11:36:51
特殊时点,金正恩再上“最大的船”

特殊时点,金正恩再上“最大的船”

中国新闻周刊
2026-03-06 18:14:11
2026-03-06 20:11:00
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
448文章数 62关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

美媒询问中方对伊朗的支持是否涉军事援助 外交部回应

头条要闻

美媒询问中方对伊朗的支持是否涉军事援助 外交部回应

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

健康
手机
房产
数码
公开课

转头就晕的耳石症,能开车上班吗?

手机要闻

小米开测首个手机版龙虾Xiaomi miclaw!王腾:超级期待

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

数码要闻

Mate 80 Pro同款芯!华为把麒麟9030 Pro塞进笔记本:挑战苹果

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版