网易首页 > 网易号 > 正文 申请入驻

西湖大学开发AI科学家,实现全自动科学发现,两周搞定人类科学家三年工作

0
分享至


撰文丨王聪

编辑丨王多鱼

排版丨水成文

科学发现本质上是一个持续探索反复试验的过程,人类科学家通常需要投入大量时间和精力,才能推动人类知识边界向前迈进一小步。从半导体制造到光伏电池效率提升,历史上的技术发展轨迹都表明,人类科学家需要数十年目标导向的迭代工作才能不断推动技术进步。

近年来,大语言模型(LLM)的出现推动了自动化科学发现的发展。基于 LLM 的AI 科学家(AI Scientist)系统在探索中处于领先地位,凭借强大的长篇文本生成能力和理解能力,LLM 实现了科学发现的端到端、全周期自动化。

然而,在缺乏明确科学目标的情况下,当前的 AI 科学家系统往往陷入盲目重组现有知识和方法的陷阱。因此,AI 科学家作出的研究成果,在人类科学家看来,仍然很幼稚,往往缺乏真正的科学价值。

而现在,人类科学家三年累计取得的进展,一个AI 科学家竟然短短两周搞定!

这不是科幻小说,而是来自西湖大学工学院张岳教授团队(翁诣轩朱敏郡为共同第一作者)开发的一款AI 科学家系统——DeepScientist。该论文以:DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively 为题,发表在了预印本平台arXiv上。

DeepScientist具备了完整的科研能力,无需人类干预,展现出了目标驱动持续迭代的科学发现能力,成功克服了传统研究的局限,成为首个大规模实证研究证明的能够在前沿科学任务上渐进式超越人类科学家最先进水平(SOTA)的 AI 科学家系统。


这标志着人工智能(AI)从人类的科研助手向着成为人类真正的科研合作伙伴迈出了至关重要的一步。



DeepScientist 如何工作?


DeepScientist将科学发现的全周期建模为一个目标驱动的贝叶斯优化问题,其唯一目标是找到能够最大化目标性能指标的新方法。系统采用迭代工作流程和持续扩展的先验研究知识记忆库,智能平衡探索未知可能性利用已有成果

其核心创新在于三阶段探索循环:

策略与假设:系统分析记忆库中的数千条结构化记录,识别现有知识的局限性,生成新的假设集合,并由低成本替代模型(LLM 评审员)进行评估。

实施与验证:这是记忆库中的主要过滤阶段,系统使用获取函数(acquisition function)选择最有希望的记录进行真实世界实验验证,编码智能体在沙盒环境中执行存储库级别的实现。

分析与报告:当“实施发现”成功超越基线时,其记录被提升为“进展发现”,系统自主设计并执行一系列更深层次的分析实验,最后将所有实验结果和分析见解整合成可重现的研究论文。

三个前沿科学领域的突破性表现

研究团队选择了三个不同前沿科学任务的最先进方法(发表于 2024 和 2025 年)作为起点,这些方法因其前沿地位、社区兴趣和人类可监督性而被选中。


DeepScientist:自主超越 SOTA 的发现

智能体失败归因:任务解决的是“在基于 LLM 的多智能体系统中,哪个智能体导致任务失败以及何时失败?”的问题。DeepScientist 从基线方法出发,最终提出了A2P方法(Abduction-Action-Prediction 过程),其核心创新将故障归因从模式识别提升到因果推理,性能大幅提升了183.7%。

LLM 推理加速:这是一个高度优化的领域,旨在最大化 LLM 推理的吞吐量和减少延迟,系统生成的 ACRA 方法最终将 MPBB 数据集上的人类 SOTA 从 190.25 推进到了 193.90 tokens/秒,提高了1.9%

AI 文本检测:这是一个二进制分类任务,给定可能包含 LLM 生成内容的文本,目标是确定它是由人类还是 LLM 产生的。DeepScientist 在短短两周内产生了三种不同的、逐步优越的方法(T-Detect、TDT和PA-Detect),建立了新的 SOTA,AUROC 提高了7.9%,同时推理速度翻倍。这相当于人类科学家三年累计的成果。


DeepScientist 两周=人类科学家三年


DeepScientist 在多任务中超越人类 SOTA

生成论文的质量如何?

为了评估最终输出的质量,研究团队对DeepScientist端到端过程自主生成的五篇研究论文进行了评估。

使用DeepReviewer(一个模拟人类同行评议过程的 AI 智能体)进行的自动化评估,结果显示,DeepScientist 是唯一一个生成论文的接受率达到 60% 的 AI 科学家系统。

人类专家的评估更加令人印象深刻:三位活跃的 LLM 研究人员组成的程序委员会一致认为,DeepScientist 在构思阶段表现卓越——这是人类主导研究中最具挑战性和往往限制进度的步骤。系统的平均评分(5.00)与所有 ICLR 2025 提交论文的平均分(5.08)非常接近,其中两篇论文甚至显著超过了这一水平,达到了 5.67 分。


在生成论文方面,DeepScientist 碾压其他 AI 科学家


人类专家对 DeepScientist 生成的论文进行评估

探索过程中的宝贵洞察

对 DeepScientist 实验日志的分析,揭示了其在自主科学发现中固有的试错过程的巨大规模。即使在相对快速执行的领域,取得进展也需要每个任务进行数百次试验。

自主研究过程的特点是一个巨大的探索漏斗,其中有希望的想法异常罕见。 在这三个前沿科学任务中,DeepScientist 产生了超过 5000 个独特想法,但只有约 1100 个被系统选择机制认为值得实验验证,仅有 21 个最终带来科学进展。放弃研究表明选择过程的关键性:如果没有它,随机抽样 100 个想法进行测试的成功率实际上为 0。而采用选择策略后,成功率提高到约 1-3%,表明智能过滤至关重要。

缩放定律的启示

为了研究计算规模与科学进展速率之间的关系,研究团队评估了DeepScientist在固定一周时间内产生的“进展发现”数量与可用并行资源的关系。

结果显示了一个有希望的缩放趋势:虽然最少的资源没有产生突破,但随着扩展到 4 个 GPU 及以上,发现率开始有效增加,从 4 个 GPU 时的 1 个 SOTA 超越发现,增加到 16 个 GPU 时的 11 个。这似乎在分配的资源与有价值科学发现之间建立了近乎线性的关系。


一周内,DeepScientist 在所有任务中发现超越 SOTA 的“进展发现”数量与 GPU 数量之间的关系

这也意味着,对于AI 科学家而言,科学突破不再只是天才科学家的灵光一闪,而是可以像训练大模型一样,通过系统化地增加计算资源来“规模化生产”。

未来展望

DeepScientist的结果提出了科学探索的新范式,其 1-5% 的进展率反映了前沿研究的现实——突破本身就很罕见。其核心优势不是绝对正确,而是以以前难以想象的规模和速度进行这种试错过程,将人类多年的探索压缩到几周内。

这项研究提供了第一个大规模实验验证证据,表明自主 AI 科学家具有在现代科学前沿探索中实现逐步超越人类 SOTA 的能力。DeepScientist 作为一个目标导向的系统,实现了从构思到真实进展的端到端自主,通过综合人类知识和自身试验发现来学习。

DeepScientist可能标志着 AI 研究的基础性转变,预示着一个科学发现速度不再完全由人类思维节奏决定的新时代——在这个时代,AI 不再只是人类的科研助手,而是成为了能够自主推动科学前沿的合作伙伴。

AI 科学家交流群

论文链接

https://doi.org/10.48550/arXiv.2509.26603

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京六环外惊现豪车坟场,百万级座驾积灰成排静卧

北京六环外惊现豪车坟场,百万级座驾积灰成排静卧

数码实测录
2026-01-19 11:54:15
“中美关系处于过去八年来最好时期”

“中美关系处于过去八年来最好时期”

凤凰WEEKLY
2026-01-18 18:38:24
高盛:未来一年最棒投资方向不是美国,而是…

高盛:未来一年最棒投资方向不是美国,而是…

财联社
2026-01-19 11:38:10
斑块最怕的“清洁工”,就在你家厨房!一天吃两口,血管干干净净

斑块最怕的“清洁工”,就在你家厨房!一天吃两口,血管干干净净

江江食研社
2026-01-17 14:30:05
谁能想到,马云对美团王兴的复仇,一等就是整整十年

谁能想到,马云对美团王兴的复仇,一等就是整整十年

流苏晚晴
2025-12-29 18:31:44
“中俄巩固主导地位,新建数量占全球90%”

“中俄巩固主导地位,新建数量占全球90%”

观察者网
2026-01-19 15:05:09
5岁孩子长期玩"玩具",黑眼珠逐渐"消失",医生:很难恢复了

5岁孩子长期玩"玩具",黑眼珠逐渐"消失",医生:很难恢复了

大果小果妈妈
2026-01-15 20:16:55
罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

瓜汁橘长Dr
2025-12-29 11:29:56
中国少发213吨!高市表态:日本054B当靶船,中道党放大招

中国少发213吨!高市表态:日本054B当靶船,中道党放大招

瑛派儿老黄
2026-01-19 18:47:32
包钢分厂爆炸事故致5人失联,包钢医院工作人员:医生都忙着抢救伤员,具体伤亡情况还没统计出来

包钢分厂爆炸事故致5人失联,包钢医院工作人员:医生都忙着抢救伤员,具体伤亡情况还没统计出来

极目新闻
2026-01-18 19:07:42
张艺谋做梦也没有想到,才24岁的儿子,如今已经开始为他争光了

张艺谋做梦也没有想到,才24岁的儿子,如今已经开始为他争光了

胡一舸南游y
2026-01-19 19:32:18
加拿大考虑向格陵兰岛派兵!争端升级,欧洲拟对美商品加征报复性关税

加拿大考虑向格陵兰岛派兵!争端升级,欧洲拟对美商品加征报复性关税

每日经济新闻
2026-01-19 08:59:06
此人输光全师三个月军饷,蒋介石骂完给张支票,还给他升一级官

此人输光全师三个月军饷,蒋介石骂完给张支票,还给他升一级官

千秋文化
2026-01-16 19:24:49
聂卫平病逝!他的三任妻子中,王静名气最大,处境却最让人心疼

聂卫平病逝!他的三任妻子中,王静名气最大,处境却最让人心疼

细品名人
2026-01-19 07:30:47
西贝解释羊肉为何一年一采:瞄准风味巅峰时节,门店全年使用

西贝解释羊肉为何一年一采:瞄准风味巅峰时节,门店全年使用

识礁Farsight
2026-01-19 18:13:44
一位分管财政的副县长无奈地说,“住建、环

一位分管财政的副县长无奈地说,“住建、环

碧翰烽
2026-01-18 16:54:52
毛驴有了自己的新磨盘!

毛驴有了自己的新磨盘!

大道微言
2026-01-18 11:49:24
超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

午夜故事会
2024-07-08 10:57:49
上海将迎来雨雪混杂天气,明天雪量“毫米级”

上海将迎来雨雪混杂天气,明天雪量“毫米级”

金台资讯
2026-01-19 09:49:36
CCTV5直播,上海久事VS北京首钢,古德温PK杰曼,大白边VS马帝昂

CCTV5直播,上海久事VS北京首钢,古德温PK杰曼,大白边VS马帝昂

体坛小快灵
2026-01-19 15:05:13
2026-01-19 20:36:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
8751文章数 144977关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

梅德韦杰夫讽刺:让美国再次伟大等于让丹麦再次变小

头条要闻

梅德韦杰夫讽刺:让美国再次伟大等于让丹麦再次变小

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

艺术
数码
时尚
家居
公开课

艺术要闻

有一种美,叫做中国园林!

数码要闻

等3天,当贝Air1耳夹式耳机或许会重新定义“舒服”佩戴

伊姐周日热推:电视剧《看得见风景的窗》;电视剧《春日狂热》......

家居要闻

隽永之章 清雅无尘

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版