网易首页 > 网易号 > 正文 申请入驻

西湖大学开发AI科学家,实现全自动科学发现,两周搞定人类科学家三年工作

0
分享至


撰文丨王聪

编辑丨王多鱼

排版丨水成文

科学发现本质上是一个持续探索反复试验的过程,人类科学家通常需要投入大量时间和精力,才能推动人类知识边界向前迈进一小步。从半导体制造到光伏电池效率提升,历史上的技术发展轨迹都表明,人类科学家需要数十年目标导向的迭代工作才能不断推动技术进步。

近年来,大语言模型(LLM)的出现推动了自动化科学发现的发展。基于 LLM 的AI 科学家(AI Scientist)系统在探索中处于领先地位,凭借强大的长篇文本生成能力和理解能力,LLM 实现了科学发现的端到端、全周期自动化。

然而,在缺乏明确科学目标的情况下,当前的 AI 科学家系统往往陷入盲目重组现有知识和方法的陷阱。因此,AI 科学家作出的研究成果,在人类科学家看来,仍然很幼稚,往往缺乏真正的科学价值。

而现在,人类科学家三年累计取得的进展,一个AI 科学家竟然短短两周搞定!

这不是科幻小说,而是来自西湖大学工学院张岳教授团队(翁诣轩朱敏郡为共同第一作者)开发的一款AI 科学家系统——DeepScientist。该论文以:DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively 为题,发表在了预印本平台arXiv上。

DeepScientist具备了完整的科研能力,无需人类干预,展现出了目标驱动持续迭代的科学发现能力,成功克服了传统研究的局限,成为首个大规模实证研究证明的能够在前沿科学任务上渐进式超越人类科学家最先进水平(SOTA)的 AI 科学家系统。


这标志着人工智能(AI)从人类的科研助手向着成为人类真正的科研合作伙伴迈出了至关重要的一步。



DeepScientist 如何工作?


DeepScientist将科学发现的全周期建模为一个目标驱动的贝叶斯优化问题,其唯一目标是找到能够最大化目标性能指标的新方法。系统采用迭代工作流程和持续扩展的先验研究知识记忆库,智能平衡探索未知可能性利用已有成果

其核心创新在于三阶段探索循环:

策略与假设:系统分析记忆库中的数千条结构化记录,识别现有知识的局限性,生成新的假设集合,并由低成本替代模型(LLM 评审员)进行评估。

实施与验证:这是记忆库中的主要过滤阶段,系统使用获取函数(acquisition function)选择最有希望的记录进行真实世界实验验证,编码智能体在沙盒环境中执行存储库级别的实现。

分析与报告:当“实施发现”成功超越基线时,其记录被提升为“进展发现”,系统自主设计并执行一系列更深层次的分析实验,最后将所有实验结果和分析见解整合成可重现的研究论文。

三个前沿科学领域的突破性表现

研究团队选择了三个不同前沿科学任务的最先进方法(发表于 2024 和 2025 年)作为起点,这些方法因其前沿地位、社区兴趣和人类可监督性而被选中。


DeepScientist:自主超越 SOTA 的发现

智能体失败归因:任务解决的是“在基于 LLM 的多智能体系统中,哪个智能体导致任务失败以及何时失败?”的问题。DeepScientist 从基线方法出发,最终提出了A2P方法(Abduction-Action-Prediction 过程),其核心创新将故障归因从模式识别提升到因果推理,性能大幅提升了183.7%。

LLM 推理加速:这是一个高度优化的领域,旨在最大化 LLM 推理的吞吐量和减少延迟,系统生成的 ACRA 方法最终将 MPBB 数据集上的人类 SOTA 从 190.25 推进到了 193.90 tokens/秒,提高了1.9%

AI 文本检测:这是一个二进制分类任务,给定可能包含 LLM 生成内容的文本,目标是确定它是由人类还是 LLM 产生的。DeepScientist 在短短两周内产生了三种不同的、逐步优越的方法(T-Detect、TDT和PA-Detect),建立了新的 SOTA,AUROC 提高了7.9%,同时推理速度翻倍。这相当于人类科学家三年累计的成果。


DeepScientist 两周=人类科学家三年


DeepScientist 在多任务中超越人类 SOTA

生成论文的质量如何?

为了评估最终输出的质量,研究团队对DeepScientist端到端过程自主生成的五篇研究论文进行了评估。

使用DeepReviewer(一个模拟人类同行评议过程的 AI 智能体)进行的自动化评估,结果显示,DeepScientist 是唯一一个生成论文的接受率达到 60% 的 AI 科学家系统。

人类专家的评估更加令人印象深刻:三位活跃的 LLM 研究人员组成的程序委员会一致认为,DeepScientist 在构思阶段表现卓越——这是人类主导研究中最具挑战性和往往限制进度的步骤。系统的平均评分(5.00)与所有 ICLR 2025 提交论文的平均分(5.08)非常接近,其中两篇论文甚至显著超过了这一水平,达到了 5.67 分。


在生成论文方面,DeepScientist 碾压其他 AI 科学家


人类专家对 DeepScientist 生成的论文进行评估

探索过程中的宝贵洞察

对 DeepScientist 实验日志的分析,揭示了其在自主科学发现中固有的试错过程的巨大规模。即使在相对快速执行的领域,取得进展也需要每个任务进行数百次试验。

自主研究过程的特点是一个巨大的探索漏斗,其中有希望的想法异常罕见。 在这三个前沿科学任务中,DeepScientist 产生了超过 5000 个独特想法,但只有约 1100 个被系统选择机制认为值得实验验证,仅有 21 个最终带来科学进展。放弃研究表明选择过程的关键性:如果没有它,随机抽样 100 个想法进行测试的成功率实际上为 0。而采用选择策略后,成功率提高到约 1-3%,表明智能过滤至关重要。

缩放定律的启示

为了研究计算规模与科学进展速率之间的关系,研究团队评估了DeepScientist在固定一周时间内产生的“进展发现”数量与可用并行资源的关系。

结果显示了一个有希望的缩放趋势:虽然最少的资源没有产生突破,但随着扩展到 4 个 GPU 及以上,发现率开始有效增加,从 4 个 GPU 时的 1 个 SOTA 超越发现,增加到 16 个 GPU 时的 11 个。这似乎在分配的资源与有价值科学发现之间建立了近乎线性的关系。


一周内,DeepScientist 在所有任务中发现超越 SOTA 的“进展发现”数量与 GPU 数量之间的关系

这也意味着,对于AI 科学家而言,科学突破不再只是天才科学家的灵光一闪,而是可以像训练大模型一样,通过系统化地增加计算资源来“规模化生产”。

未来展望

DeepScientist的结果提出了科学探索的新范式,其 1-5% 的进展率反映了前沿研究的现实——突破本身就很罕见。其核心优势不是绝对正确,而是以以前难以想象的规模和速度进行这种试错过程,将人类多年的探索压缩到几周内。

这项研究提供了第一个大规模实验验证证据,表明自主 AI 科学家具有在现代科学前沿探索中实现逐步超越人类 SOTA 的能力。DeepScientist 作为一个目标导向的系统,实现了从构思到真实进展的端到端自主,通过综合人类知识和自身试验发现来学习。

DeepScientist可能标志着 AI 研究的基础性转变,预示着一个科学发现速度不再完全由人类思维节奏决定的新时代——在这个时代,AI 不再只是人类的科研助手,而是成为了能够自主推动科学前沿的合作伙伴。

AI 科学家交流群

论文链接

https://doi.org/10.48550/arXiv.2509.26603

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
万辆MEGA紧急召回!理想汽车承认:我们可能用了“假冷却液”……

万辆MEGA紧急召回!理想汽车承认:我们可能用了“假冷却液”……

DearAuto
2025-11-01 17:00:36
国足深夜传消息!11月热身赛再度告吹,10人进入选帅最终面试

国足深夜传消息!11月热身赛再度告吹,10人进入选帅最终面试

体育吐槽
2025-11-01 23:54:25
局长去世同事疏远,只有女副科长去吊唁,三年后女副科升正局

局长去世同事疏远,只有女副科长去吊唁,三年后女副科升正局

秋风专栏
2025-10-30 10:44:21
美国人:中国在空间站造出稀有金属,才解决了六代机航发大难题?

美国人:中国在空间站造出稀有金属,才解决了六代机航发大难题?

梁讯
2025-10-31 17:08:34
降温后才发现:满大街都是“裙子+靴子”,优雅减龄,高级显气质

降温后才发现:满大街都是“裙子+靴子”,优雅减龄,高级显气质

何有强
2025-10-31 23:47:09
代价沉重的教训,回顾1960年重庆中梁山煤矿特大瓦斯煤尘爆炸事故

代价沉重的教训,回顾1960年重庆中梁山煤矿特大瓦斯煤尘爆炸事故

顾氏造船厂厂长
2025-10-27 08:00:16
伤心脏最凶的调料被揪出,是食盐的5倍,医生:心脏病患者别放了

伤心脏最凶的调料被揪出,是食盐的5倍,医生:心脏病患者别放了

游古史
2025-10-31 13:26:05
“灰色强奸”离我们有多近?受害者:我甚至没意识到那居然是强奸

“灰色强奸”离我们有多近?受害者:我甚至没意识到那居然是强奸

云端小院
2025-10-30 08:09:36
太涩了?日本真人影游被Steam下架!只能另寻出路

太涩了?日本真人影游被Steam下架!只能另寻出路

游民星空
2025-11-01 15:10:11
《水浒传》的“水浒”原来是这个意思,豁然开朗,终于读懂了!

《水浒传》的“水浒”原来是这个意思,豁然开朗,终于读懂了!

每日一首古诗词
2025-10-31 07:07:37
西媒:赢球易服众难!阿隆索在更衣室已遭受多位球员挑战

西媒:赢球易服众难!阿隆索在更衣室已遭受多位球员挑战

雷速体育
2025-11-01 22:04:47
11.2凌晨法国冠军赛:女单4强出炉,陈熠2-4申裕斌,中日仅剩独苗

11.2凌晨法国冠军赛:女单4强出炉,陈熠2-4申裕斌,中日仅剩独苗

林子说事
2025-11-02 04:03:03
李小璐疑擦边“佛媛”!寺庙大量裹胸不雅照遭疯传,比出轨还恶心

李小璐疑擦边“佛媛”!寺庙大量裹胸不雅照遭疯传,比出轨还恶心

八星人
2025-10-30 11:05:04
外媒问韩国总统李在明:若中国武统台湾,你会不会出手?

外媒问韩国总统李在明:若中国武统台湾,你会不会出手?

百态人间
2025-10-31 14:43:57
谷爱凌,头发变黑,脸变精致,胸围傲人,气质变得更优?

谷爱凌,头发变黑,脸变精致,胸围傲人,气质变得更优?

娱乐领航家
2025-10-27 22:00:06
5名女子火锅店吃了7盘毛肚,结账竟花了39800,报警后老板说出内幕

5名女子火锅店吃了7盘毛肚,结账竟花了39800,报警后老板说出内幕

如烟若梦
2025-10-09 18:40:03
钱再多有什么用?抗癌一年刘谦憔悴到认不出,给中老年人提了个醒

钱再多有什么用?抗癌一年刘谦憔悴到认不出,给中老年人提了个醒

仙味少女心
2025-11-01 20:15:15
从破厂到全球第一!山东这家没人知道的工厂,干翻欧美巨头

从破厂到全球第一!山东这家没人知道的工厂,干翻欧美巨头

青眼财经
2025-11-01 20:16:02
罗威:状态还没全恢复,我能提供和克林根&杨瀚森不同的战术

罗威:状态还没全恢复,我能提供和克林根&杨瀚森不同的战术

雷速体育
2025-11-01 20:08:27
2025-11-02 04:56:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
8315文章数 144882关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美国防长国务卿受威胁 躲进军事基地

头条要闻

美国防长国务卿受威胁 躲进军事基地

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

换新一口价11.98万 第三代蓝电E5 PLUS开启预售

态度原创

教育
时尚
艺术
手机
旅游

教育要闻

最近的校园霸凌事件警醒家长:女儿过了11岁,一定要拴在裤腰带上

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

艺术要闻

美貌与艺术的碰撞!9位摄影师,哪一位是你的菜?

手机要闻

疑似OPPO Find X10被曝光:2亿潜望镜确认加持,其他厂商怎么玩?

旅游要闻

运河明珠,千年守望:杭州拱宸桥的前世今生与文化密码!

无障碍浏览 进入关怀版