施一公的西湖大学，发了个AI科学家！首超人类SOTA|实验|智能体|sota|顶尖科学家协会奖

分享至

智东西
作者李水青
编辑心缘

智东西10月13日报道，近日，西湖大学研究团队推出一款“AI科学家”智能体系统——DeepScientist，首次大规模实证AI能够在前沿科学任务上逐步超越人类的SOTA（行业最佳）。

▲DeepScientist开源界面

DeepScientist仅用两周就取得了相当于人类研究者三年研究成果的进展。研发团队通过三个前沿AI任务——智能体故障归因、大语言模型推理加速和AI文本检测，对此进行了验证。

▲DeepScientist用两周就取得相当于人类三年研究成果的进展

结果非常亮眼：DeepScientist仅用16块H800 GPU，花了一个月，最后在三个任务上都超过了人类的最先进方法——分别提升了183.7%、1.9%和7.9%。截至2025年9月，这一成绩也超越了DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder等前沿模型。

▲DeepScientist在三个任务上都超过了人类的最先进方法

在这个过程中，DeepScientist就像人类科学家一样，明确目标、提假设、做验证、分析结果，还会一边记忆一边探索新方向。它总共想出约5000个科研点子，验证了1100个，最终有21个带来了科学创新。团队强调，这些点子都是通过自主重新设计核心方法，而非简单组合现有技术。

在使用DeepReviewer与其他AI科学家系统的28篇公开论文进行基准测试时，DeepScientist是唯一能产出接受率达60%的论文的AI科学家系统。

▲DeepScientist接受率达60%

背后，DeepScientist的创新之处在于将科学发现形式化为一个贝叶斯优化问题，其架构通过一个配备开放知识系统和持续积累的发现记忆（Findings Memory）的多智能体系统，平衡对新假设的探索与利用，从而在预算受限的情况下最大限度地提高发现效率。

DeepScientist将采取四阶段渐进式开源。其目前已开源了前端和后端代码，并邀请小部分用户试用；计划在10月15日之前开源基础组件，支持用户构建自己的DeepScientist，11月之后还将发布实验数据以及开源DeepScientist的源代码。

▲DeepScientist论文截图

GitHub地址：
https://github.com/ResearAI/DeepScientist
论文地址：
https://arxiv.org/abs/2509.26603
体验申请地址：
http://ai-researcher.net/

一、3个AI任务验证：两周取得人类三年研究成果，超越人类183.7%

尽管此前的AI科研系统已能想出一些新点子，但它们往往缺乏针对性，无法解决紧迫的人类定义挑战，难以产出具有科学价值的成果。

西湖大学研究团队推出的DeepScientist系统，试图通过在长达数月的时间里进行目标导向的、完全自主的科学发现，来克服这一局限。

首先来看看三个AI任务，DeepScientist是如何取得科研成果的。

第一个AI任务是具有较高复杂度的“智能体故障归因”，即找出多AI系统里哪个AI导致任务失败。

DeepScientist发现当前方法缺乏归因所必需的反事实推理能力。通过反复试验、不断纠错以及综合新发现，最终提出了一种名为A2P（Abduction-Action-Prediction，溯因-行动-预测）的全新方法。

其核心创新在于将任务从简单的模式识别提升到结构化的因果推理，通过预测某个提议的解决方案是否本可带来成功，填补了反事实能力方面的关键空白。

这种新方法在Who&When基准测试的“算法生成”设置中获得了47.46分，比人类的SOTA基准提高了183.7%。截至2025年9月，无需训练的A2P方法仍保持着最先进水平的地位，也高于DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder、Gemini 2.5 Pro、GPT-OSS-120B的成绩。

▲DeepScientist完成的研究论文截图

论文地址：
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_A2P.pdf

二是大语言模型的推理加速任务，即让大语言模型运算更快。

此过程中，系统进行了许多不同的尝试，例如使用卡尔曼滤波器动态调整邻接矩阵，以解决原始方法缺乏记忆功能的问题。尽管这些尝试大多失败了，但系统生成的ACRA方法最终通过识别稳定的后缀模式，如图3所示，将MPBB从人类的最优水平190.25 tokens/秒提升到了193.90 tokens/秒。

从科学角度而言，这项创新意义重大，因为它利用这些额外的上下文信息动态调整解码猜测，有效地为该过程植入了长期记忆，打破了标准解码器的上下文坍缩问题。这一发现凸显了该系统的主要目标：创造人类未知的新知识，而非仅仅进行工程优化。

▲DeepScientist将MPBB提升到了193.90 tokens/秒

（该论文暂未上传GitHub）

三是AI文本检测，即让它判断一段文字是人类写的还是AI写的。

DeepScientist仅用两周就取得了相当于人类三年研究成果的进展。它通过在无需人类干预的情况下，实现目标导向、持续且迭代式的科学发现，克服了传统研究效率低的难题。

DeepScientist自主生成了2472个独特的研究思路，实现了600个最有前景的假设，并最终开发出在RAID数据集上将AUROC得分提高7.9%的方法，同时降低了推理延迟。

该系统产生了三种截然不同、且性能逐步提升的方法：T-Detect、TDT和PA-Detect。

首先，T-Detect通过稳健的t分布修正了核心统计数据，随后，TDT和PA-Detect在概念上进行了演进，它们将文本视为一种信号，并使用小波和相位一致性分析来精确定位异常。从科学角度来看，这种转变揭示了AI生成文本的“非平稳性”，缓解了先前范式中因平均化局部证据而产生的信息瓶颈。

如下图所示，这一完整的发现轨迹展示了DeepScientist在逐步推进前沿科学发现方面的能力，它建立了新的SOTA，AUROC提高了7.9%，同时推理速度也提升了一倍。

▲DeepScientist在AUROC得分提高了7.9%

▲DeepScientist完成的研究论文截图

论文地址：
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_TDT.pdf

▲DeepScientist完成的研究论文截图

论文地址：
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_T_Detect.pdf

二、仅用8块英伟达H800 GPU完成AI课题，DeepScientist架构解读

三项AI任务背后，团队仅为DeepScientist配备了两台服务器，每台服务器带有8块英伟达H800 GPU。

背后，DeepScientist的创新之处在于将科学发现形式化为一个贝叶斯优化问题，并通过“提出假设、验证和分析”的分层评估流程加以实现。在这种分层方案中，只有展现出潜力的研究思路才会进入成本更高的评估阶段，从而在预算受限的情况下最大限度地提高发现效率。

DeepScientist的架构通过一个配备开放知识系统和持续积累的发现记忆（Findings Memory）的多智能体系统，实现了贝叶斯优化循环。其在探索新假设与挖掘最有前景的发现之间实现智能平衡，并将最具潜力的成果推进到更高保真度的验证阶段。

DeepScientist基于西湖大学此前已有研发成果，仅用两个月、花费约10万美元（约合71.3万元人民币）就搭建完成。来自西湖大学团队的文章第一作者Yixuan Weng最新采访记录公开，记录如下：

1、问：你之前的项目是CycleResearcher。为什么将这个新项目命名DeepScientist为而不是DeepResearcher？

答：早在2024年9月，我就计划将我现在的工作命名为“DeepResearcher”，类似于DeepReviewer。然而，OpenAI后来用了这个名字。所以我决定将我的项目命名为DeepScientist。

2、问：什么时候开源？

答：我会在确保足够安全的情况下才会开源，因为我还不能完全确定它DeepScientist给学术界带来的益处是否大于其潜在的风险。因此，我必须采取谨慎的态度。

（问：为什么要采取分阶段开源策略？）

因为社区热情高涨——几乎每个人都迫不及待地想让我开源它！我计划利用国庆节和中秋节假期来修改代码，以便社区能够尽早体验该系统，并探索它如何加速不同领域的科学发现。

感谢中关村研究院的支持，我们将能够免费向社区提供完整的DeepScientist系统。

3、问：我有机会重现或改进DeepScientist吗？

答：当然！我们只用了两个月就基于ResearStudio构建了它。我相信你可以轻松创建类似“Open-DeepScientist”或“nano-DeepScientist”的项目。我们强烈鼓励社区开展此类项目。

（ResearStudio是首个用于构建可人工干预的深度研究智能体的开源框架。它实现了人机实时协作，允许用户在执行过程中暂停、编辑和引导AI智能体，而非传统的“发射后不管”模式。其Agent核心层采用了规划器（GPT-4）和执行器（GPT-4o-mini/o3）。）

GitHub地址：
https://github.com/ResearAI/ResearStudio?tab=readme-ov-file

4、问：您是否认为AI驱动的科学发现存在缩放定律？

答：我坚信AI驱动的科学发现遵循其自身的“缩放定律”。但这并非孤立现象——它是人类不断加速的科学发现的自然延伸和放大。纵观历史，科学进步的速度一直在不断加快，在现代，这种加速尤为明显。从中学开始，我就喜欢玩《席德·梅尔的文明》，游戏中知识和技术的积累会更快地带来“尤里卡时刻”。我相信，我们现在正在进入一个由AI驱动的现实世界的“尤里卡时代”。

5、问：目前，所谓的“AI科学家”看起来更像是“高通量试错机器”，而不是真正具有深刻洞察力的“发现者”。我们如何才能提升他们的科学直觉？

答：首先，随着模型能力的提升，我已经感受到它们识别科学问题局限性的能力在提升。早期的DeepSeek-R1版本，它的观察结果非常肤浅。但Qwen-3-235B-Thinking-2507发布后，它的洞察力和假设生成能力明显提升。在我看来，只有比Qwen-3-235B版本更强大的模型才能产生真正有价值的发现。

RLVR（基于可验证奖励的强化学习）是一个很有前景的方向，但它也面临挑战：成本高昂、训练效率低，大约需要1000个GPU小时才能生成一个有用的样本。

6、问：这项研究的总成本约为10万美元（约合71.3万元人民币）。与资助一名人类博士生进行类似研究周期相比，您认为目前这笔费用是否划算？

答：我认为两者各有优势。失败是成功之母，而AI最大的优势在于它能够持续探索而不疲倦。

一方面，我们可以依靠AI尝试许多不同的策略——即使发现某种方法在某个领域失败了，本身也是一个有意义的发现。另一方面，这仅仅是个开始。未来几年，由于能力的提升和推理成本的降低，AI的成本将大幅下降。

7、问：您论文中最令人兴奋的发现之一是计算资源与研究产出之间的“近线性关系”。您预测这种趋势会随着GPU数量的增加而无限期地持续下去吗？还是很快就会遇到瓶颈？下一个瓶颈可能是什么？

答：我认为这种情况不会无限期地持续下去。我们即将遇到瓶颈。下一个瓶颈将是“探索效率”，而不是“探索规模”。目前，大多数计算资源都浪费在低价值的探索上。未来的挑战是如何避免这种低价值的工作。

虽然DeepScientist偶尔会通过反复试验发现新的方法来提高性能，但收益往往微乎其微。只有当我们能够进行大规模、高价值的探索时，真正的突破才会到来。

8、问：还有其他惊喜吗？

答：是的！10月初，我们双方将全面开源一款工具。我相信每位研究人员都会对此感兴趣——它显著增强了DeepScientist的演示能力。

三、4步渐进式开源：10月中用户可构建自己的AI科学家

DeepScientist的整个开源计划会分为四个阶段。

阶段0：通用智能体框架

西湖大学已经在ResearAI/ResearStudio开源了前端和后端代码。用户可以以此为基础，使用自己的自定义工具构建各种专业的Agent。
GitHub地址：
https://github.com/ResearAI/ResearStudio

第一阶段：基于应用程序的访问（预计在10月1日之前）

为了确保安全，西湖大学团队将邀请一小部分用户试用DeepScientist，共同完善该框架。如果用户有准备探索的任务，可以填写其等候名单表格。

申请地址：
https://forms.gle/8FnGgqgBVEKv3q6a7

第二阶段：基础组件发布（预计10月15日之前）

在确保安全之后，西湖大学团队将开源基础组件。在此阶段，用户可以立即开始构建自己的DeepScientist，或者复制西湖大学团队的工作。

第三阶段：实验数据发布（预计11月之后）

西湖大学团队将开源所有约5000条假设和约1100条实验日志。这将是首次公开如此大规模的AI实验结果数据集。

第四阶段：DeepScientist源代码发布

西湖大学团队将进行长期测试和调整，以防止对人类研究造成任何潜在危害。之后，团队将发布DeepScientist代码的核心架构，以促进社区发展。

结语：AI科学家赋能科研，进入规模化实证阶段

西湖大学研发团队首次通过实证展示了一个自动化全周期科学发现系统，该系统能够产生新颖且超越现有最佳水平的方法，并以大幅超过人类研究人员的速度不断推进科学前沿。AI有望真正推动多个不同领域的前沿发展，产生具有持久影响的发现，并系统地推进多个领域的技术前沿。

不过，团队也坦言AI科研的成功率还可以继续提升，5000个点子里最终仅21个能真正带来科学突破，约60%的失败是因为代码实现出错。但好在它效率高，而且给它更多计算资源，它出成果的数量也会差不多成比例增加。

为了让AI成为更得力的合作伙伴，西湖大学研发团队认为，未来的工作应聚焦于几项关键改进：开发模拟发现环境，通过强化学习加速学习进程；构建整合科学界反馈的框架；最终通过机器人技术弥合与物理科学之间的差距。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.