网易首页 > 网易号 > 正文 申请入驻

首个全自动AI科学家诞生!西湖大学最新成果,性能超越人类

0
分享至

DeepScientist团队 投稿
量子位 | 公众号 QbitAI

人类科学家三年的工作量,如今AI两周就能轻松搞定!

最近,来自西湖大学的自然语言处理实验室发布了DeepScientist系统,这也是首个具有完整科研能力,且在无人工干预下,展现出目标导向、持续迭代、渐进式超越人类研究者最先进研究成果的AI科学家系统。



△对比DeepScientist与人类专家的研究进展

在AI文本检测任务中,DeepScientist仅用两周时间就实施和验证了超过1000种不同的假设,在此期间取得了相当于人类三年的进展。

在RAID数据集测试中,DeepScientist设计的方法实现了7.9%的AUROC提升,成功超越了人类现有SOTA方案

另外DeepScientist还在智能体失败归因、LLM推理加速等任务上也分别达成了新的SOTA。



下面是更多详细内容介绍。

从“科研助理”到“首席科学家”:AI科研模式的变革

过去的AI Scientist系统,如果不给定一个清晰明了的科研目标,就很容易陷入对现有知识的机械组合与无效试探的窠臼中,最终形成的科研产出在人类专家看来缺乏焦点,科学价值不高。

它们更像是能力超群的科研助理,而不是能独立指引方向的科学家。

DeepScientist的出现改变了这一现状,它不再等待人类告诉它“研究什么”,而是开始主动思考“什么值得研究”,它可以:

  • 主动识别前沿研究的根本性局限,
  • 提出全新的科学构想以解决局限性问题,
  • 自动编写代码、执行实验、设计分析实验,整理实验结果,
  • 撰写结构完整的科研论文,开源可重现代码。

简而言之,这种从“随机发现”到“长期主动式探索”的角色转变,标志着AI已经正式涉足以往只有顶尖人类心智才能胜任的、最具创造性的科学发现过程。

DeepScientist的核心机制

DeepScientist的核心目标是在一个给定的总研究预算内,最大化有价值的科学发现(Progress Findings)。

它首先将混乱、依赖灵感的科学发现过程形式化为一个严谨、目标驱动的分层贝叶斯优化问题,其目标是从所有可能的候选研究空间中,找到一个最优方法,使一个未知且评估成本极高的真实科学价值函数最大化。



△DeepScientist的自主科学发现闭环流程图

具体而言,DeepScientist基于多智能体协同策略,围绕一个三层级的评估循环推进。

每个层级代表了对一个科研想法(Finding)进行验证的不同保真度(Fidelity)和成本(Cost),系统在每一轮迭代中,都基于其不断增长的“经验库(Findings Memory)”产出新假设和做出资源分配决策。

高层级(即具有高保真度)的信息,其价值是以前一层级(低保真度)的信息为条件的,而一个想法能否在最终的高保真度评估中成功,依赖于它在低保真度实验中的表现。

在每一个层级中,只有展现出价值的科研产物才会被送入下一层级以提供更多资源用来进一步探索,否则被存储到“Findings Memory”中用于给后续的探索提供信息。

这种分层方法,确保了计算资源能够被精准地、动态地分配给在当前认知下最具潜力的研究方向,从而在有限的预算内最大化科学发现的效率。

AI两周完成三年科研进展,全面超越人类专家

为验证DeepScientist的研究能力,研究人员将DeepScientist应用在三个当前AI研究的最前沿领域:智能体失败归因、LLM推理加速与AI文本检测

这些任务无一例外都竞争激烈、备受社区关注,且技术基准极高,其挑战的人类研究成果均为近期在ICLR、ICML和ACL等顶级会议上发布的最新SOTA方法。



△三个研究任务选取的SOTA方法

其中,在AI文本检测任务里,DeepScientist在无人干预的情况下,仅用两周时间,就自主完成了相当于人类科学家三年的进展。

在此期间,DeepScientist自主生成了2472个独特的研究想法,并对其中600个具有科学价值的假设进行了代码实现和实验验证。

最终,DeepScientist在RAID数据集上取得了7.9%的AUROC提升,同时将推理延迟降低了190%,展示出超越现有人类SOTA的卓越性能。

DeepScientist的突破性进展并不仅限于AI文本检测领域,它在多个不同的前沿任务上都展示了超越人类专家的科学发现能力,其中一个典型的例子是在“智能体失败归因”这一高度复杂的任务上。



△DeepScientist在多任务中超越人工最优方法

面对现有方法难以进行有效因果推理的困境,DeepScientist自主构想并提出了名为A2P(Abduction-Action-Prediction)的全新方法,其核心创新在于将失败归因从简单的模式识别提升到了结构化的因果推理层面。

最终,该方法在Who&When基准测试的“算法生成”任务中取得了47.46分,性能相较于人类专家的SoTA基线大幅提升了183.7%

上述成就充分证明了DeepScientist不仅能实现单点突破,更能创造出具有持续影响力的科学成果,其泛化能力和系统性创新能力足以在多个前沿领域稳定地推动技术边界。

此外,在自动化科学发现领域,实验的成功率常常不足1%。这个数字虽然残酷,却真实地反映了科学探索的高度不确定性。



△DeepScientist的研究统计结果

不同于依赖大规模随机试错的方法,DeepScientist通过形式化的分层贝叶斯优化机制,在“利用已有成果”与“探索未知可能性”之间灵活平衡,能够在庞大的假设空间中智能筛选出最具潜力的研究方向。

在探索过程中,DeepScientist不仅能高效执行大规模实验,还会把成功与失败的结果都视作宝贵经验,用来指导后续的决策。

这种记忆驱动、目标导向的迭代流程,使其能够自主运行数月之久,在浩瀚的可能性空间中持续寻找突破口,不断推动科学发现的进程。

换句话说,如果没有精细化的策略与结构化的反馈机制,这类探索几乎不可能取得成果,而 DeepScientist 的设计恰恰保证了,即便面对极低的成功率,它也能在闭环学习中稳步积累成果,展现出远超暴力搜索系统的持续进化能力与科学发现潜力。

“科学发现缩放定律”?用算力驱动创新

在分析实验中,如下图所示,研究团队发现:当并行 GPU 资源从1枚扩展到16枚时, DeepScientist每周产出的前沿级科学发现数量从0项跃升至11项,几乎呈现出理想的线性增长



这意味着,科学突破不再只是依赖少数灵光一现,而是可以像训练大模型一样,通过系统化地增加计算资源来“规模化生产”。

这种趋势正在推动科研范式的转变:从过去依靠“人力密集型”投入,逐步走向“计算密集型”驱动,为解决人类面临的重大科学挑战,开辟了一条全新且可加速的路径。

未来展望:开启人机协同的科研新范式

DeepScientist 的成功并不意味着AI将取代科学家,而是预示着一个全新的人机协同科研范式的到来。

在这个范式中,人类研究者的角色将从繁重的试错和实验中解放出来,专注于提出真正有价值的科学问题、设定具有前瞻性的研究方向,并进行最终的综合与判断。

而 AI,将作为一台不知疲倦、并行扩展的“科学探索引擎”,在人类智慧的引领下,以前所未有的速度和广度持续探索科学的无人区。

为了推动这一范式的到来,研究团队将开源DeepScientist的核心系统与全部实验日志,希望通过开放共享的方式,激发全球科研社区的创新力量,共同加速 AI Scientis的发展,迎接从基础物理到新药研发等人类重大挑战的突破时刻。

西湖大学自然语言处理实验室期待与更多研究团队携手促进自动化科学发现的进步。

团队现已开放了免费的DeepScientist服务申请,希望与科研社区共同建设一个更加高效的科学发现新范式,使其能够真正加速人类科学发现的历程。

同时也欢迎感兴趣的研究者与研究团队联系,加入这场科研新旅程!

西湖大学自然语言处理实验室(WestlakeNLP)成立于2018年9月,由张岳教授领导。

张岳教授毕业于牛津大学,获博士学位,现任西湖大学工程学院副院长,著有剑桥大学出版社出版的《自然语言处理》一书,并担任过EMNLP 2022等多个顶级NLP会议的程序委员会主席。

该实验室目前专注于语言模型推理、泛化和通用人工智能以及自然语言处理的基础与应用研究,探索通用人工智能的实现路径,推动 AI Scientist(AI科学家)的发展,使其能够真正参与并加速科学发现,促进人类科学的持续进步。

围绕这一愿景,WestlakeNLP近期也系统地撰写了AI Scientist方向的观点文章与综述论文,希望为该领域的发展提供更加全面的思考与参考。

在线网址:

https://ai-researcher.net

开源仓库:

https://github.com/ResearAI/DeepScientist

DeepScientist申请链接:

https://forms.gle/U9W3jfdGnKpGbScNA

实验室联系方式:

https://westlakenlp.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

谈史论天地
2026-02-10 08:16:24
局势突变!第二个国家出兵俄罗斯,比朝鲜军队凶猛,美国游说反对

局势突变!第二个国家出兵俄罗斯,比朝鲜军队凶猛,美国游说反对

南宗历史
2026-02-20 20:23:48
上海通河,房价从2015年23800涨到63800,如今价格回到真实价位

上海通河,房价从2015年23800涨到63800,如今价格回到真实价位

石辰搞笑日常
2026-02-21 10:45:00
王心迪、徐梦桃成为中国体育史上第六对奥运金牌夫妇

王心迪、徐梦桃成为中国体育史上第六对奥运金牌夫妇

澎湃新闻
2026-02-20 23:06:27
79岁李保田老态难辨,住处杂乱喝10元桶装水与儿子关系在意料之中

79岁李保田老态难辨,住处杂乱喝10元桶装水与儿子关系在意料之中

林轻吟
2026-02-08 11:43:27
利润很吓人但很冷门的生意!越是穷的时候越要尝试野路子~

利润很吓人但很冷门的生意!越是穷的时候越要尝试野路子~

另子维爱读史
2026-01-13 21:51:51
香港“最乖富二代”邓兆尊,27年不动本金,利息滚到17亿,太清醒

香港“最乖富二代”邓兆尊,27年不动本金,利息滚到17亿,太清醒

娱说瑜悦
2026-01-23 19:23:09
170所大学,面临破产!

170所大学,面临破产!

双一流高校
2026-02-20 21:53:07
呼唤金牌教练李琰回归短道速滑队前,请先反思她当年为什么离开!

呼唤金牌教练李琰回归短道速滑队前,请先反思她当年为什么离开!

杨华评论
2026-02-20 18:28:11
“方大同去世一周年”冲上热搜,其生前创作的单曲《才二十三》MV将于3月1日正式首播

“方大同去世一周年”冲上热搜,其生前创作的单曲《才二十三》MV将于3月1日正式首播

极目新闻
2026-02-21 11:21:49
报复一个人最狠的方法,不是翻脸,不是打压,而是佛家三句话

报复一个人最狠的方法,不是翻脸,不是打压,而是佛家三句话

瓜哥的动物日记
2026-02-14 00:59:40
69年村里来一户特殊的下放户,父亲没少帮助他家,多年后收获福报

69年村里来一户特殊的下放户,父亲没少帮助他家,多年后收获福报

人间百态大全
2025-12-12 06:45:03
《飞驰人生3》爆火,韩寒现状,谁能想到…

《飞驰人生3》爆火,韩寒现状,谁能想到…

妙知
2026-02-19 21:14:10
53岁柯蓝和瞿颖在泰国过春节,俩人都是李亚鹏前女友,李宗翰也在

53岁柯蓝和瞿颖在泰国过春节,俩人都是李亚鹏前女友,李宗翰也在

观察鉴娱
2026-02-20 11:30:57
妈祖事件后续发酵!福建老板集体放话,今后绝不与姓许的合作往来

妈祖事件后续发酵!福建老板集体放话,今后绝不与姓许的合作往来

一盅情怀
2026-02-21 13:45:26
两女孩扶摔倒老人被索赔22万后续!完整视频曝光,老人动作有问题

两女孩扶摔倒老人被索赔22万后续!完整视频曝光,老人动作有问题

离离言几许
2026-02-20 10:12:45
富士康创始人郭台铭:“若两岸爆发冲突,我会誓死守护台湾”

富士康创始人郭台铭:“若两岸爆发冲突,我会誓死守护台湾”

百态人间
2026-02-12 15:21:00
68岁赵本山蹲炕头吃酸菜炖鹅,那双掉漆筷子比好多人朋友圈还真实

68岁赵本山蹲炕头吃酸菜炖鹅,那双掉漆筷子比好多人朋友圈还真实

喜欢历史的阿繁
2026-02-17 23:12:52
成都周边年味很足的古镇/古城推荐!

成都周边年味很足的古镇/古城推荐!

掌上金牛
2026-02-21 14:44:33
60岁蒋雯丽心酸现状,定居英国,又瘦又老,一代女神成了"笑话"

60岁蒋雯丽心酸现状,定居英国,又瘦又老,一代女神成了"笑话"

小熊侃史
2025-11-27 18:59:29
2026-02-21 19:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12186文章数 176389关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

美大法官"大战"总统撕开财政千亿黑洞 特朗普闪电反击

头条要闻

美大法官"大战"总统撕开财政千亿黑洞 特朗普闪电反击

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

教育
艺术
数码
家居
亲子

教育要闻

新春走基层 | 慢飞天使捏出 “年的形状”

艺术要闻

任辉 作品选集

数码要闻

开盖版Ryzen 7 9850X3D来了!价格小贵 性能释放暴增20W

家居要闻

本真栖居 爱暖伴流年

亲子要闻

直接萌化了!小宝宝看着爸爸吃面条的样子心想:等你老了的

无障碍浏览 进入关怀版