网易首页 > 网易号 > 正文 申请入驻

首个全自动AI科学家诞生!西湖大学最新成果,性能超越人类

0
分享至

DeepScientist团队 投稿
量子位 | 公众号 QbitAI

人类科学家三年的工作量,如今AI两周就能轻松搞定!

最近,来自西湖大学的自然语言处理实验室发布了DeepScientist系统,这也是首个具有完整科研能力,且在无人工干预下,展现出目标导向、持续迭代、渐进式超越人类研究者最先进研究成果的AI科学家系统。



△对比DeepScientist与人类专家的研究进展

在AI文本检测任务中,DeepScientist仅用两周时间就实施和验证了超过1000种不同的假设,在此期间取得了相当于人类三年的进展。

在RAID数据集测试中,DeepScientist设计的方法实现了7.9%的AUROC提升,成功超越了人类现有SOTA方案

另外DeepScientist还在智能体失败归因、LLM推理加速等任务上也分别达成了新的SOTA。



下面是更多详细内容介绍。

从“科研助理”到“首席科学家”:AI科研模式的变革

过去的AI Scientist系统,如果不给定一个清晰明了的科研目标,就很容易陷入对现有知识的机械组合与无效试探的窠臼中,最终形成的科研产出在人类专家看来缺乏焦点,科学价值不高。

它们更像是能力超群的科研助理,而不是能独立指引方向的科学家。

DeepScientist的出现改变了这一现状,它不再等待人类告诉它“研究什么”,而是开始主动思考“什么值得研究”,它可以:

  • 主动识别前沿研究的根本性局限,
  • 提出全新的科学构想以解决局限性问题,
  • 自动编写代码、执行实验、设计分析实验,整理实验结果,
  • 撰写结构完整的科研论文,开源可重现代码。

简而言之,这种从“随机发现”到“长期主动式探索”的角色转变,标志着AI已经正式涉足以往只有顶尖人类心智才能胜任的、最具创造性的科学发现过程。

DeepScientist的核心机制

DeepScientist的核心目标是在一个给定的总研究预算内,最大化有价值的科学发现(Progress Findings)。

它首先将混乱、依赖灵感的科学发现过程形式化为一个严谨、目标驱动的分层贝叶斯优化问题,其目标是从所有可能的候选研究空间中,找到一个最优方法,使一个未知且评估成本极高的真实科学价值函数最大化。



△DeepScientist的自主科学发现闭环流程图

具体而言,DeepScientist基于多智能体协同策略,围绕一个三层级的评估循环推进。

每个层级代表了对一个科研想法(Finding)进行验证的不同保真度(Fidelity)和成本(Cost),系统在每一轮迭代中,都基于其不断增长的“经验库(Findings Memory)”产出新假设和做出资源分配决策。

高层级(即具有高保真度)的信息,其价值是以前一层级(低保真度)的信息为条件的,而一个想法能否在最终的高保真度评估中成功,依赖于它在低保真度实验中的表现。

在每一个层级中,只有展现出价值的科研产物才会被送入下一层级以提供更多资源用来进一步探索,否则被存储到“Findings Memory”中用于给后续的探索提供信息。

这种分层方法,确保了计算资源能够被精准地、动态地分配给在当前认知下最具潜力的研究方向,从而在有限的预算内最大化科学发现的效率。

AI两周完成三年科研进展,全面超越人类专家

为验证DeepScientist的研究能力,研究人员将DeepScientist应用在三个当前AI研究的最前沿领域:智能体失败归因、LLM推理加速与AI文本检测

这些任务无一例外都竞争激烈、备受社区关注,且技术基准极高,其挑战的人类研究成果均为近期在ICLR、ICML和ACL等顶级会议上发布的最新SOTA方法。



△三个研究任务选取的SOTA方法

其中,在AI文本检测任务里,DeepScientist在无人干预的情况下,仅用两周时间,就自主完成了相当于人类科学家三年的进展。

在此期间,DeepScientist自主生成了2472个独特的研究想法,并对其中600个具有科学价值的假设进行了代码实现和实验验证。

最终,DeepScientist在RAID数据集上取得了7.9%的AUROC提升,同时将推理延迟降低了190%,展示出超越现有人类SOTA的卓越性能。

DeepScientist的突破性进展并不仅限于AI文本检测领域,它在多个不同的前沿任务上都展示了超越人类专家的科学发现能力,其中一个典型的例子是在“智能体失败归因”这一高度复杂的任务上。



△DeepScientist在多任务中超越人工最优方法

面对现有方法难以进行有效因果推理的困境,DeepScientist自主构想并提出了名为A2P(Abduction-Action-Prediction)的全新方法,其核心创新在于将失败归因从简单的模式识别提升到了结构化的因果推理层面。

最终,该方法在Who&When基准测试的“算法生成”任务中取得了47.46分,性能相较于人类专家的SoTA基线大幅提升了183.7%

上述成就充分证明了DeepScientist不仅能实现单点突破,更能创造出具有持续影响力的科学成果,其泛化能力和系统性创新能力足以在多个前沿领域稳定地推动技术边界。

此外,在自动化科学发现领域,实验的成功率常常不足1%。这个数字虽然残酷,却真实地反映了科学探索的高度不确定性。



△DeepScientist的研究统计结果

不同于依赖大规模随机试错的方法,DeepScientist通过形式化的分层贝叶斯优化机制,在“利用已有成果”与“探索未知可能性”之间灵活平衡,能够在庞大的假设空间中智能筛选出最具潜力的研究方向。

在探索过程中,DeepScientist不仅能高效执行大规模实验,还会把成功与失败的结果都视作宝贵经验,用来指导后续的决策。

这种记忆驱动、目标导向的迭代流程,使其能够自主运行数月之久,在浩瀚的可能性空间中持续寻找突破口,不断推动科学发现的进程。

换句话说,如果没有精细化的策略与结构化的反馈机制,这类探索几乎不可能取得成果,而 DeepScientist 的设计恰恰保证了,即便面对极低的成功率,它也能在闭环学习中稳步积累成果,展现出远超暴力搜索系统的持续进化能力与科学发现潜力。

“科学发现缩放定律”?用算力驱动创新

在分析实验中,如下图所示,研究团队发现:当并行 GPU 资源从1枚扩展到16枚时, DeepScientist每周产出的前沿级科学发现数量从0项跃升至11项,几乎呈现出理想的线性增长



这意味着,科学突破不再只是依赖少数灵光一现,而是可以像训练大模型一样,通过系统化地增加计算资源来“规模化生产”。

这种趋势正在推动科研范式的转变:从过去依靠“人力密集型”投入,逐步走向“计算密集型”驱动,为解决人类面临的重大科学挑战,开辟了一条全新且可加速的路径。

未来展望:开启人机协同的科研新范式

DeepScientist 的成功并不意味着AI将取代科学家,而是预示着一个全新的人机协同科研范式的到来。

在这个范式中,人类研究者的角色将从繁重的试错和实验中解放出来,专注于提出真正有价值的科学问题、设定具有前瞻性的研究方向,并进行最终的综合与判断。

而 AI,将作为一台不知疲倦、并行扩展的“科学探索引擎”,在人类智慧的引领下,以前所未有的速度和广度持续探索科学的无人区。

为了推动这一范式的到来,研究团队将开源DeepScientist的核心系统与全部实验日志,希望通过开放共享的方式,激发全球科研社区的创新力量,共同加速 AI Scientis的发展,迎接从基础物理到新药研发等人类重大挑战的突破时刻。

西湖大学自然语言处理实验室期待与更多研究团队携手促进自动化科学发现的进步。

团队现已开放了免费的DeepScientist服务申请,希望与科研社区共同建设一个更加高效的科学发现新范式,使其能够真正加速人类科学发现的历程。

同时也欢迎感兴趣的研究者与研究团队联系,加入这场科研新旅程!

西湖大学自然语言处理实验室(WestlakeNLP)成立于2018年9月,由张岳教授领导。

张岳教授毕业于牛津大学,获博士学位,现任西湖大学工程学院副院长,著有剑桥大学出版社出版的《自然语言处理》一书,并担任过EMNLP 2022等多个顶级NLP会议的程序委员会主席。

该实验室目前专注于语言模型推理、泛化和通用人工智能以及自然语言处理的基础与应用研究,探索通用人工智能的实现路径,推动 AI Scientist(AI科学家)的发展,使其能够真正参与并加速科学发现,促进人类科学的持续进步。

围绕这一愿景,WestlakeNLP近期也系统地撰写了AI Scientist方向的观点文章与综述论文,希望为该领域的发展提供更加全面的思考与参考。

在线网址:

https://ai-researcher.net

开源仓库:

https://github.com/ResearAI/DeepScientist

DeepScientist申请链接:

https://forms.gle/U9W3jfdGnKpGbScNA

实验室联系方式:

https://westlakenlp.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

星星没有你亮
2026-03-26 18:26:16
留几手谈张雪峰去世:死者又不是我爹,凭啥为大

留几手谈张雪峰去世:死者又不是我爹,凭啥为大

三言科技
2026-03-25 19:03:05
广州从埔高速有货车侧翻 目击者:五常大米洒满一地,多人协助把大米搬至路肩

广州从埔高速有货车侧翻 目击者:五常大米洒满一地,多人协助把大米搬至路肩

红星新闻
2026-03-26 20:09:36
浙江省高校排名更新!宁波大学第4,浙工大第7,温州医科大仅排14

浙江省高校排名更新!宁波大学第4,浙工大第7,温州医科大仅排14

朗威谈星座
2026-03-26 18:09:46
西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

鉴史录
2026-03-25 18:20:08
47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

情感大头说说
2026-03-26 17:04:32
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
唯一不与中国建交的邻国,首都离中国仅45公里,曾实行一妻多夫

唯一不与中国建交的邻国,首都离中国仅45公里,曾实行一妻多夫

珺瑶婉史
2026-03-25 19:35:06
捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

阿离家居
2026-03-26 16:52:37
“油价飙升至200美元”?特朗普团队被爆评估极端情景,白宫紧急否认

“油价飙升至200美元”?特朗普团队被爆评估极端情景,白宫紧急否认

第一财经资讯
2026-03-26 18:58:56
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
已被禁赛4年 俄罗斯不后悔未加入亚足联 主帅:就5队能打难获进步

已被禁赛4年 俄罗斯不后悔未加入亚足联 主帅:就5队能打难获进步

我爱英超
2026-03-26 18:25:55
跌光2500亿!泡泡玛特,股价崩塌

跌光2500亿!泡泡玛特,股价崩塌

财经锐眼
2026-03-26 18:54:18
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

财联社
2026-03-25 02:02:18
去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

懂球帝
2026-03-26 17:50:02
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
人不会无缘无故患癌症!研究发现:得癌症的人,离不开这6点

人不会无缘无故患癌症!研究发现:得癌症的人,离不开这6点

医学原创故事会
2026-03-07 21:55:05
2026-03-26 20:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
教育
房产
家居
旅游

上新|| 她们说,找到了自己的人生裙子!

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

20元人民币背景观景台乱收费?景区通报:不存在封闭管控、强制收费等

无障碍浏览 进入关怀版