网易首页 > 网易号 > 正文 申请入驻

12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈

0
分享至

  新智元报道

  编辑:桃子

  【新智元导读】AI两天爆肝12年研究,精准吊打人类!多大、哈佛MIT等17家机构联手放大招,基于GPT-4.1和o3-mini,筛选文献提取数据,效率飙3000倍重塑AI科研工作流。

  多伦多大学、哈佛MIT等机构联手AI,短短2天内,竟干完了科学家12年的活!

  研究一出,在全网掀起了巨震。

  沃顿商学院CS教授Ethan Mollick大受震撼,「AI综述论文体量越来越大,而准确性超越了人类」。

  17家研究机构同著一篇论文,他们目标直指,借助GPT-4.1和o3-mini自动化系统综述。

  为此,研究人员设计了otto-SR平台,并在2天内,完成了为期12年的系统综述研究。

  论文地址:https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1.full.pdf

  结果显示,otto-SR在所有任务中,比如筛查灵敏度、提取、筛选特异度方面,能够媲美甚至超越人类。

  在一项具体的测试中,复现并更新一期完整的Cochrane系统综述,包含了12篇为临床指南提供依据的综述。

  令人惊叹的是,otto-SR识别出的相关研究数量(114篇),是原始综述(64篇)的2倍之多。

  这套AI工作流,让系统综述速度飙升3000倍。

  这一速度与传统人工流程相比,堪称革命性突破。

  otto-SR证实了LLM能以更高准确率,自主执行复杂的科研任务。未来,有望通过快速、可靠的系统综述,为循证医学带来革命性变革。

  人类免疫学家Derya Unutmaz教授认为,这是一个非常了不起的成就。

  AI取得如此惊艳的成果,究竟是如何做到的?

  AI全新工作流:

  GPT-4.1筛选,o3-mini提取

  在循证医学领域,系统综述(Systematic Reviews)是科学决策的基石。

  一般来说,传统的系统综述的完成,往往需要耗费16个月,超10万美金的成本。

  更重要的是,系统综述的延误,可能导致低效甚至有害疗法长期被使用,对患者来说是一场灾难。

  全新otto-SR是一套基于大模型的「端到端」创新工作流。

  如下图1所示,不论是「全自动」,还是「人机协同」,两种综述综述模式均支持。

  以下是otto-SR的核心模块:

  1 文献筛选智能体

  GPT-4.1作为独立评审员,执行摘要和全文筛选。原始检索获得的文献以RIS格式上传,系统即可高效处理。

  2 数据提取智能体

  由o3-mini-high执行数据提取任务,快速从文献中提取关键变量。

  3 PDF处理

  通过Gemini 2.0 flash将PDF文件转换为结构化Markdown格式,便于后续分析。

  摘要+全文筛选,赶超人类

  在摘要筛选阶段,otto-SR筛选智能体表现优异。

  其加权灵敏度高达96.6%(区间94.1-100.0%),显著优于Elicit(88.5%)和双人评审组(87.3%)。

  在特异度方面,双人评审组以95.7%位居榜首,otto-SR筛选智能体(93.9%)紧随其后,优于Elicit(84.2%)。

  这表明otto-SR在最大化捕获相关文献(真阳性)的能力上远超传统方法,同时保持了较高的筛选准确性。

  在全文筛选阶段,otto-SR筛选智能体继续保持领先,灵敏度达96.2%(区间92.3-100.0%),而双人评审组的灵敏度显著下降至63.3%。

  在特异度方面,otto-SR(96.9%)与双人评审组(98.1%)均表现优异,而Elicit因不支持全文筛选未参与比较。

  综合表明,otto-SR在保持高特异度(最小化误纳)的同时,能够捕获更多相关研究(真阳性),相较于传统双人评审和商Elicit展现了显著优势。

  数据提取,刷爆准确率

  在七项系统综述中,otto-SR数据提取智能体的平均加权准确率高达93.1%(区间91.1-97.0%),显著优于双人评审组(79.7%[69.1-91.0%])和Elicit(74.8%[58.8-83.1%])。

  在otto-SR提取智能体的6.9%误差案例中,事后分析揭示了主要原因:

  · 0.83%(39/4459)因模型无法获取补充文件或需申请的数据;

  · 0.67%(30/4459)源于解析错误;

  · 0.49%(22/4459)属于otto-SR与原作者均不准确的情况。

  这些发现为未来的优化提供了明确方向,例如改进对补充文件的处理能力和解析准确性。

  短短2天,AI爆肝12年工作

  既然GPT-4.1+o3-mini在性能评估中刷新SOTA,那么在实际挑战任务中,表现又如何呢?

  为了验证实用价值,作者对「Cochrane系统综述数据库」的12篇系统综述,共146,276篇文献,进行了复现与更新测试。

  otto-SR智能工作流

  otto-SR聚焦每篇综述的主要结局(Primary Outcome),让入选标准更清晰。

  筛选智能体准确识别了全部64项纳入研究;数据提取智能体按Cochrane原始变量定义提取主要结局数据,程序化剔除了缺失主要结局值、重复研究或无干预-对照组的记录。

  结果显示,otto-SR错误排除研究的中位数为0篇(IQR 0-0.25)。

  值得一提的是,在限定原始检索截止日期的分析中,otto-SR意外发现了54篇可能被原综述遗漏的合格研究。

  人工复核确认其中10篇为假阳性,但9篇可能通过作者沟通获取相关数据。

  进一步更新检索至2025年5月8日,otto-SR又发现了14篇新合格研究,其中仅2篇假阳性,1篇可能含相关数据。

  另外,在营养学综述中,otto-SR发现了5项新增研究。这一发现展示了otto-SR挖掘新证据、优化结论的能力。

  作者介绍

  Christian Cao

  Christian Cao目前是多伦多大学医学院在读博士。

  目前其研究方向聚焦于开发人工智能模型,致力于预测可避免的住院事件及糖尿病相关并发症。

  Rohit Arora

  Rohit Arora目前是哈佛大学生物信息学一年级博士生。

  他专注于人工智能在科学研究中的应用,研究方向集中于药物发现与蛋白质设计。

  参考资料:

  https://x.com/emollick/status/1933704272601911536

  https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1

  https://www.reddit.com/r/singularity/comments/1lb6lel/llm_combo_gpt41_o3minihigh_gemini_20_flash/

  https://x.com/ChristianCao11/status/1933201859470053592

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

原来他就是聂卫平长子,移民日本入日籍娶日本妻,拒绝让儿子姓聂

以茶带书
2026-01-15 14:14:27
聂卫平:耀邦叔叔

聂卫平:耀邦叔叔

徐庆全八十年代
2026-01-15 19:16:46
起底携程:控制56%的市场,日赚2亿多,前十大股东被美资“霸榜”

起底携程:控制56%的市场,日赚2亿多,前十大股东被美资“霸榜”

数字财经智库
2026-01-15 10:49:04
连放狠话,美国要对德黑兰动手?

连放狠话,美国要对德黑兰动手?

新民晚报
2026-01-15 17:17:05
试过贾府一半男子的多姑娘,为何在试贾宝玉时,成了“灯姑娘”?

试过贾府一半男子的多姑娘,为何在试贾宝玉时,成了“灯姑娘”?

铭记历史呀
2026-01-15 14:24:03
李湘多个平台账号被禁止关注

李湘多个平台账号被禁止关注

界面新闻
2026-01-16 10:56:48
中央纪委全会提年轻干部腐败,有何深意

中央纪委全会提年轻干部腐败,有何深意

中国新闻周刊
2026-01-15 20:02:26
中俄弃权的背后

中俄弃权的背后

新民晚报
2026-01-16 09:45:54
特朗普:泄露美国对委内瑞拉发动军事袭击计划的“泄密者”已被抓

特朗普:泄露美国对委内瑞拉发动军事袭击计划的“泄密者”已被抓

扬子晚报
2026-01-16 09:18:40
报复不隔夜!对华加税25%后,中方发布第3号公告:对美韩征税113%

报复不隔夜!对华加税25%后,中方发布第3号公告:对美韩征税113%

潮鹿逐梦
2026-01-15 20:56:58
几乎被抢光!清仓首日大排长队,门口500米堵车2小时,网友:全是人,信号都没有

几乎被抢光!清仓首日大排长队,门口500米堵车2小时,网友:全是人,信号都没有

新民晚报
2026-01-15 22:17:59
飙升到166万亿!中国人民的存款,太多了

飙升到166万亿!中国人民的存款,太多了

说财猫
2026-01-15 19:39:32
知名军事评论员李莉,为何清空作品?

知名军事评论员李莉,为何清空作品?

清哲木观察
2026-01-15 10:47:23
笑不活!常坟镇上开了肯德基,网友:肯德基已经混到租这种房子了

笑不活!常坟镇上开了肯德基,网友:肯德基已经混到租这种房子了

火山诗话
2026-01-15 07:08:18
涉嫌违反美国移民法规则,吴佩慈"婆婆"在美被捕

涉嫌违反美国移民法规则,吴佩慈"婆婆"在美被捕

红星新闻
2026-01-16 08:05:18
航母打击群开往中东,特朗普:希望“速战速决”!伊朗进入最高战备状态,约2000枚导弹可覆盖美以基地!多国航班绕飞伊领空

航母打击群开往中东,特朗普:希望“速战速决”!伊朗进入最高战备状态,约2000枚导弹可覆盖美以基地!多国航班绕飞伊领空

每日经济新闻
2026-01-15 19:49:32
Agent时代,为什么多模态数据湖是必选项?

Agent时代,为什么多模态数据湖是必选项?

机器之心Pro
2026-01-15 10:23:40
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
欧洲多国向格陵兰岛派遣军事人员 白宫:影响不了特朗普

欧洲多国向格陵兰岛派遣军事人员 白宫:影响不了特朗普

大象新闻
2026-01-16 07:09:04
她伪装中国人,曾与4个中国人结婚,临死前一张照片暴露其身份

她伪装中国人,曾与4个中国人结婚,临死前一张照片暴露其身份

云景侃记
2026-01-15 14:16:49
2026-01-16 11:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14342文章数 66501关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

头条要闻

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

教育
本地
游戏
房产
时尚

教育要闻

广州多区明确不组织期末统考,严禁面向非毕业年级

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

上线即爆火 《Hytale》悬赏超2.5万美元求玩家找bug

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

年度最扎心电影,看得中年男女坐立难安

无障碍浏览 进入关怀版