网易首页 > 网易号 > 正文 申请入驻

从“单点工具”到“多智能体分析”,组学AI agent离真正可用还差几步?

0
分享至


过去一年, A gent 在生物医学领域完成了一次重要的概念验证。大量的agent工作证明通用型 agent 可以跨遗传学、微生物学、药理学等多个领域自主完成研究任务。这些工作共同回答了一个基础问题:AI智能体能不能做真实场景下的多组学药物治疗研究?答案是越来越明确的“ 能” 。这个领域正在经历一个从“ AI 辅助单个分析步骤” 到“ 多 AI 智能体执行端到端研究计划” 的范式跃迁。

但当智能体的分析结果要真正支撑治疗决策时:如推荐一个靶点进入临床前开发、判断一对基因是否构成合成致死关系、预测一名患者是否会对免疫治疗响应。“ 能做” 就远远不够了。关键问题在于AI agent 做出来的每一步分析,可信吗?可追溯吗?在证据冲突时, 智能体 怎么决策?在证据不足时, 智能体 会不会说 " 我不确定 " ?

近日, 哈佛医学院的隋芃玮/高尚华/MarinkaZitnik团队 在bioRxiv上发表了文章Medea: An omics AI agent for therapeutic discovery发布MEDEA,是这问题最系统的一次回应: 一个会自我验证、会在证据不足时主动"闭嘴"的组学AI智能体(agent) 。



MEDEA 是一个面向治疗发现的组学 AI agent ,接受自然语言描述的研究目标,使用 20 个专业工具(包括 PINNACLE 、 TranscriptFormer 、 COMPASS 等 foundation model )执行多步分析, 在每一步都内嵌了验证机制 。 MEDEA在三个开放式治疗发现任务上跑了5,679次完整组学分析,覆盖精准靶点发现(2,400次, 涵盖 5种疾病,29个 细胞类型 )、合成致死推理(2,385次,7个癌细胞系)、以及患者级别的免疫治疗响应预测(894次,298名膀胱癌患者) 。

关键区别在这里:大部分现有 agent 要么在中间步骤产生幻觉,要么依赖固定模板无法跨 context 适配。 MEDEA 的做法不同:它在执行前验证工具与数据的兼容性,执行后审计输出与计划的一致性,对文献做相关性筛选而非直接聚合,在多源证据冲突时做结构化调和,在证据不足时选择弃权寻求帮助而非猜测 。



1. 精准靶点发现:细胞类型差一级,靶点就可能全错。分析“跑通了”不等于分析“做对了”

2,400 次分析,覆盖 5 种疾病(类风湿关节炎、 1 型糖尿病、干燥综合征、肝母细胞瘤、滤泡性淋巴瘤)和 29 种细胞类型。 MEDEA 比单独用大模型的准确率最高提升 45.9% 。

大模型在长链条分析中,LLM会悄悄模糊细胞类型 —— 比如把用户指定的 "naïve CD4+ αβ T 细胞 " 简化为 "CD4+ T 细胞 " 。但在类风湿关节炎中,这两种细胞的致病作用完全不同。 MEDEA 的 Context Verification 会每一步检查分析是否仍对齐用户指定的细胞背景。仅此一项,就在髓样树突细胞上让准确率提升 28.9% 。

消融实验揭示了一个结构性矛盾: LLM 单独使用时几乎不从不放弃回答( 1.8% ),但错误率平均 69.2% ; Literature-only 配置 77.6% 的分析选择放弃回答 — — 因为细胞类型特异的文献实在太 少 。 完整 MEDEA 做到了 把多条证据通路串起来做交叉验证,达到最高准确率和最低失败率 。

2. 合成致死推理: 在大模型答错的地方“纠错”

2,385 次分析,覆盖 7 个癌细胞系。 MEDEA 比自己LLM backbone最高提升 21.7% ( MCF7 ) 。

值得注意的数字: MEDEA 在至少 323 个 LLM 答错的 case 中给出了正确判断,在 175 个 LLM 选择放弃回答的 case 中也给出了正确答案。同时,在 141 个 LLM 犯错的 case 中, MEDEA 选择了放弃回答而不是跟着错。 它整合了 DepMap 基因共依赖分数与通路富集分析,对基因对联合抑制是否会选择性杀死癌细胞,做出有据可查的判断 。

3. 免疫治疗响应预测:当证据打架时,AI 如何决策 ?

894 次患者级别分析,基于 IMvigor210 膀胱癌队列(298 名患者)。MEDEA 比大模型最高提升 23.9% 。在最困难的亚组(高 TMB、非炎症型微环境)中,MEDEA 修正了底层机器学习模型 50.9% 的误分类 。

一个有说明力的 case :一名 TMB 19.0 的男性患者, GPT-4o 和 Claude 3.7 Sonnet 都预测 " 响应 "—— 高 TMB 通常意味着好的免疫治疗效果。但 MEDEA 的 Analysis 模块调用 COMPASS 模型分析肿瘤转录组后发现 T 细胞耗竭严重( score 0.5067 )、 B cell 浸润极低( 0.0260 ),同时 LiteratureReasoning agent 检索到的文献恰恰支持“ 高 TMB→ 好响应” 。 两条证据直接矛盾。 MultiRoundDiscussion 调和后判定微环境功能障碍信号优先于 TMB 统计关联,预测“ 不响应” 。

患者的实际结局:疾病进展(progressive disease)。整个决策过程可追溯 。

4.验证机制往往比底层模型能力更重要

消融实验表明: MEDEA 的性能提升并非来自更强的底层大模型。无论用 GPT-4o 还是 Claude 3.7 Sonnet 做 backbone,去掉验证模块后性能都显著下降。这说明, 当前组学 agent 的瓶颈可能不在推理能力,而在过程可靠性 。

也正是因为框架机制,Medea会根据疾病 上下文 决定调用哪个最适配的工具 -- 类风湿关节炎用 PINNACLE,肝母细胞瘤用 TranscriptFormer。随着单细胞基础模型不断成熟,这种在异构模型空间中做 tool selection 的能力会越来越重要 。

透明的输出形态。 MEDEA 返回的不是一个标签,而是一份可审计的分析报告——研究计划、每步工具调用与输出、文献检索与相关性评分、证据调和的 reasoning trace。对于需要向团队解释“为什么推荐这个靶点”的场景,这种可追溯性是必需的 。

全部开源。 代码、 benchmark 、 20 个工具的配置均已发布。模块化设计支持选择性集成 。

如果从这篇论文里只带走一个 insight ,大概是这个:在药物发现中,一个自信的错误答案,远比一句诚实的“我不确定”代价更高。

MEDEA 在证据不足时选择不回答( calibrated abstention )可能是整篇工作中最被低估、却最有实际价值的能力。

https://www.biorxiv.org/content/10.64898/2026.01.16.696667v1

https://medea.openscientist.ai

https://github.com/mims-harvard/Medea

制版人: 十一

学术合作组织

(*排名不分先后)



战略合作伙伴

(*排名不分先后)



转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐


点击主页推荐活动

关注更多最新活动!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗革命卫队:将按最高领袖指示重塑波斯湾管理规则

伊朗革命卫队:将按最高领袖指示重塑波斯湾管理规则

财联社
2026-05-02 04:47:19
局势恶化,中日又爆发争端,日本登上钓鱼岛,解放军战舰果断合围

局势恶化,中日又爆发争端,日本登上钓鱼岛,解放军战舰果断合围

老黯谈娱
2026-05-01 11:59:01
光刻胶第一股,国资委旗下唯一芯片真龙,低估到令人窒息?

光刻胶第一股,国资委旗下唯一芯片真龙,低估到令人窒息?

财报翻译官
2026-05-01 14:57:45
重庆:加大公积金惠民力度

重庆:加大公积金惠民力度

界面新闻
2026-05-01 16:38:19
离谱!曼联赛季最佳引援竟被列入清洗名单,球迷集体看不懂

离谱!曼联赛季最佳引援竟被列入清洗名单,球迷集体看不懂

奶盖熊本熊
2026-05-02 02:23:08
荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

抽象派大师
2026-04-30 00:16:18
曼联不要的天才,阿尔特塔当宝?阿森纳锁定红魔 5000 万弃将

曼联不要的天才,阿尔特塔当宝?阿森纳锁定红魔 5000 万弃将

澜归序
2026-05-02 02:57:25
计划有变?22岁吴宜泽疯狂4连鞭 半决赛6-2领先 英国观众为他欢呼

计划有变?22岁吴宜泽疯狂4连鞭 半决赛6-2领先 英国观众为他欢呼

风过乡
2026-05-01 05:20:57
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
两杆破百+六杆50加,10-2大胜!吴宜泽下一关,是塞尔比还是奇迹

两杆破百+六杆50加,10-2大胜!吴宜泽下一关,是塞尔比还是奇迹

曹老师评球
2026-04-21 23:22:10
母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

白云故事
2025-04-24 10:35:08
早年高举双手的巩俐,大气饱满

早年高举双手的巩俐,大气饱满

娱你同欢
2026-05-01 21:50:35
《黑袍》星光在GTA6“下海”!街头服务“揽客”

《黑袍》星光在GTA6“下海”!街头服务“揽客”

游民星空
2026-04-29 19:43:05
机器人+算力:2026年A股最强双主线!这5只龙头股被机构集体看好

机器人+算力:2026年A股最强双主线!这5只龙头股被机构集体看好

小白鸽财经
2026-05-01 20:30:03
59岁歌手张宇患罕见病20年,妻子十一郎首度公开内情:无法彻底根治,严重到不唱歌连说话都可能出问题

59岁歌手张宇患罕见病20年,妻子十一郎首度公开内情:无法彻底根治,严重到不唱歌连说话都可能出问题

芒果都市
2026-05-01 17:45:29
三法官一致认定无罪,卡里姆·汗下周二登台,西方国家投了反对票

三法官一致认定无罪,卡里姆·汗下周二登台,西方国家投了反对票

老头的传奇色彩
2026-05-02 04:24:29
人活着,说到底就三样东西:生理需求居首,真正懂的人没几个

人活着,说到底就三样东西:生理需求居首,真正懂的人没几个

朗威谈星座
2026-05-01 14:28:21
黄奇帆再预言未来房地产,今年已基本应验,明年或大概率又是对的

黄奇帆再预言未来房地产,今年已基本应验,明年或大概率又是对的

巢客HOME
2026-05-01 05:25:03
金靖近照大变样!暴瘦脱相撞脸女星,网友:没以前有灵气了

金靖近照大变样!暴瘦脱相撞脸女星,网友:没以前有灵气了

草莓解说体育
2026-05-01 14:41:01
陈慧琳演唱会穿三角裤衩,五十多了合适吗?不愧是女神

陈慧琳演唱会穿三角裤衩,五十多了合适吗?不愧是女神

西楼知趣杂谈
2026-05-01 22:23:05
2026-05-02 05:19:00
BioArt incentive-icons
BioArt
探索生物艺术之奥秘
9969文章数 18511关注度
往期回顾 全部

科技要闻

DeepSeek发布多模态论文又连夜删除

头条要闻

伊朗未爆弹药爆炸 致革命卫队14人死亡

头条要闻

伊朗未爆弹药爆炸 致革命卫队14人死亡

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

时尚
家居
旅游
教育
公开课

这个夏天,彩色裤子又火了!

家居要闻

灵动实用 生活艺术场

旅游要闻

一张票根全年玩转宝山!今日起,持邮轮登船证享全城超值优惠

教育要闻

一个奇怪现象:穷人的富养是带孩子四处旅游,增长孩子的欲望;有钱人的富养则是教孩子看清世界的真相和规则,获得真正的能力

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版