网易首页 > 网易号 > 正文 申请入驻

Auto Research 时代,AI Scientist 的第一场药企实习考验

0
分享至

过去一年,AI圈诞生了一位顶级“卷王”——AI Scientist。它从只会乖巧答题的大模型做题家,快速进化为自动化科研助手(Auto research):它可以自己提假设、查文献、写代码、跑实验、分析结果,甚至连论文都帮你写好。但从demo到应用,AI scientist领域却正陷入一场集体尴尬:AI 做科研的时代已来,但谁会为它的研究买单?

这一次,我们把这个问题放进最难的行业场景之一:生物医药。

Phylo、红杉中国xbench、Humanlaya Data Lab团队,联合斯坦福、哈佛、北大和头部药企的 100 位资深专家,耗时 1000 余小时,共同构建了全球首个面向真实生物医药研究场景的过程级评估框架——BiomniBench,并让 AI 从头到尾做一遍药企的真实数据分析(BiomniBench-DA),结果是:

1.最强 AI scientist实习生拿到 73.34分(满分100),显著高于人类实习生 40-50 分的平均线。

2.除基础模型外,智能体框架(Agent Harness)对结果的影响也很大。同一个 GPT-5.4,放在 Codex CLI 里 68.69 分,放在 Terminus-2 里只有 55.19 分。差了 13.5 分。

3.AI scientist 更快更省,单个任务平均用时4.9-25分钟、花0.92-4.58美元,而人类完成同样的任务通常需要数小时甚至数十小时。

4.AI scientist 也偏科,不同任务类型之间的表现差距显著。

01|AI scientist 实习生到底被派去做什么?

在药企,搞研究可不是那么简单——

比如:给你一组免疫治疗患者的单细胞测序数据和临床信息,你要判断某个 biomarker(生物标志物)是否值得进入下一轮实验验证。这听起来并不复杂,但实际要面对的是:数据清洗、样本筛选、统计方法、多重检验校正、生物学解释...

每一步都可能出错。

而“在生物学里,一个看似正确的结论可能建立在完全错误的分析过程之上——而等你发现的时候,药已经做失败了。”这句来自药企一线科学家的提示,为我们指向了一个关键问题:评价一个AI Scientist是否能胜任药企的工作,不能只看结果,还需要关注整个过程。



真实情况:跑通了不等于做对了

过去一段时间,AI Scientist 领域出现了大量 Benchmark,他们试图帮助我们衡量模型是否知道某篇论文、某种方法、某个基因,以及能否在知识问答中给出正确答案。

但这些benchmark几乎都只在评答案对不对。

BiomniBench 旨在从根本上扭转当下 benchmark 的不足,不仅关注任务的结果,更关注测试是「模型会不会真的做研究」,从数据清洗、到方法选择、到统计检验、到生物学解释,每一步都测。达到了Agent 测试的更深一步:process-level evaluation,过程级评测



02 | 首个考核任务 -生物医药数据分析

首个落地模块 BiomniBench-DA 聚焦数据分析任务(Data Analysis)——这是当前 AI Agent 在生物医学研究中最常见、也最贴近真实研发流程的使用场景。

这套 Benchmark 共100 道题目,结合 Nature、Cell、Science 等高影响力论文的公开数据,由原论文作者或拥有 5 年以上行业经验的专家联合出题,把真实工作中常见的干扰因素和决策逻辑融入每一道题中,全面覆盖生物医药研究的5大疾病领域,和 17 类核心分析任务。

在测试的过程中,AI 答题需要给出完整分析轨迹,包括:读了什么数据,做了哪些清洗,为什么选某个方法,统计结果怎么样,怎么解释。然后 LLM 裁判按专家写好的评分标准(Rubric),从六个维度打分:数据处理、方法选择、统计严谨性、生物学解释、科学推理、来源可靠性

当然,评分标准允许多条合理路径。很多生物学问题没有唯一答案,关键在于论证清晰、有据可循。Agent不会因选择了与示例分析路径不同,但同样正确的方法而被扣分。



5 大疾病领域 × 17 类任务



03 | AI Scientist 的药企实习结果

Insight 1:谁是最强AI scientist 实习生

最强配置是 Claude Code + Opus 4.7,73.34 分。排在后面的是 Claude Code + Opus 4.6,69.83 分。第三名 Codex CLI + GPT-5.4,68.69 分。前三名里两个是 Claude Code 的配置。

作为参照,我们邀请了几位人类实习生在限定时间内作答部分题目,其平均得分在40-50分之间。这意味着最强的AI scientist 实习生表现已经超越了人类实习生平均水平。



Insight 2:Agent Harness 对结果的影响,与基础模型一样重要

在药企数据分析这个场景下,Agent Harness与模型能力对结果提升同等重要。在固定基础模型的情况下,更换Agent Harness会显著改变得分。最明显的案例是 GPT-5.4:

•在 Codex CLI 下得分为 68.69

•而在 Terminus-2 下仅为 55.19

这 13.5 分的差距完全归因于Agent Harness。



Terminus-2 Agent Harness 下9个基础模型的表现

Insight 3:AI Scientist 更快更省

AI scientist单个任务平均用时4.9-25分钟,花 0.92 到 4.58 美元;而人类完成同样的任务通常需要数小时甚至数十小时。在速度和成本上,AI 展现出一贯的优势。

对药企来说,这个进步还是很有价值的:大量探索性分析可以前置、并行化,然后丢给 AI,早期试错成本大幅降低



贵的不一定好,但好的确实贵

Insight 4:AI Scientist 也“偏科”

AI scientist在不同任务类型之间的表现差距显著。细胞组成分析最高分拿到 91 分,突变分析 88 分。边界清晰的任务是 AI 的专长。而GWAS-eQTL 分析只有 45 分,通路富集 64 分。需要判断统计方法、理解生物学上下文、和重科学推理的任务,AI 就稍显乏力了。

可见 AI 擅长计算,但对结果的生物学意义和科学深度理解还比较有限。短期内「AI 算 + 人类解释」可能是最安全的协作模式。



BiomniBench 的真正意义,不在于给生物医药 AI Scientist 排一个名次,而希望回答一个更大的问题:当 AI Scientist 试图端到端地自动化科研流程时,我们该如何判断它是否在真的做研究?

过去的 benchmark 像一场考试,给题、给答案、判对错。而 Auto Research 需要的是上岗评测,给数据、给目标、看过程、看结果、看风险。问题的关键不再是“这个模型准不准”,而是“这条分析链条,科学家敢不敢信”。

AI Scientist 的进步,来自基础模型、Agent Harness、行业知识,以及AI研究者与领域专家共同构建的 Verification Loop。对 AI 研究者而言,我们希望为大家打开真实的药企场景视野,了解真实任务中的难点。对生物医药从业者来说,我们也希望提供一个更贴近真实部署、并能客观了解 AI 现阶段能力的视角。我们相信,当过程被看见、当推理被验证、当每一环都可追溯,AI 与科学家之间的信任,才真正开始建立。

所以,实习结束。

如果是这样一位AI Scientist实习生,你会让它转正吗?

本次测评主要聚焦数据分析任务(Data Analysis),生物医药行业拥有极其多元的角色与职能,本次测评结果不代表所有岗位的情况。未来我们将延续这套过程级评测框架,推出覆盖更多行业场景的benchmark。欢迎行业专家、AI researcher 联系合作。

本次BiomniBench-DA仅评估了部分模型与Harness组合。未来我们将覆盖更多模型及AI Scientist专业产品。同时,我们将开源部分题目供内部测试使用。如您对产品在全部100道题上的评测结果感兴趣,欢迎联系我们。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国外女主播用脚底当屏幕映射直播《黑魂3》被封禁

国外女主播用脚底当屏幕映射直播《黑魂3》被封禁

3DM游戏
2026-05-26 14:08:05
536分捡漏上北大考生现状堪忧:硕士毕业后很迷茫,不知何去何从

536分捡漏上北大考生现状堪忧:硕士毕业后很迷茫,不知何去何从

育学笔谈
2026-05-27 16:22:45
鲁比奥高级助手升任美总统国家安全事务副助理

鲁比奥高级助手升任美总统国家安全事务副助理

新华社
2026-05-27 11:50:13
越打越强?莫斯科全面限制私人飞行!乌克兰首次空袭加里宁格勒

越打越强?莫斯科全面限制私人飞行!乌克兰首次空袭加里宁格勒

项鹏飞
2026-05-26 17:51:41
俄媒:日本记者辩称“没有时间”前往遭乌袭击学校采访,扎哈罗娃批“你们不是观光客”

俄媒:日本记者辩称“没有时间”前往遭乌袭击学校采访,扎哈罗娃批“你们不是观光客”

环球网资讯
2026-05-27 15:44:11
毛泽东躲入农妇家避敌搜查,她竟大喊:共产党在此,快来抓!

毛泽东躲入农妇家避敌搜查,她竟大喊:共产党在此,快来抓!

鉴史录
2026-05-24 16:35:50
896线激光雷达+三腔空气悬架,新车上市,29.29万起!

896线激光雷达+三腔空气悬架,新车上市,29.29万起!

科技堡垒
2026-05-26 10:53:48
国足26人名单将公布!海港2老将回归 3大U23核心入选 李昊或首秀

国足26人名单将公布!海港2老将回归 3大U23核心入选 李昊或首秀

我爱英超
2026-05-27 16:54:09
权志龙现身香奈儿,全程缩脖弓腰像极了混进场蹭吃蹭喝的

权志龙现身香奈儿,全程缩脖弓腰像极了混进场蹭吃蹭喝的

笑饮孤鸿非
2026-05-27 21:21:07
曹阳回应争议:潘朝伟怎么可能是关系户?中场节拍器、球商高

曹阳回应争议:潘朝伟怎么可能是关系户?中场节拍器、球商高

懂球帝
2026-05-28 06:57:07
北京本地人中穷人多吗?网友:我就挺穷,北京户口并不能发钱

北京本地人中穷人多吗?网友:我就挺穷,北京户口并不能发钱

带你感受人间冷暖
2026-05-26 22:27:50
手机里装5个AI太乱!深度实测国产5大顶流后,我建议你只留这2个

手机里装5个AI太乱!深度实测国产5大顶流后,我建议你只留这2个

小8说科技
2026-05-26 15:34:34
金门吃紧!大陆海警大兵压境,民进党却出了内鬼,台海这盘棋要变

金门吃紧!大陆海警大兵压境,民进党却出了内鬼,台海这盘棋要变

青杍无梦
2026-05-28 04:26:40
埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

懂球帝
2026-05-27 16:37:11
知名户外主播发生意外,Z疮发作大便失禁,恶臭难挡被取笑

知名户外主播发生意外,Z疮发作大便失禁,恶臭难挡被取笑

新游戏大妹子
2026-05-27 12:54:49
NBA历史至今一共有多少超巨?合计仅26个,哈登、麦迪都不够格!

NBA历史至今一共有多少超巨?合计仅26个,哈登、麦迪都不够格!

你的篮球频道
2026-05-27 10:00:08
李晨郑恺停更后续,节目中更多被欺凌片段爆出,沙溢评论区已沦陷

李晨郑恺停更后续,节目中更多被欺凌片段爆出,沙溢评论区已沦陷

一娱三分地
2026-05-25 13:57:50
多巴胺返贫正在毁掉你孩子的内驱力,适度饥饿才能养出优秀的孩子

多巴胺返贫正在毁掉你孩子的内驱力,适度饥饿才能养出优秀的孩子

男孩派
2026-05-27 10:40:59
惊天反转,乌克兰战略彻底转向,要对俄罗斯全面去军事化

惊天反转,乌克兰战略彻底转向,要对俄罗斯全面去军事化

始于初见见
2026-05-24 23:23:34
白衣飘飘,绿树依依!

白衣飘飘,绿树依依!

疾跑的小蜗牛
2026-05-27 22:49:26
2026-05-28 08:08:49
投中网 incentive-icons
投中网
创新经济的智识与洞见
12397文章数 15467关注度
往期回顾 全部

科技要闻

Meta首推AI付费服务 股价应声涨超3.7%

头条要闻

媒体:日本情报体系迎来根本性重构 威胁的不止东亚

头条要闻

媒体:日本情报体系迎来根本性重构 威胁的不止东亚

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

时尚
游戏
手机
艺术
公开课

这几件单品太火了,今年流行的风格都离不开它

小米称YU7 GT目前暂无登陆《GT赛车7》计划

手机要闻

苹果首款折叠屏iPhone保护壳曝光 设计细节进一步明朗

艺术要闻

于右任草书对联:标准草书天花板,爱好者如何不写成“天书”?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版