ProtocolQA 得分逼近人类专家！中国这家跨界公司率先让科研 AI 卷进实验室|科学|自动化|智能体

ProtocolQA 得分逼近人类专家！中国这家跨界公司率先让科研 AI 卷进实验室

2026-07-02 20:58:39　来源: 生物学霸

浙江举报

分享至

凌晨一点，你还在盯着那块该死的电泳图。

白天 AI 生成的方案，读起来条理清晰，可照着做完转化、涂板、挑克隆，结果菌落 PCR 却不出条带。回头一查：退火温度设置和引物 Tm 值对不上, 耗材的孔板规格也不匹配。

质粒构建、定点突变这类长流程实验更是如此，任何一环出错, 前面几天都可能白做。市面上多数「AI for Bio」工具，能做到的也就是生成一份读起来专业的方案，至于能否真的在设备上跑起来，它们给不出答案。

你期待的，或许是一个真正懂你的 AI 实验室：能把脑子里那个还没想清楚的实验设想，变成一套能直接上机、出了问题还能自己找原因改方案的完整流程。

这个期待，可能已经有了答案。2026 年 6 月 30 日，华大智造子公司涌生智能与上海人工智能实验室联合，在预印本平台 arXiv 发布论文《A Self-Evolving Agentic System for Automated Generation and Execution of Biological Protocols》[1]，提出自演化多智能体系统 ProtoPilot，并配套发布面向真实实验任务的评测体系 BioLab Bench。这次合作的关键，不是把一个模型和一个实验室简单接起来，而是补上 AI for Bio 最难的一半：真实世界。模型那一侧正在被越来越多团队买到、训练和快速拉平；但模型够不到的「物理那一半」——真实设备、真实湿实验、真实失败、真实约束和专家反馈，不能下载，也很难被蒸馏，只能在一次次实验试错中积累。

所以，当模型能力逐渐平权，真正拉开差距的，不是谁能生成更多答案，而是谁手里有真实实验世界这一侧。

当前，评估 AI 模型与智能体实验能力的代表性公开数据集之一，是 Future House 构建的 LAB-Bench。其中 ProtocolQA 子任务专门衡量模型能否理解实验 Protocol、进行流程推理，并识别实验设计与执行中的关键问题，分为选择题和开放问答两种形式，开放问答更接近真实科研场景，也更能反映模型的真实水平。

在本论文中，团队用这项任务对 ProtoPilot 做了一轮测评：在开放问答部分，ProtoPilot 结合 Qwen3.7 拿到 46.66% 的准确率，超过了目前表现最靠前的通用大模型 GPT 5.6 Sol (43.50%），并进一步尝试结合 GPT5.5 拿到了 52.38% 的准确率，逼近人类专家水平，相比 GPT5.5 提升了 12.38 个百分点。这背后体现的是一条不同于纯算力竞赛的路线：头部 AI 公司用 Scale compute 推高通用模型能力，而涌生智能选择从真实实验世界出发，通过 Agent scaling 和真实世界闭环数据工程，把真实任务、设备约束、专家反馈和湿实验结果组织成 AI 持续进化的训练场。

图片来源：参考文献[1]

BioLab Bench：AI 说自己会做实验，凭什么信?

BioLab Bench 是一款面向真实生命科学实验任务的 Bio Agent 评测体系，覆盖从理解用户实验意图，到生成 Protocol、SOP、自动化代码，再到设备执行的全链路。

过去不少 AI for Bio 评测考的是知识问答、论文理解、序列分析这类「知识层」能力，但你更在意的是：这个 Agent 到底能不能把实验跑起来?

相较于「知识层」评测，BioLab Bench 的四大差异化特点：

基于真实实验案例构建：不是设计好的示范题，而是基于真实湿实验案例构建的评测集，更接近你在实验室里真正会遇到的任务类型。

听懂需求 ≠ 设备愿意跑：AI 生成的方案读起来通顺, 不代表设备认可。BioLab Bench 采用两段式评测：Design2Protocol 看有没有真正听懂需求，Protocol2Code 看能不能转成设备能执行的流程，既看会不会想，也看能不能落地。

不只看方案顺不顺：同时评估科学性、完整性、可操作性、安全性、参数忠实度、SDK 合规性和设备可运行性，实验中的那些「会不会翻车」的问题，大多被纳入考察范围。

应用场景广泛：从基础液体处理、样本准备，到细胞实验、分子实验、测序建库、多组学工作流和复杂自动化联动都有涉及，你实际操作时会踩的坑，评测里大概率都有对应考点。

ProtoPilot：这三件事，AI 替你扛了

如果说 BioLab Bench 是一把「尺子」，回答的是「你怎么评估一个 Bio Agent」；那 ProtoPilot 就是真正下场跑流程的系统，回答的是「你怎么把它放进实验链路里」。

ProtoPilot 是一套自进化多智能体系统：你用自然语言描述实验目标后，它会拆解成科学合理的 Protocol，识别可用设备，转成可执行的 SOP 和自动化设备运行代码，经仿真校验与专家审查后下发执行，再根据湿实验反馈持续修正进化，形成从意图到执行的完整闭环。

它解决了什么问题：

需求模糊：你脑子里的实验设想，一开始大多是模糊的。ProtoPilot 靠多个智能体分工协作，陪你把一句模糊的话推理成结构化、参数完整的实验方案，不用你自己先想清楚每个细节。

「写得好」≠「跑得通」：真实执行要过孔位、体积、耗材、温控、设备 SDK、安全边界这些硬关卡，这也是很多「AI 方案」最后只能躺在文档里的原因。ProtoPilot 的 Protocol2Code 环节，专门补这段最容易掉链子的地方，把方案变成自动化设备能够执行的代码。

缺少反馈闭环：如果没有反馈闭环的工具，你问它为什么失败，它给不出比你更多的信息。而 ProtoPilot 会把失败原因、专家反馈和实验结果回流进系统，形成自进化，下一次不用你再从头教它一遍。

真实应用案例：干湿闭环是怎么自己转起来的

前面这些反馈机制说到底靠的是一件事：让「干」和「湿」真正接起来。不是纸面上的概念，下面这组真实实验数据，就是这套闭环在实验台上跑起来的样子：

在基础实验中，ProtoPilot 完成多孔板接种、连续梯度稀释和菌落 PCR 检测：96 个菌液接种样本孔均出现明显生长，OD600 读数分布稳定；24 个菌落 PCR 克隆均扩增出预期条带。

进一步在分子克隆任务中，系统支持完成 GLuc-WT 和 RLuc-WT 质粒构建，两个目标质粒均获得 Sanger 测序确认的正确克隆；

在 16 个酶突变体构建中，成功构建 15 个获得 Sanger 确认的突变体。对于更长流程的基于 PCA 法的 DNA 组装实验，96 个候选克隆中 93 个 colony PCR 阳性，阳性率达到 96.9%，并最终成功构建出全部目标 DNA 序列。

更关键的是，ProtoPilot 不只是「一次性生成流程」。在 PCA 组装实验中，当转化环节出现异常时，系统能够分析失败原因，识别抗性筛选失效等问题，并重新生成修正后的实验方案，使实验恢复到可继续筛选和验证的状态。

这只是链路的一部分

BioLab Bench 和 ProtoPilot 不是孤立发布的两个产品，而是涌生智能整条产品链路上的两个节点。它们能反哺此前发布的 αLab Brain 智能体系统（核心是 Bio Agent Harness），也补强了 SE-Fab 从实验意图到执行流程的 Agent 链路；对于华大智造现有的 PrepALL、AlphaTool、AIO 一体机等 Agent-Ready 的实验室自动化设备，则通过 Protocol2Code 和设备约束评估，让设备能接入更智能的实验任务链路。

如果有一天，实验室真的能这样运转

设想一下：你不再需要反复调试设备参数、不再需要在深夜自己排查每一次失败，而是可以把精力真正放在科学假设本身。用一句话说清楚你想做什么，剩下的方案设计、设备调度、执行监控、故障修正, 交给 Physical AI 去闭环完成。

当下不少海外科研 AI 产品，能力仍集中在文献、代码、模型这些「干实验」环节，产品官方也坦承距离完整的湿实验自动化还有一段路。而这一次，涌生智能与上海人工智能实验室联合交出的 ProtoPilot 和 BioLab Bench，是已经在真实实验台上跑通、有电泳条带和测序报告为证的干湿闭环。

AI 公司在集体进攻 Bio，但大多卡在同一步：模型可以买、可以训，真实设备、真实失败案例买不到。反过来，一家本就扎根实验室的公司要补上 AI 这一课，手里恰恰握着别人正在拼命找的东西：这或许就是这家中国跨界公司，能把干湿闭环做出来的原因。

生命科学实验室的 Physical AI，不会从聊天框里长出来，它长在实验室里——长在你每一次移液、每一次电泳、每一次深夜改方案里。

内容策划：沈佳钰

内容审核：朱卿

题图来源：华大智造

参考文献：

[1] https://doi.org/10.48550/arXiv.2606.31763

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.