凌晨一点,你还在盯着那块该死的电泳图。
白天 AI 生成的方案,读起来条理清晰,可照着做完转化、涂板、挑克隆,结果菌落 PCR 却不出条带。回头一查:退火温度设置和引物 Tm 值对不上, 耗材的孔板规格也不匹配。
质粒构建、定点突变这类长流程实验更是如此,任何一环出错, 前面几天都可能白做。市面上多数「AI for Bio」工具,能做到的也就是生成一份读起来专业的方案,至于能否真的在设备上跑起来,它们给不出答案。
你期待的,或许是一个真正懂你的 AI 实验室:能把脑子里那个还没想清楚的实验设想,变成一套能直接上机、出了问题还能自己找原因改方案的完整流程。
这个期待,可能已经有了答案。2026 年 6 月 30 日,华大智造子公司涌生智能与上海人工智能实验室联合,在预印本平台 arXiv 发布论文《A Self-Evolving Agentic System for Automated Generation and Execution of Biological Protocols》[1],提出自演化多智能体系统 ProtoPilot,并配套发布面向真实实验任务的评测体系 BioLab Bench。这次合作的关键,不是把一个模型和一个实验室简单接起来,而是补上 AI for Bio 最难的一半:真实世界。模型那一侧正在被越来越多团队买到、训练和快速拉平;但模型够不到的「物理那一半」——真实设备、真实湿实验、真实失败、真实约束和专家反馈,不能下载,也很难被蒸馏,只能在一次次实验试错中积累。
所以,当模型能力逐渐平权,真正拉开差距的,不是谁能生成更多答案,而是谁手里有真实实验世界这一侧。
![]()
![]()
![]()
当前,评估 AI 模型与智能体实验能力的代表性公开数据集之一,是 Future House 构建的 LAB-Bench。其中 ProtocolQA 子任务专门衡量模型能否理解实验 Protocol、进行流程推理,并识别实验设计与执行中的关键问题,分为选择题和开放问答两种形式,开放问答更接近真实科研场景,也更能反映模型的真实水平。
在本论文中,团队用这项任务对 ProtoPilot 做了一轮测评:在开放问答部分,ProtoPilot 结合 Qwen3.7 拿到 46.66% 的准确率,超过了目前表现最靠前的通用大模型 GPT 5.6 Sol (43.50%),并进一步尝试结合 GPT5.5 拿到了 52.38% 的准确率,逼近人类专家水平,相比 GPT5.5 提升了 12.38 个百分点。这背后体现的是一条不同于纯算力竞赛的路线:头部 AI 公司用 Scale compute 推高通用模型能力,而涌生智能选择从真实实验世界出发,通过 Agent scaling 和真实世界闭环数据工程,把真实任务、设备约束、专家反馈和湿实验结果组织成 AI 持续进化的训练场。
![]()
图片来源:参考文献[1]
BioLab Bench:AI 说自己会做实验,凭什么信?
BioLab Bench 是一款面向真实生命科学实验任务的 Bio Agent 评测体系,覆盖从理解用户实验意图,到生成 Protocol、SOP、自动化代码,再到设备执行的全链路。
过去不少 AI for Bio 评测考的是知识问答、论文理解、序列分析这类「知识层」能力,但你更在意的是:这个 Agent 到底能不能把实验跑起来?
相较于「知识层」评测,BioLab Bench 的四大差异化特点:
基于真实实验案例构建:不是设计好的示范题,而是基于真实湿实验案例构建的评测集,更接近你在实验室里真正会遇到的任务类型。
听懂需求 ≠ 设备愿意跑:AI 生成的方案读起来通顺, 不代表设备认可。BioLab Bench 采用两段式评测:Design2Protocol 看有没有真正听懂需求,Protocol2Code 看能不能转成设备能执行的流程,既看会不会想,也看能不能落地。
不只看方案顺不顺:同时评估科学性、完整性、可操作性、安全性、参数忠实度、SDK 合规性和设备可运行性,实验中的那些「会不会翻车」的问题,大多被纳入考察范围。
应用场景广泛:从基础液体处理、样本准备,到细胞实验、分子实验、测序建库、多组学工作流和复杂自动化联动都有涉及,你实际操作时会踩的坑,评测里大概率都有对应考点。
![]()
ProtoPilot:这三件事,AI 替你扛了
如果说 BioLab Bench 是一把「尺子」,回答的是「你怎么评估一个 Bio Agent」;那 ProtoPilot 就是真正下场跑流程的系统,回答的是「你怎么把它放进实验链路里」。
ProtoPilot 是一套自进化多智能体系统:你用自然语言描述实验目标后,它会拆解成科学合理的 Protocol,识别可用设备,转成可执行的 SOP 和自动化设备运行代码,经仿真校验与专家审查后下发执行,再根据湿实验反馈持续修正进化,形成从意图到执行的完整闭环。
![]()
它解决了什么问题:
需求模糊:你脑子里的实验设想,一开始大多是模糊的。ProtoPilot 靠多个智能体分工协作,陪你把一句模糊的话推理成结构化、参数完整的实验方案,不用你自己先想清楚每个细节。
「写得好」≠「跑得通」:真实执行要过孔位、体积、耗材、温控、设备 SDK、安全边界这些硬关卡,这也是很多「AI 方案」最后只能躺在文档里的原因。ProtoPilot 的 Protocol2Code 环节,专门补这段最容易掉链子的地方,把方案变成自动化设备能够执行的代码。
缺少反馈闭环:如果没有反馈闭环的工具,你问它为什么失败,它给不出比你更多的信息。而 ProtoPilot 会把失败原因、专家反馈和实验结果回流进系统,形成自进化,下一次不用你再从头教它一遍。
![]()
真实应用案例:干湿闭环是怎么自己转起来的
前面这些反馈机制说到底靠的是一件事:让「干」和「湿」真正接起来。不是纸面上的概念,下面这组真实实验数据,就是这套闭环在实验台上跑起来的样子:
在基础实验中,ProtoPilot 完成多孔板接种、连续梯度稀释和菌落 PCR 检测:96 个菌液接种样本孔均出现明显生长,OD600 读数分布稳定;24 个菌落 PCR 克隆均扩增出预期条带。
进一步在分子克隆任务中,系统支持完成 GLuc-WT 和 RLuc-WT 质粒构建,两个目标质粒均获得 Sanger 测序确认的正确克隆;
在 16 个酶突变体构建中,成功构建 15 个获得 Sanger 确认的突变体。对于更长流程的基于 PCA 法的 DNA 组装实验,96 个候选克隆中 93 个 colony PCR 阳性,阳性率达到 96.9%,并最终成功构建出全部目标 DNA 序列。
更关键的是,ProtoPilot 不只是「一次性生成流程」。在 PCA 组装实验中,当转化环节出现异常时,系统能够分析失败原因,识别抗性筛选失效等问题,并重新生成修正后的实验方案,使实验恢复到可继续筛选和验证的状态。
![]()
![]()
![]()
![]()
这只是链路的一部分
BioLab Bench 和 ProtoPilot 不是孤立发布的两个产品,而是涌生智能整条产品链路上的两个节点。它们能反哺此前发布的 αLab Brain 智能体系统(核心是 Bio Agent Harness),也补强了 SE-Fab 从实验意图到执行流程的 Agent 链路;对于华大智造现有的 PrepALL、AlphaTool、AIO 一体机等 Agent-Ready 的实验室自动化设备,则通过 Protocol2Code 和设备约束评估,让设备能接入更智能的实验任务链路。
如果有一天,实验室真的能这样运转
设想一下:你不再需要反复调试设备参数、不再需要在深夜自己排查每一次失败,而是可以把精力真正放在科学假设本身。用一句话说清楚你想做什么,剩下的方案设计、设备调度、执行监控、故障修正, 交给 Physical AI 去闭环完成。
当下不少海外科研 AI 产品,能力仍集中在文献、代码、模型这些「干实验」环节,产品官方也坦承距离完整的湿实验自动化还有一段路。而这一次,涌生智能与上海人工智能实验室联合交出的 ProtoPilot 和 BioLab Bench,是已经在真实实验台上跑通、有电泳条带和测序报告为证的干湿闭环。
AI 公司在集体进攻 Bio,但大多卡在同一步:模型可以买、可以训,真实设备、真实失败案例买不到。反过来,一家本就扎根实验室的公司要补上 AI 这一课,手里恰恰握着别人正在拼命找的东西:这或许就是这家中国跨界公司,能把干湿闭环做出来的原因。
生命科学实验室的 Physical AI,不会从聊天框里长出来,它长在实验室里——长在你每一次移液、每一次电泳、每一次深夜改方案里。
内容策划:沈佳钰
内容审核:朱卿
题图来源:华大智造
参考文献:
[1] https://doi.org/10.48550/arXiv.2606.31763
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.