网易首页 > 网易号 > 正文 申请入驻

ICLR 2026|新版「图灵测试」:当VLA走进生物实验室

0
分享至



现有 VLA 模型的研究和基准测试多局限于家庭场景(如整理餐桌、折叠衣物),缺乏对专业科学场景(尤其是生物实验室)的适配。生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂(透明容器、数字界面)等特点,是评估 VLA 模型精准操作、视觉推理和指令遵循能力的理想场景之一。



近期,来自香港大学MMLAB 罗平老师团队和上海交大穆尧老师团队的工作——Autobio 正式被 ICLR 2026 接收,并获得了 8-8-6-6 的同行评议分数。AutoBio 是一个面向数字化生物实验室的机器人仿真系统与基准测试平台。我们通过这篇工作,尝试系统性回答一个关键问题:

当前主流的视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型,是否已经具备在真实生物实验室中执行实验流程的能力?



  • 论文标题:AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory
  • 论文链接:https://openreview.net/forum?id=UUE6HEtjhu
  • 论文代码:https://github.com/autobio-bench/AutoBio
  • https://huggingface.co/autobio-bench

一.研究背景:为何生物实验室构成关键挑战

与日常操作环境相比,生物实验室在机器人自动化层面呈现出一组高度耦合的挑战:

首先,实验操作通常具有长时序和强约束特征。即便单步动作相对简单,其组合往往构成对顺序一致性和状态依赖高度敏感的完整实验流程。

其次,实验器材大多数为交互式,广泛采用螺纹、卡扣、分档旋钮等精细机械结构,对位姿控制和轨迹规划提出远高于常规操作的要求。

此外,液体样本与透明容器的普遍存在,对视觉感知提出了更大的挑战,而这类场景在现有仿真与评测体系中长期被简化或忽略。

上述因素共同导致:即便在家庭或工业场景中表现良好的模型,也可能在实验室任务中迅速失效。这一现象表明,现有基准并不足以反映模型在科研场景下的真实能力边界。



二.AutoBio 的核心设计思想





如上图,AutoBio 并非简单复刻实验室环境,而是从实验流程本身出发,提出一种以生物实验语义为中心的建模与评测范式。

我们将复杂实验操作抽象为一组生物实验原语(biological primitives),例如样本转移、混合反应、条件调控、分离与保存等。这些原语进一步映射为可执行的机器人运动与控制模块,并在统一的仿真环境中进行组合。

在系统层面,AutoBio 由三部分构成:

  • 面向真实实验室的高保真仿真系统;
  • 覆盖多难度等级的标准化实验任务基准;
  • 与 VLA 模型直接兼容的数据生成、训练与评测接口。

这一设计使 AutoBio 能够在保持实验语义一致性的前提下,对不同模型进行可复现、可对比的系统评估。

三.一个真正 “像实验室” 的仿真系统

为了让机器人面对的环境尽可能接近真实实验室,AutoBio 在仿真层面进行了多项针对性扩展:

1. 实验仪器的数字化建模

为确保实验操作的真实性,AutoBio 引入了一套从真实仪器到仿真资产的系统化建模流程。通过多视角视频采集与 3D Gaussian Splatting 重建,我们获得高保真的几何与外观表示,并结合 CAD 建模与结构标注,生成可用于物理仿真的数字仪器模型。

该流程兼顾了视觉真实性与物理可交互性,避免了传统手工建模在复杂结构与真实比例上的偏差。



2. 实验室专用物理机制

标准物理引擎往往难以直接覆盖实验室中常见的交互模式。为此,AutoBio 针对生物实验高频操作扩展了一系列物理机制,包括但不限于:

  • 基于螺纹结构的旋拧与自锁建模;
  • 具有离散阻尼特性的分档旋钮;
  • 偏心机构驱动的周期性振荡;
  • 面向液体样本的准静态液面建模。

这些机制使仿真环境能够更准确地反映实验操作中的关键物理约束,从而避免模型在评测中依赖不现实的 “捷径策略”。



3. 面向视觉模型的渲染与界面支持

考虑到 VLA 模型高度依赖视觉输入,AutoBio 在渲染层面引入了基于物理的渲染(PBR)管线,以提升透明材料、液体以及仪器表面的视觉真实性。

同时,系统支持仪器数字界面的动态渲染,使机器人能够通过视觉信号读取参数、识别状态变化并执行相应操作。这一能力对于涉及人机界面的实验任务尤为关键。



四、AutoBio Benchmark:从实验流程到评测任务

基于上述仿真能力,AutoBio 构建了一个包含 16 个任务的评测基准,覆盖三个难度等级:

  • 简单任务:单步或低精度操作,如打开或关闭仪器盖;
  • 中等任务:需要一定精度和语言理解能力,如拧开离心管、样本转移;
  • 困难任务:涉及多模态推理,如读取屏幕参数并精确调节实验设备。



每个任务均支持自动化专家轨迹生成、随机化初始条件以及统一的成功判定机制,使不同模型能够在一致条件下进行公平比较。

五、当前模型的能力边界

我们系统评测了多种主流开源 VLA 模型。实验结果如下图:



  • 在简单任务上,模型已表现出较高成功率;
  • 当任务涉及高精度装配、液体判断或屏幕读数时,成功率显著下降;
  • 失败往往源于细节误差的持续累积,而非对任务的完全误解。

这一结果揭示出当前模型在高精度操作、细粒度视觉推理以及长期实验流程建模方面仍存在显著不足,也进一步验证了 AutoBio 在刻画真实科研场景挑战方面的必要性。

六、总结

AutoBio 提供了一个面向生物实验室的统一仿真与评测框架,使研究者能够系统性分析机器人在真实科研场景中的能力与局限。

我们的目标并非给出最终解决方案,而是通过清晰的问题定义和可复现的评测体系,为通用机器人走向科研自动化提供一个坚实的起点。

随着模型架构、训练范式与跨模态推理能力的持续发展,我们希望 AutoBio 能够成为连接机器人学习与生命科学自动化的重要基础设施。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英格兰2026世界杯阵容预测:首发11人+26人大名单全解析,贝林厄姆成最大悬念

英格兰2026世界杯阵容预测:首发11人+26人大名单全解析,贝林厄姆成最大悬念

夕落秋山
2026-02-25 14:35:25
玩心挺重!莫雷加德单局6-3做实验险被翻盘,3-0稳稳晋级16强

玩心挺重!莫雷加德单局6-3做实验险被翻盘,3-0稳稳晋级16强

乒谈
2026-02-25 20:24:57
她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

阅微札记
2026-02-25 16:56:12
28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

谈史论天地
2026-02-25 06:53:06
星链大降价!马斯克:无关竞争对手 我只想平价服务大众

星链大降价!马斯克:无关竞争对手 我只想平价服务大众

快科技
2026-02-25 10:33:12
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
全国统一执行!3月1日起,公职人员戴上紧箍咒,老百姓迎来大便利

全国统一执行!3月1日起,公职人员戴上紧箍咒,老百姓迎来大便利

福建平子
2026-02-25 10:54:52
悲剧!20岁球员生日夜殴打母亲 决绝跳海赴死:第1次失败后重跳

悲剧!20岁球员生日夜殴打母亲 决绝跳海赴死:第1次失败后重跳

风过乡
2026-02-25 10:32:10
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
李亚鹏年初六到陈光标家做客!为陈光标儿子送行,陈太太罕见露脸

李亚鹏年初六到陈光标家做客!为陈光标儿子送行,陈太太罕见露脸

洲洲影视娱评
2026-02-25 15:25:18
公司市值近百亿!“关键先生”除夕前去世,享年61岁……5天前还在开会

公司市值近百亿!“关键先生”除夕前去世,享年61岁……5天前还在开会

上观新闻
2026-02-25 14:12:07
国家税务总局:2月25日起个税综合所得年度汇算清缴可以预约办理

国家税务总局:2月25日起个税综合所得年度汇算清缴可以预约办理

中国能源网
2026-02-25 10:17:12
欧冠奖金曝光 小组赛踢完拜仁就拿1亿欧 倒数第一也超2000万欧

欧冠奖金曝光 小组赛踢完拜仁就拿1亿欧 倒数第一也超2000万欧

智道足球
2026-02-25 20:05:49
WTT新加坡大满贯:女单16强诞生!国乒7人日本6人,伊藤美诚过关

WTT新加坡大满贯:女单16强诞生!国乒7人日本6人,伊藤美诚过关

全言作品
2026-02-25 21:05:41
港股总市值升至50万亿港元 香港有望在一两年内成为全球最大的跨境财富管理中心

港股总市值升至50万亿港元 香港有望在一两年内成为全球最大的跨境财富管理中心

每日经济新闻
2026-02-25 17:15:06
卫冕冠军高歌猛进!孙颖莎3-1力克欧洲老将,1/8决赛将迎来德比战

卫冕冠军高歌猛进!孙颖莎3-1力克欧洲老将,1/8决赛将迎来德比战

钉钉陌上花开
2026-02-25 20:37:23
新娘爸爸婚礼现场退还18.8万彩礼?新娘回应:是真的,一开始就没想过要收彩礼

新娘爸爸婚礼现场退还18.8万彩礼?新娘回应:是真的,一开始就没想过要收彩礼

扬子晚报
2026-02-25 07:33:40
卢比奥是继基辛格、康.赖斯以来,美国最出色的国务卿!

卢比奥是继基辛格、康.赖斯以来,美国最出色的国务卿!

百态人间
2026-02-25 15:35:06
网传被判赔小米500万元的自媒体账号实控人为李斌,相关人士否认

网传被判赔小米500万元的自媒体账号实控人为李斌,相关人士否认

IT之家
2026-02-25 20:14:13
省委批准:开除焦卫星党籍!升正厅不到5个月落马

省委批准:开除焦卫星党籍!升正厅不到5个月落马

上观新闻
2026-02-25 14:54:04
2026-02-25 22:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12362文章数 142569关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

被指涉爱泼斯坦案 挪威前首相自杀未遂命悬一线

头条要闻

被指涉爱泼斯坦案 挪威前首相自杀未遂命悬一线

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

教育
艺术
时尚
数码
本地

教育要闻

超短学期!新学期校历来了!

艺术要闻

这位艺术家的马赛克画让人惊叹不已!

“复古甜心”穿搭突然大火!春天穿时髦又减龄

数码要闻

2026款联想YOGA Pro 15/16笔记本电脑预热

本地新闻

津南好·四时总相宜

无障碍浏览 进入关怀版