网易首页 > 网易号 > 正文 申请入驻

VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂画外音

0
分享至



复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni,统⼀视觉、⽂本、听觉与动作模态,实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据,引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。

在⽇常⽣活中,⼈类很少发出⽣硬的命令式指令⸺「把杯子放到桌上」。更多时候,我们的真实意图隐藏在对话、语⽓、甚⾄环境声音中。

「这果汁好酸啊」,其实意味着想换别的饮料;听到雷声骤起,就知道该去关窗收⾐;从声音辨出是爷爷在说话,会主动问他是否想喝最爱的热茶⽽不是可乐;在多⼈同时说话的场景中,还要分清谁才是发出指令的⼈。

现在,机器⼈终于能听懂这些「潜台词」了!复旦⼤学与新加坡国立⼤学联合发布RoboOmni,不仅重新定义了机器⼈交互的「情境指令」新范式,更通过全模态端到端的统⼀架构,让机器⼈⾸次具备了「察⾔观⾊」的认知能力。



  • 论文标题:RoboOmni: Proactive Robot Manipulation in Omni-modal Context
  • 论⽂地址:https://arxiv.org/pdf/2510.23763
  • 代码地址:https://github.com/OpenMOSS/RoboOmni
  • 模型 & 数据地址: https://huggingface.co/collections/fnlp/roboomni
  • 项⽬主⻚:https://OpenMOSS.github.io/RoboOmni

具身交互范式革命:从「显式指令」到「情境指令」



图 1:根据指令类型与输⼊对机器⼈操控模型的分类。RoboOmni 通过整合跨模态情境指令,实现了端到端多模态交互与动作执行的⼀体化。

当前主流的 VLA 模型存在两⼤局限:(1)现有模型⼤多依赖于精确、显式的指令(如「拿起苹果」),⽆法理解隐含的意图。(2)现有⽅法的指令输⼊严重依赖于⽂本,即便使⽤语音,也需要先通过 ASR (Automatic Speech Recognition)技术转成⽂字,这丢失了语调、情感、说话⼈身份等副语⾔关键信息,更⽆法感知⻔铃、雷声等环境声音的语义。

这意味着,过去的机器⼈是⼀个需要「精确编程」的迟钝执⾏者,⽽⾮⼀个能「察⾔观⾊」的智能伙伴。

复旦联合新国立提出的「跨模态情境指令」 (contextual instrcution) 新范式,旨在彻底改变这⼀现状。它要求机器⼈能像⼈⼀样,主动融合语音对话、环境声音和视觉观察,从多模态上下⽂中推断出⽤户的真实意图。

  • 从被动到主动:不再是等待明确的「关窗」指令,⽽是在听到雷声、看到阳台⻔开着时,主动询问:「需要我关窗吗?」
  • 从单模态到全模态:同时理解语音中的情感倾向(如不满的语⽓)、说话⼈身份(是妈妈的需求还是⼥⼉的?)、环境声音(⻔铃、警报、厨房噪音)以及视觉观察(画⾯中的物体状态和⼈物关系)的语义。

这不再是简单的指令执⾏,⽽是让机器⼈具备了真正的情境理解能力。它就像⼀个贴⼼的私⼈助理,能够从⼀句嘀咕、⼀段对话和周围的环境中读懂潜台词,让服务变得⾃然、主动且精准。

RoboOmni 架构:全模态端到端统一模型设计



图 2:RoboOmni 采⽤ Perceiver-Thinker-Talker-Executor 的模型结构,通过在共享表征空间内统⼀视觉、⽂本、听觉与动作模态,实现动作⽣成与语音输出的协同控制。

为解决传统⽅案的局限,研究团队提出了RoboOmni⸺⼀个基于全模态⼤模型的端到端框架,真正实现了从意图识别、交互确认到动作执⾏的完整闭环。与需要将语音转⽂字(ASR)的「拼接」系统不同,RoboOmni 在⼀套统⼀的模型中,直接融合语音、环境声音和视觉信号来推断意图,并能通过语音交互进⾏确认,输出动作 token 执⾏操作。

其核心是「感知-思考-回应- 执行」(Perceiver-Thinker-Talker-Executor)的统⼀端到端架构:

  • 统一感知 (Perceiver):作为「眼睛」和「⽿朵」,它将摄像头看到的画⾯、⻨克⻛听到的语⾳和环境声⾳,统⼀编码到同⼀个语义空间里。这意味着,⼀声 「雷响」和画⾯中的「开着的窗户」被关联起来理解,为后续推理打下基础。
  • 中央思考 (Thinker):作为「大脑」,它基于强⼤的 Qwen2.5-Omni 模型构建。它接收融合后的多模态信息,在⼀个统⼀的词表空间⾥进⾏推理,并⽣成交互⾏为。输出内容包含文本回复和机器⼈动作 token 的序列,实现了感知、语⾔与控制的深度融合。
  • 自然回应 (Talker):作为「嘴巴」,它让机器人能够直接进⾏语⾳交流。它接收 Thinker 的潜空间表示,⽣成⾃然、流畅的语⾳波形,从⽽实现与⼈的多轮、⽆缝语⾳对话。
  • 精准执⾏ (Executor): 作为「双⼿」,它负责将 Thinker ⽣成的动作 token 解码为机器⼈可以执⾏的精确命令。它采⽤ FAST + 动作编码技术,能够流畅地控制 7 ⾃由度机械臂完成各种复杂操作。

简⽽⾔之,RoboOmni 通过统⼀端到端架构设计实现了:

  • 全模态统⼀建模:从根源上避免了 ASR 转写的信息损失,能更好地保留语调、情感和环境语义,从⽽实现真正的「情境理解」。
  • 闭环具身智能:将「全模态」的概念从感知和认知,真正拓展到了⾏动层⾯,在⼀个模型内完成了「感知 - 推断 - 确认 - 执⾏」全流程。
  • 双向自然交互:⽀持语⾳回应与动作执⾏的双通道输出,机器⼈不仅能听会说,还能在对话中确认意图并执⾏任务,实现了⾃然的⼈机协作。

OmniAction:为「具身情境认知」量身打造的大规模数据集

主动式机器⼈必须从⾳频和视觉观察中推断隐含意图,但现有数据集缺乏包含视觉 - ⾳频模态组合以及意图推理所需的推断指令。

为了弥补这⼀不⾜,研究团队构建了OmniAction⸺⾸个大规模具身情境指令数据集,包含基于语⾳、环境⾳频、声⾳事件和视觉的情境指令和动作轨迹。



图 3:OmniAction 数据集构建流程。

海量规模与丰富多样性

  • 141,162 条多模态样本,覆盖112 种技能与748 种物体。
  • 5,096 种独特音色,精细覆盖⽼年 / 中年 / ⼉童和男性 / ⼥性的不同身份组合,还原真实多样的⽤户⾳⾊。
  • 2,482 种环境音效640 种生活背景噪音,构建出从厨房翻炒到客厅电视的真实听觉场景。

六大情境指令:精心设计的「认知考题」

OmniAction 的核⼼在于其六大情境指令类型,它们共同构成了考验机器⼈「情商」与「智商」的⽴体维度:



高标准数据构建流水线

为确保数据的真实性与⾼质量,研究团队采⽤三阶段严谨流程:

  1. 文本剧本生成:基于真实机器⼈任务,利⽤⼤模型将直接指令改写为富含情境的多⼈⾃然对话。
  2. 高保真听觉实现:采⽤ MOSS-TTSD、CosyVoice 等语⾳合成与声⾳克隆技术,⽣成带有真实⼝吻、语⽓和重叠对话的⾳频,并精准混⼊环境⾳与背景噪⾳。
  3. 严格人工验证:经过严格的⼈⼯校验,确保任务意图能够被准确恢复,⼀致率⾼达 98.7%。

推出 OmniAction-LIBERO 仿真基准

为推动领域发展,研究团队还基于 LIBERO 基准发布了OmniAction-LIBERO仿真基准。它提供了240 个涵盖不同指令类型的评估任务,并包含真实志愿者录⾳版本,为公平、系统地评估模型的「情境理解」能力树⽴了新标杆。

实验结果:全面超越传统级联方案,从指标到体验的跨越

为全⾯评估 RoboOmni,研究团队设置了严谨的对⽐实验。基线模型涵盖了当前最具代表性的开源 VLA 模型,并采⽤两种主流范式进⾏对⽐:其⼀是真值文本基线(直接输⼊原始⽂本,避免了 ASR 带来的⽂字识别错误),其⼆是ASR 文本基线(语⾳先经 Whisper 转⽂字再输⼊,代表当前语⾳交互的常⻅⽅案)。这两种基线旨在验证端到端全模态处理的必要性。

核心突破:情境指令任务完成率碾压级领先



表 1:RoboOmni 在 OmniAction-LIBERO 基准上的性能表现,在四⼤任务套件、六种情境指令下均⼤幅领先。

如图表 1 所示,在涵盖四大任务类型、六种情境指令的 OmniAction-LIBERO 基准上,RoboOmni 取得了85.6%的综合成功率,展现出压倒性优势,远超 OpenVLA (3.9%)、$\pi_0$(4.4%)、NORA(25.9%)。在其他传统 ASR 级联⽅案成功率⼤多低于 10% 的情况下,RoboOmni 在全部六种情境指令上均保持了76% 以上的⾼成功率。

关键发现:

  1. 端到端音频处理的必要性:级联基线(即便使⽤真值⽂本)⽆法捕捉⾳⾊、语调、重叠语⾳等副语⾔信息,⽽ RoboOmni 通过直接处理⾳频信号,完整保留了这些关键情境线索。
  2. 意图模糊下的鲁棒识别:在包含多个可操作物体和动作选择的意图复杂任务中(Goal 和 Object 任务),基线模型性能急剧下降(最佳基线仅 16.3%),⽽ RoboOmni 在这些任务中仍保持 85.8% 和 84.0% 的⾼成功率。
  3. 不同情境指令的认知难度差异:对模型⽽⾔,双⼈对话和重叠语⾳任务相对简单(约 88%),⽽⾮语⾳线索任务最具挑战(约 82%),因其需要识别环境声⾳并与其他模态信息整合。

真实世界表现:从仿真到现实的完美迁移



图 4:RoboOmni 在 WidowX 250S 真实机器⼈上的成功案例演示。

真机演示(图 4)进⼀步验证了其能力可⽆缝迁移到现实世界。RoboOmni 展现出三重核心能力:

  1. 精准的意图识别能力:能够准确融合视觉和听觉线索来推断⽤户意图。例如通过语⾳内容识别⽬标物体,同时通过视觉场景判断正确的放置位置(如识别出当前场景为吃⽕锅,需要放置容器是⽕锅⽽⾮其他)。
  2. 有效的主动交互机制:在推断出⽤户的潜在意图后,会主动提出澄清性问题(如「是否需要我……?」),并在获得⽤户确认后才执⾏动作,确保每个⾏动都经过深思熟虑且符合⽤户真实意图。
  3. 可靠的物理执行性能:能够在存在多个⼲扰物的复杂场景中准确定位⽬标物体,并将其精确放置到指定位置,展现了在真实环境中的稳健操作能力。

主动服务能力:不仅是执行,更是主动服务



图 5:主动服务能⼒的定性与定量评估。左图显示意图识别准确率,右图为交互案例对⽐。

真正的智能体现在协作中。如图 5 所示,在专⻔的主动协助能力评估中,RoboOmni 的意图识别准确率⾼达 88.9%,显著优于其他模型(GPT-4o+ASR 仅为 55.6%)。

更值得称道的是其「认知智能」:(1)主动澄清机制:当遇到「蛋饺」等模糊指令时,不会盲⽬执⾏,⽽是主动询问「要我把蛋饺放进⽕锅吗?」;(2)多模态完美融合:在⻔铃场景中,能够结合对话上下⽂和环境声⾳信号,提出「我听到⻔铃了⸺应该把⻥丸放进⽕锅吗?」;(3)自然对话流维护:始终使⽤「您希望我…… 吗?」等尊重性、协作性的语⾔模式,与基线模型常常发出的直接命令或陈述形成鲜明对⽐。这⼀系列能力使得 RoboOmni 不再是简单的指令执⾏器,⽽是能够真正理解情境、主动提供服务的智能伙伴。

架构优势:效率与性能兼得



图 6:(a) 使⽤ OmniAction 预训练能极⼤提升训练效率 (b) 端到端建模显著提升推理效率,延迟仅为级联方案的⼀半。

RoboOmni 的优势不仅在于效果,更在于效率。深⼊分析表明,其架构设计和⼤规模预训练带来了巨⼤增益:如图 6 (a) 所示,经过 OmniAction 预训练的模型,仅需 2K 步微调即可达到近 90% 准确率,展现了卓越的训练效率;如图 6 (b) 所示,端到端架构消除了 ASR 瓶颈,其推理速度是传统级联⽅案的近两倍(延迟仅为 0.49 倍)。

未来展望:通向通用具身智能之路

RoboOmni 的出现标志着机器⼈交互范式从「服从命令的⼯具」向「洞察意图的伙伴」的根本转变。这⼀转变体现在三个层⾯:

  1. 在交互上,从「精确指令 - 呆板执⾏」变为「⾃然交流 - 主动理解 - 确认执⾏」;
  2. 在感知上,从单模态⽂本拓展到语音、视觉、环境声音的全模态融合;
  3. 在架构上,从存在信息损失的级联系统演进为端到端的统⼀模型。

RoboOmni 所代表的不仅是技术突破,更是交互范式的⾰新。当机器⼈能够理解 「⾔外之意」,能够「察⾔观⾊」,⼈与机器的关系将从单向命令变为双向协作。它让技术隐于⽆形,智能融于⾃然,最终实现让技术适应⼈、⽽⾮让⼈适应技术的终极⽬标。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
去了浙江才发现,电线早已不埋墙里了!瞧人家这么设计,真是先进

去了浙江才发现,电线早已不埋墙里了!瞧人家这么设计,真是先进

阿离家居
2025-11-11 13:12:24
印度这边出了新规,东方大国的卫星服务不让用了,说是安全优先

印度这边出了新规,东方大国的卫星服务不让用了,说是安全优先

百态人间
2025-11-11 05:00:03
解放台湾的窗口期,已经打开

解放台湾的窗口期,已经打开

六爷阿旦
2025-11-10 18:24:41
英美没想到!联手踢人民币出局,只为巩固美元,交易市场却变天了

英美没想到!联手踢人民币出局,只为巩固美元,交易市场却变天了

近史谈
2025-11-11 15:46:40
范思琦微笑祝贺曼昱!赛后为自己打20分:1-3落后将巨星逼入绝境

范思琦微笑祝贺曼昱!赛后为自己打20分:1-3落后将巨星逼入绝境

颜小白的篮球梦
2025-11-11 16:09:14
北京大爷出售1960年茅台,行家鉴定给出一口价,大爷听完直接送客

北京大爷出售1960年茅台,行家鉴定给出一口价,大爷听完直接送客

涛哥美食汇
2025-11-10 09:22:09
致7死27伤,河北燕郊较大燃气爆燃事故调查报告公布

致7死27伤,河北燕郊较大燃气爆燃事故调查报告公布

界面新闻
2025-11-10 18:43:24
美国造出“稀土磁铁”!美财长向全球宣布:将摆脱中国“卡脖子”

美国造出“稀土磁铁”!美财长向全球宣布:将摆脱中国“卡脖子”

博览历史
2025-11-10 20:15:30
1951年,毛主席只调一人入朝,我军立即反败为胜,令美军至今胆寒

1951年,毛主席只调一人入朝,我军立即反败为胜,令美军至今胆寒

娱乐圈的哔哔王
2025-11-10 11:03:08
爸爸去哪儿6个孩子现状:有人进国家队,有人出家,有人出国断联

爸爸去哪儿6个孩子现状:有人进国家队,有人出家,有人出国断联

观察鉴娱
2025-11-04 09:35:35
中国人买车真相:穷人开BBA?90%中国人买10万元车,豪车仅0.1%

中国人买车真相:穷人开BBA?90%中国人买10万元车,豪车仅0.1%

音乐时光的娱乐
2025-10-31 09:45:40
眼科主任面带桃花:前一秒甜美养眼,后一秒大尺度画面太辣眼

眼科主任面带桃花:前一秒甜美养眼,后一秒大尺度画面太辣眼

公子麦少
2025-11-08 16:20:48
男子偷偷潜入女邻居家,躲在床底,竟目睹一场偷情引发的凶杀…

男子偷偷潜入女邻居家,躲在床底,竟目睹一场偷情引发的凶杀…

极品小牛肉
2024-07-30 22:47:13
独行侠传闻:达拉斯被敦促考虑交易价值5440万美元的球员

独行侠传闻:达拉斯被敦促考虑交易价值5440万美元的球员

好火子
2025-11-11 13:37:28
记者:梅西不希望拉波尔塔利用自己,因此回诺坎普没通知巴萨

记者:梅西不希望拉波尔塔利用自己,因此回诺坎普没通知巴萨

懂球帝
2025-11-11 16:32:09
维C是苹果9倍!冬天使劲吃,一健脾养胃,二养肝护肝,三补钾补铁

维C是苹果9倍!冬天使劲吃,一健脾养胃,二养肝护肝,三补钾补铁

阿龙美食记
2025-11-11 13:47:30
广东首条地市全资建设高铁来了!线路全长125.5公里,串联三市

广东首条地市全资建设高铁来了!线路全长125.5公里,串联三市

交建动态
2025-11-11 10:11:45
47-33!这就是谢泼德的改变,他已成火箭第三得分手

47-33!这就是谢泼德的改变,他已成火箭第三得分手

奕辰说球
2025-11-11 11:30:59
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
索赔,7名被禁赛一年的马来西亚归化球员计划起诉马来西亚足协

索赔,7名被禁赛一年的马来西亚归化球员计划起诉马来西亚足协

懂球帝
2025-11-11 15:43:05
2025-11-11 18:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11694文章数 142501关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

欧委会迫使欧盟成员排除中兴、华为设备 外交部回应

头条要闻

欧委会迫使欧盟成员排除中兴、华为设备 外交部回应

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

房产
教育
旅游
数码
家居

房产要闻

海口湾,1300亩巨无霸地块登场!

教育要闻

徐凯文:当代全球青少年心理健康危机的釜底抽薪之策

旅游要闻

枣庄龟山公园“换冬装” 色彩斑斓美如画

数码要闻

用希捷酷狼Pro 30TB NAS硬盘打造120TB数据仓库也太“疯狂”了

家居要闻

国美学子 打造筑梦空间

无障碍浏览 进入关怀版