网易首页 > 网易号 > 正文 申请入驻

具身数据战开打!普通人都能上手,边采边筛,只喂机器人爱吃的

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

现在,一部手机,加一个“夹爪”,就能随时随地完成具身智能数据采集了!



采出来的数据不脏也不废,已经在实际模型训练中跑出了效果

模型在多步连续任务中动作衔接更稳定;

在真实场景中面对光照变化、环境杂乱、物体遮挡时也更不容易失手,执行鲁棒性显著提升;

而当任务发生小幅变化,比如同类但不同顺序的操作目标出现时,模型也更容易举一反三,做出合理应对。

这套采集系统,模型效果是纯纯地全肯定。



这套可搭载手机的数采终端及其配套应用程序,名叫RoboPocket,来自具身智能创企穹彻智能

它是新兴采集设备UMI(Universal Manipulation Interface)的进阶状态。

和传统UMI方案相比,RoboPocket保持便携易用的基础上,更加轻盈:手机+夹爪即是一个节点。

如此一来,每个人——哪怕是普通人,都可以从口袋里掏出RoboPocket,随时随地采集具身数据。

但这还算不上它最出彩的地方。

最妙的是,RoboPocket把模型需求前置到采集一线,让你随时接入模型的训练闭环。

采集行为发生时,系统会同步判断每一段数据的训练价值,并即时给出反馈与引导,尽量让采集行为本身就朝着模型真正需要的方向收敛。

每一次采集都直接服务于模型进化,浪费不了一点。



在数据还在生成的过程中,就对其完成了价值筛选。

最终采来交付给模型的数据从采集源头就来得更加清晰,更加准确,对模型也更有用。

具身模型想scale up,卡在数据哪一步?

在具身智能领域,数据的重要性几乎是共识性的

具身模型们嗷嗷待哺,等待大量高质量、多样性的具身数据的投喂。

从2023年起,许多团队投入大量资源建设数采厂,希望通过规模化生产来支撑模型训练。

实践很快暴露出一个现实问题,数采流水线建起来了,数据量上来了,模型能力却并没有稳定持续地提升。

原因并不神秘。

数采厂依赖的是预设场景和标准化流程,这种方式在工业数据中行之有效,但在具身智能里,很难覆盖真实世界中大量非标准、非重复的操作情境。

动作容易趋于模式化,任务分布集中,环境变化有限,数据之间高度相似,训练收益很快出现边际递减。

有相关从业人员告诉我们,现在的具身数据一天比一天多了,结果训练效率出现不升反降情况



而具身模型真正需要的,恰恰是那些发生在真实环境中的、不那么规整的操作过程。

这也是UMI出现的背景。

UMI轻量便携,更易使用,一方面减少了数采成本,更重要的是开始让具身数据采集摆脱了固定场地的限制。

任何人,可以在室内和户外的任何真实世界场景里自然完成操作。

如此一来,采集的数据也是贴近现实分布的。这就弥补了数采厂和真实世界存在gap的问题。

但当UMI开始被业界认可和逐渐大规模使用后,新的问题也随之显现。

在真实场景中,采集更自由了,但质量控制随之变难了。

动作是否有效?轨迹是否合理?采集节奏是否适合训练?这些问题往往只有数据回传清洗,开始拿来训模型的后处理阶段才能发现。

大量低价值数据被一路送进管线,清洗与返工成本迅速抬升,训练周期被不断拉长。

所以关于UMI的“不可能三角”被抬到了台前——

采集质量、使用便捷性与后处理压力三者难以同时优化

如果追求采集质量,就往往要牺牲便携性;如果降低门槛提高便携性,比如像传统UMI仅靠腕部模组或“人-夹爪”采集,就又很难保证数据的可用性;如果希望用后处理阶段兜底,就意味着要承受高昂的清洗、筛选与修复成本,训练闭环被迫拉长。

现有的UMI方案并没有解决“采得的数据能不能用”这个问题——这一点恰恰对模型训练至关重要。

于是,穹彻团队决定回到问题的原点,重新出发。

他们从第一性原理出发,提出一个关键设想。

  • 如果模型训练最终还是要根据数据结构做判断与筛选,那么为什么这件事不能在数据采集阶段就发生?

这个问题其实是行业迟迟没直面解决的。因为一旦着手解决,就意味着采集逻辑、平台架构、成本结构、人才组织……都得变。

而RoboPocket第一次把它变成了现实。



内置一套实时运行的“数据价值中枢系统”

相比于过往的UMI设备,RoboPocket的关键改变集中体现在采集目标本身的定义上。

传统UMI的普遍默认采集目标是“记录人类操作行为”。

也就是通过腕部模组、夹爪、轨迹重建等方式,尽可能完整地还原人类执行任务的过程。

在训练初期,这确实能为模型提供基本行为模板。

随着模型走向更高维度、更长时序、更复杂场景,记录动作本身已不足以满足训练所需

RoboPocket开始尝试把采集的目标转向模型的能力缺口。

模型还不会的,才是最值得采的数据。

基于这个理念,RoboPocket系统内置了一套实时运行的“数据价值中枢系统”

这套系统不再等数据采完后才去筛选、分类、评估,而是在采集发生的当下,就开始实时进行判断。

不难想象,一旦没有模型视角,采集很容易在堆量的过程中滑向重复、失真和低价值。

只有知道模型此刻真正需要什么样的数据,才有能力搭建好这个中枢系统。

穹彻和上交大卢策吾团队敢揽这个瓷器活,人家是真有公认的金刚钻。

团队长期从事具身模型训练与数据闭环研究,既懂单点采集工具(此前推出过多款具身数据采集硬件),也懂围绕具身模型训练、评估与数据回流的完整闭环研究。

他们最清楚哪些轨迹会变成有效训练信号,哪些看起来热闹但只会拖慢训练,也更清楚模型在不同任务维度上的短板通常出在哪里,应该用什么样的样本去补。

这种能力依赖的不只是工程实现,而是对模型的长期理解与持续验证,所以很难被复制。



采集数据的过程中,RoboPocket同时在推进并完成三件事——

第一是实时评估

在每一帧数据生成时,系统都会判断采集到的数据是否具备有效的训练信号,比如操作是否完整、动作是否在预期轨迹内、场景是否具备信息量。

第二是即时引导

如果系统检测到采集者的操作可能低效或错误,比如动作过快、夹爪超出操作区域、多样性不足等,就会实时发出提醒,引导采集者进行调整,避免采到低价值甚至废弃的数据。



第三是动态调度

这一环节则直接接入当前模型的能力评估结果。

系统会根据模型在不同任务维度上的表现,识别出当前训练最需要补齐的样本类型,并实时分发相应的高优先级采集任务给采集者。

说句更好理解的话,RoboPocket就是个24小时stand by的数据采集主理人

它即时诊断每一帧数据的质量,智能指导甚至纠正采集员动作,实时互动动态评估数据价值,为后处理提供筛选依据。

这样一来,在采集阶段,数据就和训练目标保持贴合,显著减少冗余,训练信号更加集中。

穹彻团队介绍,RoboPocket采集的数据在训练中展现出显著优势

尤其是在开放复杂环境中的多步骤任务中,模型执行的稳定性更强,不容易因光照变化、背景变化或任务干扰而出错,准确识别每一步的上下文意图,在不确定情境下仍保持清晰的目标推进逻辑。

无论是精准完成零食分拣装袋,还是毛巾折叠整理,模型可以保持稳定、高效的协同作业,展现了卓越的双臂协同与长序列操作能力。



此外,在环境复杂度提升、干扰增多的场景下,也能维持较高的成功率和一致性。

这显现出一个重要趋势

得益于采集过程更贴近真实任务,采集体系增强了训练匹配能力,模型开始从“能够粗糙地完成任务”向“能在非理想条件下可靠完成任务”演进。

而数据采集开始成为面向模型能力补齐的持续行为,这让数据采集开始具备闭环属性。

一旦采集与模型训练形成联动,整个数据系统的运行效率将得到显著提升。



从堆量走向边采边筛,数据采集的分水岭来了

如果放进更长的时间尺度来看,RoboPocket就不能视为一次孤立的产品更新。

机器人学习的发展,本质上是一部数据采集方式不断演进的历史。

最初,机器人只能在实验室中完成标准任务,数据由少数研究人员在封闭环境中录制。

随着具身智能的发展,数据开始走向规模化采集场,遥操作与人机协作带来大规模机器人数据。

2023年,穹彻智能联合上海交通大学卢策吾团队共同发布RH20T,机器人操作数据在中国首次实现系统性的规模化采集。但截至这一时期,机器人数据采集依然主要依赖预设场景。

2024年,斯坦福大学推出的UMI让采集设备更加轻量和简单,数据采集开始转向“自然发生”。

2025年,穹彻智能推出CoMiner伴随式数据采集系统,机器人开始走出采集场,进入真实世界,在开放环境中获取更加多样、复杂的操作数据

梳理这个过程可以看到,具身数据一步步走出搭建的实验场景,愈来愈贴近现实。

2026年,RoboPocket的出现,将机器人数据采集,从特定场所与专业系统彻底释放到整个社会中



手机成为节点,每个普通人可以参与采集。

无可否认,这是一次采集范式从“专业体系”走向“社会化网络”的转变。

当然啦,采什么、怎么采、优先级如何,这些都不是由人随意决定的。

这时候,前端连接真实世界的分散场景,后端连接任务库、模型训练与评估系统的RoboPocket,就起到了数据入口与调度中枢的双角色作用



正因为有这套持续在线的判断与调度机制,数据采集才第一次具备了真正社会化的前提条件。

数采员可以是每一个普通人,但采集行为始终根据模型需求由数据中枢系统统一牵引调度。

长期来看,会推动具身数据从工具竞争迈向体系竞争。

谁的数据采集流程更早地接入模型反馈、谁的任务设计天然适配训练目标,谁就能更快积累泛化能力与落地鲁棒性。

行业普遍认为具身智能还在上半场,期待着这个领域和大模型一样,能够用暴力美学带来能力涌现。



所有人都在往具身模型里扔更多数据,但真正赢的人,一定率先解决了其它更深层次的问题

既然如此,对想要持续scale up的具身智能行业来说,数据采集从源头就对齐目标就是一场迟早会发生的机制变动。

因为未来模型之间的差距,很可能就源于数据闭环的建设深度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离婚7年,39岁杨幂高调宣布喜讯,和前夫刘恺威已经拉开距离

离婚7年,39岁杨幂高调宣布喜讯,和前夫刘恺威已经拉开距离

洲洲影视娱评
2026-02-27 13:23:45
香港顶模陈雅欣!173cm黄金比例美到犯规✨

香港顶模陈雅欣!173cm黄金比例美到犯规✨

听风喃
2026-02-27 18:07:17
杉杉集团破产,事实证明:美女主持人只会排节目,对管理无能为力

杉杉集团破产,事实证明:美女主持人只会排节目,对管理无能为力

晨光苏醒a
2026-02-27 06:33:24
伊朗导弹袭击卡塔尔美军基地,卡塔尔首都多哈传出爆炸声

伊朗导弹袭击卡塔尔美军基地,卡塔尔首都多哈传出爆炸声

界面新闻
2026-02-28 17:55:07
浙江00后姑娘头晕以为没睡好,一查竟是脑梗!脑子里还藏着三枚“不定时炸弹”!医生:和这些习惯有关

浙江00后姑娘头晕以为没睡好,一查竟是脑梗!脑子里还藏着三枚“不定时炸弹”!医生:和这些习惯有关

台州交通广播
2026-02-28 09:50:17
以色列方面初步评估:美以刺杀伊朗最高领袖和总统失败

以色列方面初步评估:美以刺杀伊朗最高领袖和总统失败

天下泉城
2026-02-28 19:13:47
金与正“转正”!朝鲜权力核心大调整,这步棋走的很深

金与正“转正”!朝鲜权力核心大调整,这步棋走的很深

闫树军论评
2026-02-28 19:17:45
伊朗发射导弹一小时内 以色列300多地拉响警报

伊朗发射导弹一小时内 以色列300多地拉响警报

环球网资讯
2026-02-28 17:29:25
绞杀开始!荷兰科技专家:当初中国囤的1000台ASML光刻机,起作用了

绞杀开始!荷兰科技专家:当初中国囤的1000台ASML光刻机,起作用了

刘旷
2026-02-28 15:48:42
东西问丨美国大军压境,伊朗为何“还不屈服”?

东西问丨美国大军压境,伊朗为何“还不屈服”?

中国网
2026-02-24 15:39:11
伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

南权先生
2026-01-29 15:57:27
宣告奇迹出现刚2个月,蔡磊再破天花板,让整个科研界“沉默”了

宣告奇迹出现刚2个月,蔡磊再破天花板,让整个科研界“沉默”了

大眼妹妹
2025-11-27 20:17:22
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
一家三口看《飞驰人生》, 老婆约小三坐旁边偷情, 被老公炸裂抓奸

一家三口看《飞驰人生》, 老婆约小三坐旁边偷情, 被老公炸裂抓奸

扮猫骑老虎
2026-02-26 17:21:01
樊振东落选!莎头领衔国乒世界杯名单,温瑞博覃予萱迎大赛首秀

樊振东落选!莎头领衔国乒世界杯名单,温瑞博覃予萱迎大赛首秀

晓焎科普
2026-02-28 18:17:18
普陀山不是随便去的!这几件事不懂,不仅容易白跑,还惹麻烦

普陀山不是随便去的!这几件事不懂,不仅容易白跑,还惹麻烦

千秋文化
2026-02-24 20:22:32
华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

老杉说历史
2026-02-03 00:39:20
中国应该全力支持伊朗,不能让伊朗倒下了,不能光说不练了

中国应该全力支持伊朗,不能让伊朗倒下了,不能光说不练了

大秦共和国
2026-01-28 12:55:57
美伊风声紧迫!如果接下来几天两国真要打起来,A股哪类票会上涨?

美伊风声紧迫!如果接下来几天两国真要打起来,A股哪类票会上涨?

风风顺
2026-02-28 09:41:24
俄外交部:美以袭击伊朗是侵略行为 违反国际法

俄外交部:美以袭击伊朗是侵略行为 违反国际法

财联社
2026-02-28 19:23:25
2026-02-28 20:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12210文章数 176398关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

疑将燃料当白酒喝下两男子参加婚宴后中毒仍在ICU抢救

头条要闻

疑将燃料当白酒喝下两男子参加婚宴后中毒仍在ICU抢救

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

本地
教育
时尚
游戏
手机

本地新闻

津南好·四时总相宜

教育要闻

实操 | 寻找46个说话晚/说不清/语言发育迟缓的儿童,3-4月来这10城接受免费1v1言语实操

被章若楠、秦岚带火的鞋子竟然是它?春天这样穿又美又气质!

粉丝出钱逼官方下场:我不信你们能打通最高难度!

手机要闻

酷比魔方称魅族Flyme系统“在谈适配”,官微刚问“是否谈合作”

无障碍浏览 进入关怀版