网易首页 > 网易号 > 正文 申请入驻

对话智元首席科学家罗剑岚:推出SOP系统,是机器人规模化迈向真实世界的关键一步

0
分享至

今年一开年,智元机器人就整了个大活。

它旗下的智元具身研究中心,这两天发布了一套面向真实世界部署的在线后训练系统——SOP(Scalable Online Post-training)框架。

为什么说它是个大活?

简单讲,现在的模型都是训练完成后再上线,这导致搭载了模型的机器人一旦出厂就“智能冻结”,没办法根据真实物理世界的变化及时学习,也不能灵活地执行任务。

而SOP框架,就是针对这个问题的解决方案。它可以让多个机器人在部署后同时执行任务,把任务执行中的数据(成功和失败的都包括)一起传到云端。如果一个机器人在真实场景中遇到问题,经过云端分钟级在线更新策略,其他机器人也能立刻一起学会正确操作。


也就是说,现实世界不再是让机器人懵逼的考场,反而成了能让一堆机器人边干边学、更智能的训练资源。这是现在全球AI重点探索方向——Online Learning,在机器人领域中的进展。

从技术角度拆解,这套SOP系统主要是通过优化后训练模式,提升VLA模型在特定任务上的效果。

之前大语言模型(LLM)结合强化学习的后训练,已经被证明有效并成为事实标准。但具身领域,VLA的后训练由于数据偏移、真机后训练规模受限、单一后训练可能降低泛化能力,并没有像LLM的后训练一样成功。

所以,SOP的这套框架,通过刚刚提到的多个机器人执行任务—实时上传数据—云端学习、模型更新—立即下发的过程,在物理世界的后训练中整合了在线、分布式和多任务。

这些特点,能让多个机器人在真实大规模地持续学习中,迅速提升各个任务性能,同时不“忘记”之前学会的通用基础能力。

那么这套方法的效果如何呢?

智元具身研究中心选择了HG-DAgger(典型单机在线算法)和RECAP(最新SOTA离线算法)作对比。

能看出,经过SOP优化后的模型,在不同任务上的成功率都会更高。


在智元给出的真实任务展示中,还能看到经过SOP在线学习的机器人,在叠衣服和组装纸盒的长程评估中,实现了超过36小时的连续运行,性能也没有衰减。


*经加速展示

这项工作发布之后,智元合伙人兼首席科学家罗剑岚接受了包括「四木相对论」在内的媒体访谈。他补充了SOP接下来的落地节奏,并对这套系统在机器人领域的价值做了更多梳理。

以下是对话全文(经整理):

Q:2025年机器人领域的关键词是 VLA和世界模型。你觉得对2026年,机器人领域现在有什么共识?

罗剑岚:不知道能不能代表机器人领域,我只讲讲自己的观察。

我的观察是,通用性固然很重要,但部署中的任务熟练度和可靠性,才是决定机器人能否真正落地的关键。过去几年,大模型、VLA、预训练有非常大的提升,但机器人能否稳定、高效、长时间完成具体任务是一个问号,这非常高度依赖真实世界的训练闭环。

智元的判断是,2026 年是机器人从会做很多事,但每个事做得不太好,走向把事情做好并落地的关键节点。这要求学习范式从静态离线训练升级为部署学习再部署的整套数据闭环系统,正是基于这个判断,我们提出SOP系统级解决方案。

Q:从单机离线到分布式在线的系统化跨越,SOP系统起到了什么作用?对于机器人叠衣服柔性物体精细化操作的问题,解决了哪些过去难以突破的技术瓶颈?

罗剑岚:SOP是一个系统、是一个框架,在系统层面把执行和学习真正耦合起来。具体来讲,解决的核心技术瓶颈是三点。

一是非常低延迟的在线反馈。现在机器人犯错以后,需要纠正并尽快反映到模型里。

二是分布式数据的多样性和一致性。多机器人并行采集的时候,会经历各种各样不同的场景,需要稳定获取高质量的数据经验。

第三点是最重要的一点,SOP保证了它的通用性不退化。

像叠衣服、叠纸盒子、商超里 500 多种物体补货、上货,成功率很高,用的都是一个模型。而之前的工作,用一个通用VLA模型,在单个场景里微调,overfit(过拟合)到那一个场景上,机器人就会把之前的任务忘掉。而我们这个不会,SOP架构里是一个通用且泛化的模型,可以讲它是一个通用的专才。提升某一个任务表现的时候,不会牺牲掉整体模型的泛化能力。

Q:SOP的一个关键点,在于把训练由离线变成了在线。对机器人而言,它最革命性的改变是学得更快还是学的东西不一样了?

罗剑岚:我认为这两者都有。它学得更快,学的东西也不一样,但我更强调学得不一样。因为在线后训练的关键是真实场景发生犯的错误,这是真真实实的错误,而不是编出来的错误。把学习资源集中在当前错误的失败模式上,所以它会更快、更贴近落地所需的可靠性。

Q:之前单个场景训练时,单个场景也会发生很多错误。是不是也可以在单个场景训练学到不一样的东西?

罗剑岚:但原来是离线训练,就是在单个场景由人去遥操,去设想各种场景。首先这不是真的机器人执行时犯的错误,二是不包括经历这些状态时包含的错误。而在线多机训练,是在真实的场景里执行这个策略,观察这个策略会犯的错误,再把它纠正过来,这样效率会高很多。

Q:关于在线学习,以前机器人学习的是正确的数据,而失败数据对机器人也有价值。那么怎么防止机器人学坏?有什么机制?

罗剑岚:负面数据对学习很有益。就像人做任何一件事都要经历试错,知道什么事做,什么事不做。

强化学习是一个很好的框架,可以从原理上处理负面数据,就是给负面数据低权重,让它知道什么是好的什么是坏的,通过动态规划把这一系列东西串起来。

整体来说,我们既要有正例数据,也要有负例数据。SOP加上强化学习,可以从原理上很好地利用负数据,有时候负数据甚至比正数据更有用。

关于安全约束的机制,在算法层面,负数据放到value function(价值函数)上,它会拟合这个value function。如果是错误的行为,它的权重会降低。

Q:什么样的负面数据相对而言更有价值?

罗剑岚:首先是hard case(长尾场景/难例),也就是难挖掘的能力。

举个例子,在自动驾驶里的复杂高架桥场景,可能有一个高架桥有 3 层,有辅助、有主路,每次都会走错。不走一两次解决它,能力始终上不去。

回到机器人。比如机器人叠衣服,要甩一下、叠一下。之前的成功率上不去,是因为它抓不到衣角,就会一直空抓,导致工作时长很长但成功率很低。这些负例数据,可以很好地提升性能。

Q:SOP是分钟级,甚至秒级回流。未来部署过程中,算力、带宽和部署成本,会不会成为规模化落地的瓶颈制约?

罗剑岚:这也是我们做SOP第一天就考虑的问题,就是要有一套非常鲁棒、健壮、可扩展的软件工程 infra。这套系统的软件工程需要鲁棒到,往里加一台机器人、十台机器人、一百台机器人理论上没有区别。

底层基础设施也是有挑战的。有的机器人初创公司在做海底光缆,超大带宽的数据回流,这些我们也在看。这件事不仅需要软件算法创新,也需要社会的基础设施支持。

Q:SOP新机制上线后,原本的数采中心还有存在的必要吗?

罗剑岚:SOP是一个在线后训练框架,它需要有一个预训练模型,数采中心的离线数据可以给它提供基础能力。

预训练模型的能力等于出厂设置的能力。预训练数据的来源,一开始大部分是数采中心,因为现在还没有到大规模部署到真实世界的阶段。随着真实世界部署的机器数量越来越多,真实场景回流的数据也会变成训练预训练的数据,预训练模型会变得越来越强。

有了SOP之后,在线部署能够让大量数据回流去训练新的模型。随着部署量越来越多,积累的数据会越来越多,后面的数据大头来自真实世界部署产生的数据。

我认为现在离线的数据中心是主力,就像汽车的发电机把发动机打着的那一下,这还是很重要。因为我们不可能直接去部署一个零成功率的模型在真实世界,它要具备一定的基础能力,才能通过SOP这套方法把效果拉起来。

Q:对SOP系统的规划是?比如当机器人的数量达到多少,就能通过SOP实现怎样的效果?

罗剑岚:我们2026年有一个很大的重点是在真实世界部署通用机器人,目前业界还没有人做。关于数量,论文里是几十台机器人,今年我们会部署比现在大几个数量级以上的机器人,真正找到机器人真实场景部署和真实场景落地的Scaling law。

Q:SOP系统会不会受到机器人内部本体硬件差别的影响?

罗剑岚:SOP的设计核心正是为了解决这一痛点。它支持多机器人、多本体的协同训练,通过对数十台机器人的数据进行任务均衡采样,能够有效隔离单一硬件的干扰,从而提取出跨本体的“最大公约数”。这种机制保证了模型不会被某类特定硬件“带偏”。

简单来说,如果集群中有100台机器人,即便其中一台噪声很大,在其余99台机器人的数据对冲下,该噪声的影响也可以忽略不计。

Q:就是说就算机器人集群里有几种不同的机器人,SOP系统也可以正常运行?

罗剑岚:我们现在已经有这个结果了。它是可以跨本体的,但论文里我们没有把这个结果放出来。其实我们用了自家机器人,也用了别家的好几款机器人,最后的结果是可以跨本体泛化,下一个版本会放出来。

Q:智元接下来是否会考虑向行业开放SOP框架,或进行技术上的合作?在生态上有什么布局吗?

罗剑岚:首先SOP不是一个封闭系统,而是一种新的持续学习、在线学习、协同进化的方式。智元从成立之初就坚持走生态开放的路线。我们开源了很多数据和软硬件,SOP这个工作当然也希望和更多的厂商一起共建。

在生态布局上,我们愿意和生态伙伴一起做场景共建,部署真实机器人。现在有些场景不是为机器人设计的,所以需要我们共同定义这个场景的任务规范、流程、监督信号、边界等,把SOP的闭环真正接入业务流程里。

在这个层面我们很开放地希望和大家一起去共建,因为这不是某一家公司的事。我们会开放一些SOP的关键模块和接口。因为SOP是个框架,任意的后训练算法和模型都可以接进来。

从长远来讲,我们希望构建一个开放的机器人在线学习生态。不同的机器人本体都可以接入,让数据共享上传到云端一个大脑,数据回传回来不断进化,一起给大家使用。如果能找到行业伙伴,在各自擅长的场景中发挥优势,我们可以一起推动整个机器人行业从静态能力到动态进化的跨越。

Q:在工程制造、家庭服务或商用场景中,这套SOP适配难度有什么差异,现阶段最容易落地的场景是什么?

罗剑岚:难在不同的地方。工业制造对泛化性的要求会相对少一些,我们现在也在看一些工业制造的场景,但这种场景对整体的成功率和节拍、鲁棒性要求非常高,否则会影响到线的产能。

家庭服务和商超,对成功率和性能的要求没有工业场景那么苛刻,风险可控。但它是一个更加开放的场景,长尾任务更多。

我认为SOP在不同场景的适配难度存在明显梯度。工业场景里的流程稳定、边界清晰,责任、安全、工序划分得很明确。我们把SOP引入到在线系统里面,机器人在这种可控的环境里,可以持续运行,不断纠正失败模式,能快速把成功率和节拍提升到可规模化的上线水平。

医疗护理的要求最高,对合规、安全、可解释性的要求都很强。医疗护理的落地,会先从辅助性或非关键决策的环境开始。

对于家庭场景,实事求是地说,我不指望SOP能立马覆盖一个家庭,我认为这是一个逐步的过程。

就好像你有了预训练模型,预训练模型出厂就不可能是最优秀的模型一样。有了预训练模型再加上SOP,以逐步扩展任务能力的方式去落地,这是我认为这是未来有希望进入家庭的一种方式。通过部署更多的机器人,造成更多的数据回流,训练更好的模型载体,部署更多的机器人。

所以,现阶段最容易落地且明确产生商业价值的场景是工业制造和部分商业服务场景。

工业方面,我们已经有很多案例了。商业场景,比如商超和部分家庭,我们今年都会慢慢铺开。商业场景既要保持高性能,也不能丢掉泛化能力,就要关注机器人在不同场景、门店等不同环境下的适应能力,通过机器人共享的经验数据,不断减少人工的介入。

SOP是个框架,框架是统一的,在任务的定义、监督上有一些小的适配差别。做SOP的初衷是希望有一个通用、可拓展的框架,不对场景做区分,只用少量适配就能各种场景一套系统全部拉通。

我们落地的整体原则是先在可控、可规模化的场景里把闭环跑稳,然后再逐步拓展到更复杂的真实世界。

Q:论文有一句话是“3小时SOP的经验,对于机器人能力有30%的提升,80个小时的专家数据只有4%的提升。”似乎夸大一点讲就是,对具身智能来说预训练已死,未来是后训练的世界。

罗剑岚:这句话要拆开来讲。我先讲事实,3小时是在线训练,这3个小时非常宝贵,是从错误里面恢复的数据,是纠正错误的数据。另外的80小时也好,160小时也好,是在数采中心里采集的静态数据。

相当于机器人在做这件事的过程中犯错,又在错误中吸取经验。这样的经历只要有一点点,就比别人手把手教你做这件事重要得多。

再说回用离线数据做预训练。现在很多公司有很多相关应用都看到性能上的瓶颈,所以大家在进行后训练。但是你要说预训练这么大的池子已经死了,我认为不会。就像Gemini 3的预训练,依然能做出很多东西,比如多模态理解。而且这些在线数据也会回流回来,加到预训练的池子里,去训练预训练的基座模型。

Q:这种在线后训练的架构如果逐渐成熟,未来交付给客户的机器人,会不会变成持续服务的模式?

罗剑岚:和自动驾驶一样,你买车回来以后,它会不断更新版本一样,模型会变得越来越好。

Q:但和车不一样的是,工厂里可能不能接受一年后才能提升到100分的产品。

罗剑岚:对于不同场景的适配梯度不一样,工厂肯定不会先让机器人跑一年。工厂是有一个成功率高的预训练模型,因为它的场景相对结构化和固定。然后我们的微调时间很短,就可以上线。上线以后,持续学习的机制是在的,因为上线之后,就像用自动化设备过一段时间也得调整一次去适应新的情况。

当然这种情况,在工厂里的频率比较低。如果是商超或超市,每天人来人往,每天情况不一样,持续学习就是一个必要的措施。但即便是如此,也不代表每分每秒都在学习。特斯拉也不是每天在发版,而是几个月发一次。可以通过scheduling(排期/调度),做到让用户没什么感知,但真实性能提升的效果。

Q:技术博客提到多机采集可以阻止模型过拟合单机特定特征。那么多机特征会不会反过来影响到模型的学习?

罗剑岚:我部分同意你的观点,但我认为现在的AI或算法给我们的启示是scale really matters(规模至关重要)。数据的多样性和数据的规模,至少在现阶段,远比在特定场景去专门创建的数据重要得多。多机和单机,本质问题是单一场景还是多个广泛场景,我认为后者的数据越来越多,对模型的鲁棒性和健康性有更大的帮助。

Q:2026年对SOP落地应用的目标是什么,有没有可量化的数据分享?

罗剑岚:2026年我们考虑在真实世界大规模部署,SOP 是支撑这件事的基石。我们还在做相关工作,有进展的话,会第一时间对外部分享。

Q:明年智元会加大机器人在真实世界的部署。那么之后机器人公司的竞争核心,会不会从谁的模型更好,变成谁线下部署得最多、学得最快?

罗剑岚:我认为这是一个闭环。谁部署的机器人最多,谁的真实世界的宝贵数据就更多,谁就能训练出更好的模型。

Q:从真实世界边做边学数据回流的方式,从全球和行业来看是智元在独创性地做吗?

罗剑岚:所有公司都想做这件事。但据我所知,我们是第一个把这个事做大的公司。我讲得更严谨一点,现在它们并没有真的部署在便利店等场景,当然这是智元今年的重点。但智元作为一家全栈公司,独特优势在于有能力去构建真实世界的闭环。硬件、本体、软件、算法、工程,我们可以自己构造这样一个闭环系统。这是我们的一个独特优点。

我个人的一个梦想是希望今年在上海的超市看到机器人在真正干活,一个很大的规模。我们做这件事的优势还有一个,本体量很大,部署量很大,数据量也会很大。

Q:听下来SOP是机器人向真实世界迈入的第一小步,那么接下来第二步是什么?

罗剑岚:是的,这是关键的第一步。第一步解决的是长期被忽略的问题,就是如何把真实部署中的经验,稳定地低延迟地转化为模型改进,并且在多机器人多任务下可规模化运行。如果这一步做不稳的话,后面所有的探索都是空谈。所以我们扎扎实实先做好一个系统,把它跑稳。

在此基础上,第二步的核心方向是三点。

一是,安全可控地在更开放的场景中扩展,因为现在更多是半结构化场景、可管理的环境。我们要逐步走向更复杂、更开放的真实世界。

二是,监督的进一步自动化。现在还有人类的干预,但随着算法不断提升,会减少对人类干预的依赖,会引入更成功、更自动的建模算法。

三是,持续学习能力的增强,也就是机器人不断学习新任务新场景,同时避免遗忘已有的能力。我认为这是符合产业落地规律的选择,也就是让在线学习真正可用、可扩展地,逐步从封闭、半开放、开放的场景一步步验证、部署、扩展、落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA官宣禁赛施罗德3场:对峙东契奇还试图打人 损失薪水29万美元

NBA官宣禁赛施罗德3场:对峙东契奇还试图打人 损失薪水29万美元

罗说NBA
2026-01-11 09:58:34
蒋介石日记部分内容公开引争议,坦言因声色放纵患上性病

蒋介石日记部分内容公开引争议,坦言因声色放纵患上性病

回旋镖
2026-01-10 20:35:03
伊朗,大的还在后台呢

伊朗,大的还在后台呢

寰宇大观察
2026-01-10 17:10:03
那个转岗女保安的副教授,开始反击了

那个转岗女保安的副教授,开始反击了

大张的自留地
2026-01-09 17:21:09
个人所得税减半征收政策!延续至2027年12月31日!

个人所得税减半征收政策!延续至2027年12月31日!

审计之家
2026-01-11 09:03:14
死伤抗议者过多,伊朗医院系统被压垮!医护连做心肺复苏的时间都没有

死伤抗议者过多,伊朗医院系统被压垮!医护连做心肺复苏的时间都没有

互联网大观
2026-01-11 14:31:51
霍启刚公布个人名下财产!全球共有35个物业,收租颇丰生活却节俭

霍启刚公布个人名下财产!全球共有35个物业,收租颇丰生活却节俭

阿纂看事
2026-01-10 22:39:19
大事!整个西方和北约面临重大危机,可能一切都将不存在

大事!整个西方和北约面临重大危机,可能一切都将不存在

张牧之
2026-01-10 12:45:07
片酬高达1500万!是林峯、宣萱的8倍,古天乐为她可下了血本!

片酬高达1500万!是林峯、宣萱的8倍,古天乐为她可下了血本!

糊咖娱乐
2026-01-09 15:15:17
索要奖金、猥亵女队员、夫人吃空饷?亚运会三金得主王莉再发声,此前称不敢再呆在家中

索要奖金、猥亵女队员、夫人吃空饷?亚运会三金得主王莉再发声,此前称不敢再呆在家中

新民周刊
2026-01-10 18:49:33
正厅级黄达辉被查,曾担任十年广东云浮市政协主席

正厅级黄达辉被查,曾担任十年广东云浮市政协主席

澎湃新闻
2026-01-11 11:58:26
“全球包租公”现身!霍启刚申报35套房产,28套放租,看呆全香港

“全球包租公”现身!霍启刚申报35套房产,28套放租,看呆全香港

未曾青梅
2026-01-10 21:41:12
麦当劳汉堡尺寸小得像马卡龙?网友吐槽“一边缩水一边涨价”

麦当劳汉堡尺寸小得像马卡龙?网友吐槽“一边缩水一边涨价”

中国能源网
2026-01-10 22:46:13
女星长泽雅美结婚了,破防的居然是……

女星长泽雅美结婚了,破防的居然是……

新民周刊
2026-01-11 13:48:57
宋彬彬晚年回国道歉仍不被原谅,其父宋任穷也不愿提起她,为何

宋彬彬晚年回国道歉仍不被原谅,其父宋任穷也不愿提起她,为何

雍亲王府
2026-01-09 15:20:02
成本骤降90%!商业航天电磁发射重大突破  10家隐形冠军深度卡位

成本骤降90%!商业航天电磁发射重大突破 10家隐形冠军深度卡位

元芳说投资
2026-01-11 06:00:11
问题到底出在哪里?为什么那么多人不信官方说法…

问题到底出在哪里?为什么那么多人不信官方说法…

慧翔百科
2026-01-10 13:44:32
官方通报新蔡县一学生死亡详情

官方通报新蔡县一学生死亡详情

界面新闻
2026-01-11 08:01:30
英媒爆料:特朗普已下令美军司令部制定“入侵”格陵兰岛计划,遭军方抵制

英媒爆料:特朗普已下令美军司令部制定“入侵”格陵兰岛计划,遭军方抵制

环球网资讯
2026-01-11 11:35:09
19岁河南小伙在伦敦“捡”了个瑞士爷爷,回国后硬是把他接来郑州养老,临终前老人说了一句话,让无数人破防

19岁河南小伙在伦敦“捡”了个瑞士爷爷,回国后硬是把他接来郑州养老,临终前老人说了一句话,让无数人破防

源溯历史
2026-01-09 18:47:21
2026-01-11 15:00:49
四木相对论 incentive-icons
四木相对论
唠唠科技,看看世界
95文章数 1关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

日本知名女星结婚:酷似高圆圆 曾和林志玲老公交往

头条要闻

日本知名女星结婚:酷似高圆圆 曾和林志玲老公交往

体育要闻

詹皇晒照不满打手没哨 裁判报告最后两分钟无误判

娱乐要闻

网友偶遇贾玲张小斐崇礼滑雪

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

教育
艺术
本地
房产
军事航空

教育要闻

从沈阳小学数学考卷风波,看教育命题之殇

艺术要闻

福布斯最佳CEO榜单!马化腾第一!东哥呢?

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

军事要闻

俄大使:马杜罗夫妇被控制时身边没人

无障碍浏览 进入关怀版