大模型狂欢之后,AI 领域的下一场“硬仗”,正无可争议地指向了具身智能。
在这条炽热的赛道上,成立仅一年的「原力灵机」走了一条略显“非主流”的务实路线。当不少团队热衷于用炫酷的 Demo 展示机器人“会做什么前沿动作”时,有着旷视科技背景、兼具大模型研发与多年 AI 商业落地经验的创始团队,却一头扎进了最难的底层基建里。
过去一年,原力灵机一口气交出了五张答卷:具身原生大模型 DM0、开源开发框架 Dexbotic 2.0、量产工作流 DFOL、真机评测平台 RoboChallenge 以及开源硬件。他们的目标极其明确:把具身智能从“只能活在实验室的 Demo”,硬拽进“真实场景、商业闭环与持续迭代”的工业流水线里。
这种死磕落地的基因,与联合创始人周而进的履历高度契合。他初三便保送清华电子工程系,2013 年作为旷视研究院早期成员,曾主导开发了行业首个金融级身份认证云服务 FaceID——那是 AI 视觉技术最早、也最成功的规模化商业战役之一。如今,带着跑通大规模商业闭环的经验,他在原力灵机掌舵具身模型与框架研发,直面这个行业最底层的生死命题。
面对当下喧嚣的具身赛道,周而进向我们抛出了三个冷峻的判断:
第一,真机数据的价值已无可撼动。具身智能的分水岭,就在于谁能率先将机器人大规模部署出去,强力转动数据飞轮;
第二,具身智能的“ChatGPT 时刻”不在于花哨的绝技,而在于“开箱即用的泛化性”。即机器人在陌生的场景、面对陌生的物品,依然能稳定、不出错地完成基本动作;
第三,从跨出 Demo 到真正完成场景闭环,这中间极高的壁垒“会残酷地筛掉 99% 的人”。这里面充满了无法用算力跳过的、不可压缩的时间成本。
围绕这些论断,我们与周而进展开了一次深度对话。且看这位兼具顶级算法思维与老辣落地经验的创业者,如何解构行业的关键变量:
- 昂贵的真机数据与海量的第一视角(human data),究竟该如何排兵布阵?
- 万众期待的具身智能“ChatGPT 时刻”,到底何时降临?
- 困扰全行业的“泛化性”难题,真正的突破口藏在哪里?
- 为什么让机器人从 Demo 走到真实场景,远比人们想象的还要难上一万倍?
![]()
原力灵机联合创始人周而进在2026年技术开放日现场
![]()
数据与泛化性
智能进化论:进入具身智能领域一年多,你觉得行业最大的变化是什么?
周而进:大家在数据方面信心越来越坚定,对要大规模要搞真机基本形成共识。两年前,要搞一个10万小时的数采,所有人都会觉得疯狂。今天大家基本有共识,要把具身搞好,至少得有百万小时级别的数据规模。
现在的很多研究,包括我们自己做实验也会发现,数据量拉起来,模型在泛化能力上就是表现得越来越鲁棒。
智能进化论:除数据之外的其他因素呢?
周而进:有很多,但最核心应该先把数据拉起来,其他是被牵引的。如果数据量起来了,模型的体量也应该增加,否则可能学不了那么多数据。所以逐步也会看到模型参数量也在增加。
智能进化论:行业内有观点认为可能不需要那么依赖真机数据,因为它比较稀少。
周而进:这是阶段性的状态。但真要大规模落地,最直接的就是真机数据。类比自动驾驶,今天有谁拿人骑自行车的数据去训自动驾驶,没有。你应该把机器造出来,大规模铺出去,机器人的数据机器人自己生产。
智能进化论:你觉得具身智能现在处在什么阶段?
周而进:大的阶段,一定还是比较早期的。但又跟一两年前不太一样,当时能比较稳的完成一个动作就不错了。我们自己的目标,今年年底把基本动作做到开箱即用,有场景的泛化性,有物品的泛化性。
什么时候真机能够大规模部署出去,就是迈向一个新台阶了。今天到了要把基础模型能力拉到有保证的准确率和泛化性能状态上。谁达到了这个状态,他的真机就可以大规模部署做强化学习了。他的数据飞轮和数据质量,和做不到这一个阶段,还是在实验室环境里面去采数据,之间的差距会越来越大。
智能进化论:你说的大规模是多少量级?
周而进:现在一般的数据采集还只是几十台到百台,在真机做强化可能也就十几台到20台,实验室就会更少,几台。我们期望的规模是百到千这个级别的。
智能进化论:如果具身智能有ChatGPT时刻的话,会什么时候到来,以什么为标志?
周而进:每个人对ChatGPT时刻的理解不太一样。我更多理解为开箱即用,能够有场景泛化,有准确率的下限保证。你的模型、你的硬件不只在自家实验室work,放其他家都能work。
开箱即用可以是一个非常简单的任务,比如pick and place,把东西从A拿到B,这个简单动作已经能解决很多问题了。如果能够做到在不同的场景、不同操作对象上都不犯错,都成功,这个泛化性就比现有的模型又往前走了一大截了。
智能进化论:开箱即用能不能举个例子,比如下游整机厂商拿到我们的模型,就可以直接部署上了吗?
周而进:我们会先绑定自己的硬件,自己的本体和算法肯定是最适配的。在我们自己的本体上面,希望能够做到开箱即用,完成一些基本动作。
泛化性我们拆解为4个维度:物品,场景,任务,硬件构型,难度是依次递增的。我们对于开箱即用的首要目标是前三者。在硬件构型上也有一个学习的过程。相当于对一个大模型来说,我都没见过德语,不可能上来就会讲德语,但是如果你给我准备语料微调一下,模型也能适应新的硬件。
智能进化论:你觉得现在行业过热的是什么?被低估的又有什么?
周而进:我觉得相比大模型来说,具身行业没有过热,或者热度还远远不够。大家对于通用机器人发展的预期一直是低估的。
我觉得大家在数据上面的投入还不够多。今天很多搞数据规模的都是在海外,证明了这条路是work的,然后我们是跟随的策略。我觉得整个行业应该有更大更坚定的决心在数据投入上。
智能进化论:真机数据方面,你觉得行业普遍面临哪些挑战呢?
周而进:真机数据在控制成本的情况下,规模和高精度无法兼顾,是两者的平衡。
如果想要更多场景泛化,比如 human data,egocentric data,数据精度低但量很大。如果想把某个动作做好,就通过遥操把精确的关节电机信号采集下来,得到高精度的数据。
智能进化论:什么样的数据算是训练具身模型的高质量数据?
周而进:还是回到你的目的,缺啥补啥。
智能进化论:咱们主要用三类数据来训练,多模态互联网数据、驾驶行为数据、具身多传感数据,这里面真机数据的占比会不会越来越大?
周而进:我觉得会越来越大,真机数据是提高模型质量最大的一个变量。今天其实机器人的数据这件事情,大家才刚刚开始起量。数据量是很容易被拉起来的。
智能进化论:你们提到“熵在哪里,数据就投向哪里”,熵是人判断还是系统判断的?
周而进:最终希望是自动化系统来反馈。经常容易出错的地方,就是信息密度很高,我就先往这个方向去投资源做。如果我做好了,就相当于做小学数学题,没有信息量了。但是现在的baseline都很低,人就能够判断。
![]()
智能进化论:你们说数采要“全身全时全域”,全域是指什么?
周而进:全域就是你的采集场景,场所。如果从终点倒推,我们相信最终机器人能够完成绝大部分人类日常的操作活动,那么人类今天日常活动的区域都是它的素材区域。
智能进化论:关于第一视角,我们怎么看待这条路线?
周而进:我觉得这类数据的价值很高。第一视角是我们今年的一个非常重要的数采方向。在机器人被大规模部署出去之前,怎么样有一种性价比最高的方式去广泛的捕捉各种场景的各种动作,第一视角是比较方便的一种数采方案。
![]()
模型与闭环
智能进化论: 你们怎么看VLA这个路径?
周而进:今天整个具身的训练方式还是从一个已有的知识体系往物理世界做迁移。VLA的前身会有一个互联网的VLM预训练模型,在这个基础上,叠加一些动作数据或者机器人数据, 希望它能够掌握物理的动作技能。
这种方式它的上限可能是比较明显的。相当于一个小孩,从小只让看书不让你动手,等到10岁的时候教你踢球,运动能力肯定受影响。
所以DM0模型我们做了具身原生的VLA,从第一天开始就把互联网数据跟机器人数据从零开始一起训练的。从小不仅读书,同时也练体育,做到全面发展。
智能进化论:这就是我们具身原生最核心的一点吧?具体是怎么同步来做?
周而进:核心是训练方式。我们整个VLM从头开始自己训,并且在过程中设计了多任务的一套训练范式,就是物理空间推理思维链。
智能进化论:空间推理思维链是怎么实现的?
周而进:就像人做事一样,比如我要打扫房间,第一,要做任务的拆解,每一步干啥。第二,定位被操作对象。比如说我第一步要扫地,我得找到扫把在哪。
第三,人很多时候是下意识的,我要扫地,我要先走过去拿起扫把,然后从哪开始扫。所以我们希望模型能够生成出来运动轨迹。
推理思维链里后面几个环节都是关于运动轨迹,以不同的表现形式,可以是一条线,也可以是3D运动轨迹。把它串起来之后,希望机器人能够把一个复杂任务像人一样去理解和拆解。
![]()
智能进化论:今年要实现更高的泛化性,空间推理思维链会升级吗?
周而进:今年会复杂很多,比如说方位代词、肢体语言、空间代词等各种指代关系,就是机器人需要进一步具备的能力。
生活中最常见的,“卫生间在哪?在那。”我做了一个手势,告诉你一个代词。纯用文本,向左走左拐五十米再右拐,是非常麻烦的。这些都是我们扩充训练模式的方法。
智能进化论:空间推理思维链的壁垒在什么地方?
周而进:方法都是开源的,我们不认为它是壁垒。核心还是回到数据和你对于具身任务的理解。如果你没有自己做过机器人,你并不知道坑会在什么地方,机器人最容易犯错的地方在哪,而训练流程就是基于这些认知推导出来的。
智能进化论:你认为现在具身大模型最难的挑战在什么地方?泛化、记忆、精度和长程任务,还是什么?
周而进:最重要的还是泛化性。
智能进化论:泛化性,最难突破的点在什么地方?
周而进:首先泛化需要海量的数据,这也是为什么今年大家都在往human data,ego data这个方向去做。
第二是传感器的丰富度。今天机器人好用的触觉传感器模组,很多还在探索,没有收敛到统一的方案下。这些传感器采集的数据,也远小于现在摄像头的数据,其他传感器数据就更少了。
视觉是一个非常强的信号,纯视觉方案可能已经能解决绝大部分问题了。但是如果我们目标不是要一个六七十分的东西,比如在家洗碗,不可能用六七十分的,洗10个碗有4个会打碎,我一定会选一个99%的。这时候其他维度的传感器都是需要的。
智能进化论:原力灵机今年提升泛化性最大的抓手在什么地方?
周而进:在广泛的数据的基础之上,有一套精巧的模型结构和训练范式。
VLA和世界模型,这两个方向我们同时在做。我们是非常务实主义的,不会说要站队哪条技术路线,更多的还是这条路线能够解决哪些问题。
我们就会把VLA跟世界模型结合做一个统一的模型,同时做两种预测,一个是接下来应该做什么动作,第二是世界接下来怎么变化,两者是完全对偶的。
智能进化论:模型架构方面是沿用其他家的还是自己创新的?
周而进:我们现在有好几个点在自己探,包括记忆,触觉,动作的编码形态,但最后会把它们整合到一个模型里。
去年我们第一个在VLA领域提出了基于记忆的方式,后面有好多家都在follow。动作的编码形态,现在大家都用Pi的模式,有没有其他的编码形态能够让整个动作的训练、轨迹的训练变得更加丝滑?
智能进化论:今年DM0模型会再升级吗?是否延续小参数路线?
周而进:会,到时候看。DM是一系列模型的发布计划,基本上每半年就会发布一个新的版本。
![]()
智能进化论:DM0模型我们强调智能密度高,怎么理解?
周而进:一味追求参数量大,好像大就是牛,这是非常有问题。对机器人来说,大就意味着推理效率是个问题,当然你可以认为只是成本问题。
最核心的问题是,大真的牛吗?或者对于1B、2B的模型,到底它的天花板在哪?这个问题是被忽视的。我们发布一点几B的模型,其实想要传达这样的理念,通过好好做数据加科学的训练范式,甚至能做到比更大的模型更好的效果。
智能进化论:DM0在产业已经应用了吗?
周而进:物流行业是业务上面会首先选择的方向,一些客户已经在做POC验证了。
智能进化论:我们强调模型训练闭环的重要性,在真实场景7×24小时跑。闭环具体难在哪?
周而进:具身模型并不是模型训练完那一刻,模型智能就被锁死了。而是放到真实场景里,能被用起来,才能能够得到真实的数据。数据继续加入训练流程里,才能够把飞轮转起来。
核心问题是能不能真的进到场景,最后一步其实会筛掉99%的人。没有经历过完整的AI产品商业化落地,做过真正的交付,去工厂趴过的团队,根本就不会意识到,所谓场景完全闭环,让你的机器人24小时被用起来,冰山下有多少坑。
比如对接过工厂的操作系统吗?改造过它的产线吗?机器人犯错了怎么办?如果不考虑这些问题,demo做的再好,最后一步永远实现不了。
智能进化论:我们是怎么做的?
周而进:我们之前在旷视做了十几年算法的落地。我们非常清楚这里面坑有多少,要配备怎样的交付团队,怎样对接客户的业务系统,以及你要交付的应该是个解决方案,而不是单点的一个模型或者机器人。
为什么我们选择物流,因为我们有很强的客户基础,在物流的很多场景里面,我们和合作伙伴是具备产线改造的能力的。
智能进化论:要跨过这一步,最难的挑战在哪?
周而进:很多东西你没有经历过,永远不会具备这个能力,这里面有很大的时间不可压缩性。所以我不认为从算法到demo是0~1,从demo到进厂是1~100,那是一个复杂得多的路。Moving atoms,难度远高于moving bits。这也是我们的壁垒和优势,完整的经历过整个创业的阶段。
智能进化论:目前物流场景能真实交付的,哪些场景已经跑通了?
周而进:比如物料的分拣。一个典型任务是从料箱中抓取商品、分拣并完成打包。
我们首先去做的,就是拆解成很多的岗位和步骤,比如第一步就是做物料的筛选。你能够从这边把东西拿到另一边,所以Pick up & place是一个非常重要的技术能力。
智能进化论:现在我们这套流程全自动化了吗?
周而进:全自动化是不严谨的说法。如果说我的模型在物流场景已经99%了,这是吹牛。我们的方案是有兜底方案的整体解决方案,如果出错了也不会让你产线停下来。在物流场景内,随着数据飞轮转起来,准确率会越来越高,节省下来的成本会越来越多。
智能进化论:OpenClaw(龙虾)与具身智能结合有哪些想象空间,会是未来的方向之一吗?
周而进:龙虾是非常好的方向,完全打开了大家对大模型的想象力。但是今天用龙虾去操作机器人不是特别火。龙虾是个大脑,能做很好的任务规划下达指令,但如果具身就是做不了,那也无能为力。更重要的是,机器人本体做low level的简单任务的成功率得往上走,这样再配合上云端的龙虾,可能要火很多。
![]()
框架与工作流
智能进化论:Dexbotic开源框架在行业内有什么样的优势?
周而进:现在行业里很多框架是我发表了一个好的工作,然后把代码工程化一下开源了,这只是针对你工作的一个开源。
今天做具身,VLM、视觉编码器、动作生成序列的 action expert,都可以用不同家的。
如果站在更加通用的角度,想要提供类似脚手架的基础建设,就不该绑死某种模型结构,而是给大家充分的选择权。Dexbotic的设计理念,就是希望大家自由创造你自己的实验和结构。我们做了更好的工程化的解耦,不同模块之间可以相互组合。
![]()
智能进化论:现在Dexbotic框架的使用情况如何?
周而进:GitHub上一直有用户反馈,给我们提了很多改进建议。我们觉得首先大家是需要这样的一套框架的。
框架是第一步,我们也开源了自己的硬件。框架跟硬件合在一起,从数采到模型训练,到最后重新部署回这台机器,Dexbotic提供完整的走完一整套流程的平台。我们很多高校的客户、合作伙伴企业,很多都需要这种完整平台。
智能进化论:行业内有没有类似Dexbotic这样的框架?
周而进:很少,我们还是挺独特的,不光是框架,还跟自己的硬件结合。去年我们跟清华大学与无问芯穹的 RLinf 团队深度合作,一键就能在Dexbotic上基于RLinf把模仿学习到强化学习全部都走完。从完备性的功能角度,我们现在是独一份。
![]()
Dexbotic推出后已服务数十家机构,超千名开发者
智能进化论:DFOL柔性生产工作流到底能产生什么价值?
周而进:就是闭环。它是一套标准化的基础设施,将算法训练、数据更新与采集清洗紧密耦合。
部署到客户现场后,模型运行并产出的高质量数据回流至云端,经自动化基建完成模型迭代,改进后的模型再下发至客户侧,获得进一步反馈并触发更多数据收集。从模型迭代的视角,就是快速把数据飞轮转起来,把模型迭代的效率拉起来。我们一些核心的物流客户已经在使用。
智能进化论:业内也有其他厂商在做真机评测,RoboChallenge真机评测如何保持行业领先性?
周而进:我们自己做算法,也做硬件,所以是站在最前沿的一线来反推,我到底需要一个什么样的科学评测机制。评测在我们内部是一个团队来做,重要性不亚于算法训练。我们会周期性更新,相当于攻防出题,原来的题老了就换新的题。
![]()
智能进化论:今年Robochallenge的演进方向是什么?
周而进:泛化性是今年评测的一个重点。之前的Table30测试集其实并没有测泛化性,还是在特定题目下面完成任务。但是我给你换几个被抓取的对象,你是不是还能把这个任务做了?
第二,我们要逐步从桌面走到更大空间,从抓取到移动到全身控制,评测整个机器人运动的复杂性也是一个维度。
智能进化论:泛化性怎么测?
周而进:回到我们对泛化性的定义,要不停的换不同的操作对象、场景和任务。相当于你训练的任务,跟我给你测试的任务不完全一样。
![]()
Table 30 V2 任务集
![]()
成长与愿景
智能进化论:进入具身领域一年多来,你个人最大的感受是什么?
周而进:物理世界是一个非常复杂的环境,算法跟硬件高度耦合的领域,比纯粹做模型要复杂得多。我觉得要有空杯心态,充分吸收交叉领域的知识。因为每个领域都有自己的专家,一定是一个团队协作的方式。
智能进化论:就你自己的经验来说,哪些是可以迁移过来的,哪些是要重新学的?
周而进:我们是做视觉出身,在模型训练这一块经验还是比较丰富的。后来从视觉到文本、多模态,这一整条链路都做过。这一年半,大家都自己动手去修机器,部署模型,看着机器人采数据。整个过程中学习了非常多硬件相关知识。
智能进化论:你觉得自己一路从求学,进旷视到现在,哪些东西是一直没变的?
周而进:对技术的追求极致和对未知的一个好奇心,这可能是最本源的。因为做很多事情过程中有很多挫折,但是回过头想想,每天醒来仍然有让自己比较热血沸腾的点。
一个是要把这件事情做到极致,就是你觉得从原理上来说,它就应该能够做到怎么样?为什么没有做到这样?第二是好奇心,无论具身还是大模型,今天大家还是面临很多新问题,有好奇心就有动力去试。
智能进化论:你从小就对计算机特别感兴趣,还是什么事情启发了你?
周而进:我学生生涯花了比较多精力在搞信息学竞赛,竞赛的影响是比较深的。
第一,分析问题的逻辑思维能力,对复杂工程的拆解能力,用代码在有限时间内实现出来,我觉得是特别有意思的一件事情。
第二,竞赛的过程中你会接触到很多计算机科学的开放性问题,极大地扩充了视野,原来有那么多有趣的东西。所以由它(竞赛)入门,衍生出来一系列自己的关注点,兴趣都在往计算机科学领域靠近了。
智能进化论:AI冲击包括科技巨头的裁员,好多年轻人都会迷茫,焦虑,对于他们有什么建议吗?
周而进:年轻人不想听建议。我也是个年轻人,我只能说我自己的想法。我从小到大基本上,一直在做自己深层次真正感兴趣的事情。因为过程中有太多挑战了,要能够坚持下去,一定是你真的感兴趣这件事。还有得学习新东西,不能让自己的视野、认知停下来。
智能进化论:你对具身智能有什么愿景,或者理想中的画面?
周而进:我的一个愿景是看到具备广义社会身份的机器人出现,这是挺让人兴奋的。
今天大家对机器人的期待,更多是功能层面,它能替我干啥事儿。如果机器人有自己的身份ID、支付宝、电话号码,已经某种程度赋予了它一个虚拟的社会身份了。
当机器人有自己的身份,很多基础设施也可以为机器人建,而不是为人建。就像没有汽车的时候不会建马路,汽车大规模普及,世界上出现了各种马路。
人机共生不是简单在功能层面的,是更复杂的社会层面,从整个社会的基础设施,到人和机器人之间的关系,机器人本身的权益等都考虑进来。
本文为「智能进化论」原创作品,
欢迎关注。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.