![]()
具身没有统一路线,在山脚分开,终会在山顶汇合。
作者丨刘 欣
编辑丨马晓宁
范浩强是个很幽默的人。我们问他下一个十年,具身智能要解决的问题是什么,他说可能机器人觉醒把人类灭了,就没有下一个十年了。
这当然是一个玩笑,探讨行业的发展,难免要做一些科幻性的想象。在他看来,AI 应该是一生的事业。毕竟他高一就拿到了国际信息奥赛金牌,高二起就是一个真正的 AI 研究员了。
原力灵机的名字很陌生,但来头可不小,因为这是从旷视出来的具身智能公司。它的创始人便是旷视的联合创始人以及最早期的几名员工。成立不久,两轮融资金额就已经近10亿元了。
我们对于原力灵机的好奇主要集中在几点:他们是想做模型还是想做本体?他们有什么样的商业模式?作为旷视出身的新公司,他们有什么样的优势?在目前的竞争中应该如何突出重围?
作为一个在旷视就跟无数客户打过交道的人,范浩强对于具身智能的理解也带着很强的“旷视”风味。
从创业的第1天开始,范浩强就真切感受到了客户对具身智能的强烈需求。但令他感到遗憾的是,很多需求是现在满足不了的。机器人的能力现在还极其有限,而生产线的精度需求和效率需求又高得不可思议。
以前旷视能把人脸识别做到11个9的百分数,现在呢,机器人一次最简单的抓取,可能成功率还不到一半。
在整个聊天中,我们对原力灵机最大的感受就是这个公司不讲资本故事,不谈 AI 噱头。范浩强跟我们谈 DFOL(原力灵机具身原生量产工作流),说具身智能的第一步落地,应该从何处着手?它的原生应用应该从何处发现?实用场景,怎么样从百里挑一,进展到百里挑十,最终走到无限泛化。
![]()
范浩强在原力灵机技术发布日上介绍 DFOL
通用机器人当然是我们所要寻求的终极目标,但是怎么走到通用呢?当技术就是达不到完美的状态,那我们应该怎么办呢?不够通用的具身智能会不会因为达不到大家的期待,而饱受质疑,成为明日黄花呢?
范浩强给了一个他们的答案:
历史上绝大部分技术的发展规律就是刚好够用,可能哪里看着都不太合理,但就是能用,最后就会被推广开来。
能用,即为合理。对于 general,做过工程的人都知道,期待不要放太高才好。
这篇访谈能够告诉你,找到真实场景、解决真实问题的具身智能公司是怎么做的。你能读懂一个创业者的困惑和努力,更能听到他关于模型本体应用和商业最真实的思考。以下是不改变原意的整理:
01
要做就做到 SOTA,这是对自我的定位和自信
AI 科技评论:我第一次听说你,是有人跟我说,他刚进旷视的时候,旁边坐着一个天才少年,还是个高中生,把他吓死了,一问这个人,名字叫范浩强。
范浩强:对,我12年就加入旷视了,是旷视六号员工。当时唐文斌是我的信息奥赛教练,他就问我,我这有个事儿能保送,还能发工资,我问他,那是做什么的啊?靠谱吗?他跟我说,做人脸识别啊。我当时还在读高中,啥也不知道就进去了。
![]()
范浩强在旷视时的照片
AI 科技评论:你什么时候开始想做机器人的?
范浩强:确切地说,那应该是16年,那时候我大四,去拜访了一个斯坦福实验室两个月。那个实验室里面有谁呢?有苏昊、卢策吾、王鹤、弋力、邵林。
苏昊是大师兄,那时候带着我们做 3D 生成。我问苏昊,你为什么要做 3D?苏昊就跟我说,做了 3D 生成就可以做 3D 判别,然后就可以做机器人仿真,最后咱们就可以在十年后干机器人啦。
AI 科技评论:果然到了十年之后,你们都在干机器人啦!谈谈原力灵机是怎么成立的吧?
范浩强:我当时就想,把 AI 放在机器人上,就是一个最大的挑战故事。
但那时候缺一味关键的佐料,就是 AI。虽然大模型出来了,但具体怎么和机器人结合在一起?不知道。还好24年从美国出来几个重要的工作,比如 Action Transformer、Diffusion Policy,最后还有个集大成之作就是 Pi,就一下子把路线划清楚了,告诉大家 Transformer 这项技术是怎么往矩阵上用的,勾勒出一个后面的 roadmap。当时觉得条件都成熟了,要去组建团队了。
我第一个想的是得找个 CEO,刚好唐文斌当时还是个“自由人”,我就找他来干这个 CEO。他看到这些技术进展,半夜2点给我发了条微信消息:this is once in a lifetime 的机会去做 general robotics。我回他,你怎么比我还激动呢?
然后我们又找到了硬件合伙人周而进、汪天才,加上唐文斌可以做客户场景,我可以做 AI,就成了一个全国少有的集三方面于一体的团队了。
AI 科技评论:公司正式成立那是什么时间?
范浩强:差不多25年3月份,第一轮融资搞定,后面公司主体成立。
AI 科技评论:进入具身智能行业这一年,你的感觉如何?
范浩强:我感觉后面事态的发展速度完全不受控了,因为整个行业发展得一日千里。我们以前写 paper 经常说 traditional method 是什么,现在具身两个月前的就叫经典方法了,变化得特别快。
25年,公司刚攒出来的时候,其实有点两眼一抹黑,不是不知道做什么,而是想法太多了,有想搞 humanoid 的,分离式采集的概念也很火,触觉也很火,太多的可能性和概念飘在眼前了。
我们也是经过25年这完整的一年才看清,模型还是这里的主轴。模型的水平决定了哪些场景能用,哪些场景能用又决定了最终硬件该长什么样,再反过来决定这个数据该怎么做。模型的能力本身是整个事情发展的自变量。把这个事情看清楚之后,那核心是把模型做好,用最好的算法、最优的数据、顶尖的工程来实现。那剩下公司该做什么?自然就一路展开了,这是我在创业过程中逐渐找到主轴和主线的过程。
AI 科技评论:做最好的模型,本身就非常难。
范浩强:这个的确是,但我们团队里很多人都有种傲气,当年搞视觉的时候就没当过第二,大家很难想象一个事努力了一段时间,把该搞的搞清楚之后,最终测出来的分数或者效果不是 SOTA?!我们是觉得研发有科学性在里面的,搞清楚了就该有好成绩,这也是一种对自我的定位和自信吧。
AI 科技评论:模型是我们现在手上最大的牌?
范浩强:我们有两个开源的东西。一个是训练的 codebase,叫做 Dexbotic,内部俗称 DB。第二个是我们搭建了一个测评框架,叫 RoboChallenge,内部叫 RC。
这些东西在技术上都是不好做的,都很硬。并且做完之后还开源,展示每行 code,也算是展示我们整个团队的战斗力和技术水平。不少公司都做了 Codebase 开源,但很多都是 “README 式开源”,就一个 README 文件,里面是空的。
开源后就引发了一系列的热度,RoboChallenge 现在有五六家都申请做测试了。截止到目前,我们手里有两张牌,一张是基建能力,第二张牌是模型,这是整个团队的实力展示,也是跟大家同步我们想要去努力的方向。
![]()
Hugging Face 联合创始人 Thomas Wolf(左 3)与 Dexmal 原力灵机联合创始人范浩强(右 2)在 IROS 2025 现场交流 RoboChallenge
AI 科技评论:模型这方面强手如云,你不担心吗?
范浩强:最强的人还在搞 LLM 呢。
02
真实场景的真实问题,可能是最难的挑战
AI 科技评论:除了模型,我们还做本体吗?
范浩强:对,我觉得这个还是很清晰的,机器本体我们也一定得自己做。
AI 科技评论:这跟我们的商业模式相关?
范浩强:我们之前卖软件都卖了十几年了,很清楚一件事,那就是要顺着市场对公司的期望去做,绝大部分的用户或者客户还是想要个 total solution,在中国也不太会有一个大厂自己通过收购做垂直整合的这种商业习惯。
所以我们觉得最终还是要端到端的给客户创造价值,基本上每一环自己能控制得住,那么整个东西的品质和可服务性才是最好的。虽然可能之前很多人都没碰过电机这些硬件的东西,那也得从头去做,争取跟上这个课题的要求吧。
AI 科技评论:又做模型又做硬件,听起来难度更高。
范浩强:我之前就说过我们很多人都在手搓机器人,现在我们公司里还躺着很多手搓机器人呢,大家都认为让搞算法的同学自己先搭一遍机器人,才知道这里面将来会出现多少问题,这样后面做算法的时候才能在脑子里想着这些问题做。
AI 科技评论:这不是折磨算法工程师吗?
范浩强:干得好的话,就特别开心。
AI 科技评论:你不会也手搓了一个吧?
范浩强:全公司应该就我手搓的最多,最早我自己在家搓了一个在家叠被子的机器人,大概是2000块还是3000块的成本,全是淘宝买的零件手搓出来的。
不是机械臂,就一根棍,能提升,有个夹子,接下来都得靠你的智慧,用一个小夹子怎么就摆来摆去把被子给叠起来了?里面全是设计。
AI 科技评论:手搓机器人让你对做算法有什么新的感悟?
范浩强:我当时就感觉到,硬件很多都关乎于取舍,20万也能造,2千块也能造,最终决定东西好不好用还是取决于里面的算法,就是动的路线,理解到这一点就觉得还有机会,只要把算法做好了,一切美好都能到眼前。
AI 科技评论:在设计这一整个从软件到硬件的闭环的时候,当时想的是要做哪些场景呢?
范浩强:当时想的还挺简单的,因为旷视当年有500多个优质客户,好多公司都有类似技术改造这种偏前瞻的部门,每年都会有人来问我们,新的科技你们公司有没有?以前人脸识别就是 AI 了,后面大模型算是 AI,现在机器人才是 AI。
所以我们从第一天开始就感受到了客户强烈的诉求,但比较遗憾的是,我们现在满足不了。哪怕是最简单的分拣,一个仓库里有几万个 SKU,直到今天那些算法都搞不定。客户每年都会让我们汇报一次现在 AI 的进展怎么样啦,能不能起个项目把这东西上线。所以我们对应用场景没那么担心,AI 化改造我们已经做了很久,很清楚这个事情该怎么做。
AI 科技评论:那接下来最大的挑战是什么?
范浩强:真实场景的真实问题,可能是最难的挑战。之前 AI 1.0 整个过程中,我们看得很清楚,所有公司在有真实收入之前,都在讲自己有多好,一旦产品真卖出去了,就不是自己讲了,而是客户讲你这个东西到底能不能用。
这是非常客观、毫无造假可能的指标,也是让整个行业的气氛从浮躁慢慢沉淀下来的关键。
现在都夸自己的模型多有 insight,但说实话这是不可证伪的,测评的指标太多了,总能挑个好的,所以真实客户的真实使用是唯一的指标。有一回交流的时候有人说机器人该测什么指标?回答成功率、稳定性一大堆,但我认为一个指标最关键,一台机器人多久能自己把钱挣回来,就这一个指标,其它都don' t care。
AI 科技评论:那现在能完成这个指标吗?
范浩强:我们一边在做模型,一边陆陆续续做一些应用,我就发现了一个神奇的现象:最难测试的任务,不是说现在的 table30(30个标准化桌面操作任务的数据集)里 0% 的任务,而是——我们专门有个小 collection,叫做客户场景里面的最简单问题集,从每个客户那儿挑了个最简单的问题,这里面最简单的问题比我们测的最难的问题还要难。
之前计算机行业经常有句玩笑话叫:最难的测试叫正常用户正常使用,你做再多回归测试,一到真实场景完全顶不住。机器人也是一样的,基本上每一个有价值的任务,整个环节中可能刚好有一小个环节,无论是对机器人的精度还是智力,真考验到我们了。
所以下一步的突破一定要去挑战更真实、更硬核的事情,大家都有点客户和落地之后,整个行业的格局才会更清晰。
AI 科技评论:你现在遇到的客户场景里面的最简单问题是什么样的?
范浩强:有几个收集的 sample,其中有一个让我印象很深,可以理解为机器人要把两个扣在一起的东西翻个面。
AI 科技评论:为什么会有这种需求?
范浩强:人家的工艺里就要求这个,这就叫真实问题,you don' t ask why。人家干了10年,说必须要这么翻,你得信他,OK?
AI 科技评论:OK。
范浩强:我们就发现机器人做这事就爆难无比,根本夹不起来。所以最后我们拍 Demo 的时候,其实还专门设计了一整套机器人的动作流程:先夹到这里,再从这里铲进去,再搬到另一个位置,然后再进行下一步。机械上这套动作是能实现的,但问题在于动作太复杂,模型根本学不出来。
所以这就是真实问题,都是一环扣一环的,真要去落地,就会发现这是块硬骨头,你啃了它一口,发现里面怎么还一层?只有最后真的吃到里面的芯了,并且给它吃下去了,可能才知道原来我为了把这东西做落地,要解决这么多问题才行。在最终落地之前,你只能不断发现,原来这还有个问题是之前没意识到的。
AI 科技评论:那岂不是要干上十年才能落地?
范浩强:不是说难度高就代表它就解决不了,难就得动脑子,不光模型是基础,产品设计、业务和客户的配合,都得把巧思放进去,最后这东西才能做好。
我觉得很好的是现在陆陆续续有同行逐渐出来真的落地项目了,很可能客户给了100个需求,真能找到一个需求恰好天时地利人和,刚好所有的问题,都能有个 solution 绕过去,然后把机器人布进去用了。
这只是第一步。原本只有百里挑一的优质任务才能完成,未来模型能更强,能扩展到百里挑十,最终实现来一个任务就能完成一个任务的目标。
AI 科技评论:最近还看到一些机器人被工厂赶出来的消息,你怎么看这些新闻?
范浩强:很正常,做 POC 到上业务之间隔着一条鸿沟,这一点我们在做非标视觉智能化的时候就有非常深刻的体会了,客户通常会欢迎我们来做 POC,但只要你这东西做错了,影响到了他的主线业务,那他在上线之前要把你折磨死。
AI 科技评论:你们很有这种被深深折磨过的经验。
范浩强:最终都会用来驱动定义技术,比如当年做的 face recognition,可能行外人不知道,就最终的误识率指标,做到了11个9,就是99点后面再跟9个9。所以你平常用这些人脸识别,几乎没感觉他错过,这就是被逼出来的算法。
机器人如果24小时连着干一年,如果论多少帧算错,那可多了,因为这是一个实时的视频处理过程。如果在生产环境下一秒钟弄错了,造成的灾难是无法挽回的。所以机器人算法也一定会经历一个过程才能真正落地。
具身就相当于另一种自动驾驶,自动驾驶需要去解决的感知过程中的决策也没什么秘密,就搞1亿公里的数据,然后去做最扎实的模型训练,最后模型就会给可靠性的回报。机器人也一样,只不过跟车比,机器本体要小一点,做的任务会更多一点。
AI 科技评论:具身的任务可能是无穷多的,比自动驾驶难多了吧?
范浩强:我个人的观点,我觉得这波具身革命也不会解决掉机器人所有的问题,因为10年前大家吹 AI 的时候已经把所有的好故事讲过一遍了,最后具体的落地方向,其实也就那几个。
现在 LLM 的落地方向也是一样,coding 算一个,聊天算一个,其实也是有限集。所以我们觉得,AI 一定是个更长期的 lifetime 的工作。这波浪潮里面我们可以把机器人 push 到比原来的效果好一大截,可能这就是这十年的版本答案了。
AI 科技评论:下一个十年呢?
范浩强:也可能没下个十年,是吧?机器人觉醒了把人类给灭了,也不用考虑了。
AI 科技评论:希望不要面临这样的情况。
范浩强:我觉得最后技术一定会发展到一个虽然不完美,但刚刚好有用的状态。历史上绝大部分技术的发展规律就是刚好够用,可能哪里看着都不太合理,但就是能用,最后就会被推广开来。
03
根据机器人的属性,去寻找合适的应用场景
AI 科技评论:我看到原力灵机最近在做的DFOL,是世界上首个具身智能应用量产工作流。能解释一下具身智能应用是什么意思吗?
范浩强:比如像工业六轴它也是个应用,但你肯定不想叫它具身,对吧?
AI 科技评论:只是一种自动化硬件设备。
范浩强:对,我觉得具身智能应用其实是一整套的体系,比如现在大家做的具身硬件,一般都会做成个准人形的样子,它有一定的通用性。同时,你会期望它的动作会是比较灵巧的、比较复杂的,而不是像 XYZ 一样,定点拿、定点放。
具身硬件,搭配比较好的传感器,搭配一个比较大的模型,就形成了一个跟原来的工业自动化很不一样的一个体系。大家建立这个体系的初衷是觉得这东西最终能完全通用,但现在走在通了一半的路上,还没到最完美的状态的情况下,它擅长去干什么?
这个时候我觉得就要找出具身原生应用,比如说为什么 LLM 去写 code的?
AI 科技评论:因为LLM还挺适合训练它的coding能力的。
范浩强:所以你可以理解为 code 是个 LLM 原生应用。具身机器人也是一样的,不是随便丢个什么问题它都能解决,或者它都能擅长,也得根据它的属性去找,什么样的应用场景里是适合干的。
AI 科技评论:那会不会每一个模型的原生应用不一样?
范浩强:有可能,现在大模型也在讲,这家适合做 agent,那家适合 code 的,大家存在口碑上的差距。但现在具身模型还没分化到这么细,所以我们就是有更多的 contrast,比如原来我做的视觉引导的机械臂,现在我想随着 VLA 这个具身体系去做(升级)。那首先就得讲清楚,VLA 比之前的方法好在哪,凭什么用新方法。
好就好在柔性输入上。原来做的一个零件分解的工件,就必须严格长成这样,只要变一点点,一切就推倒重新做一遍。现在 VLA 有泛化性,哪怕分解的东西从可口可乐换成百事可乐了,模型能泛化了,就不需要再重新布置一次了,这就是客户想要的特性。
另外,工厂原来搭一套快速换线的非标机台,可能从开始接单到最后上线需要5个月。现在的客户都想能不能5天之后开始生产交付?肯定是不可能的呀。这些任务就是给具身准备的,换成其它方案都会遇到很多致命问题。
具身虽然也会带来很多问题,比如使用具身工业臂的时候外面都得围两米的围栏不许人员进入,但只要具身智能解决了以前完全没有思路的问题,行业还是会去解决具身带来的问题。所以具身原生应用就是把具身的价值给发挥出来的应用。
AI 科技评论:我们现在是处于正在找它的原生应用的这个阶段,还是说已经找到了?
范浩强:我们现在的确有些客户 case 了,但是这些 case 我们不想到处讲,怕讲完之后友商来了。因为这个东西是真挣钱的家伙,就不开源了(笑)。
AI 科技评论:你寻找DFOL的这个过程中,最困难的是什么呀?
范浩强:我觉得第一大难点真的是找场景、找客户。
AI 科技评论:你自己去跑的客户吗?
范浩强:我和文斌一起的,我们俩之前就一起跑过很多客户,前段时间也密集地去跑了各种工厂,跑完之后回来想,到底这个机会在哪里。
另外,我觉得得真去理解这些模型它擅长什么。有些你以为非常难的动作,其实模型一下就学会了。有些你觉得非常简单的动作,训半天就是搞不出来,到最后其实是人学会了,所以模型的动作设计非常重要。
AI 科技评论:讲讲你们的动作设计的case。
范浩强:比如让机器人去叠衣服,衣服从上面捏就不如从侧边捏成功率高。要把这些东西都给搞明白,我觉得需要一批专业人才,那些很有天赋的采集员,他们可能都是未来的种子。
AI 科技评论:他们就是把人类动作翻译成机器人动作的翻译官。
范浩强:是的,他要把自己带入到机器人视角去想什么样的动作是好做好学的,他不能把自己再当成人了,他得把自己当成机器人去思考和理解这个问题。最终还是得有一批人专注在 DFOL 领域。
好多行业里有个概念叫 FAE,field application engineering 现场应用工程。说实话大多数的定制版软件全是靠 FAE 撑起来的。
在具身初级阶段的时候,DFOL 是非常重要的一环,整个系统就得为它设计。所以去画框图的时候,不是说像别人一样,画个简单的大脑指挥,小脑指挥,机器人就干了,而是要画成带反馈的环路。最后任务执行没成功的时候,去服务的机器人的反馈数据也得传回来,这样机器人才能达到客户最终的要求。
AI 科技评论:所以你这个数据是他们当场就是 action 之后,然后反馈回来,形成一个闭环。
范浩强:这也是 Pi 0.6 工作里面提到的一个核心算法,叫 RECAP,现在还有很多别的叫法,比如叫 DAG,像上海智元又叫 SOP。
其实原理都是一样的,比如机器人快做错了,人赶紧给它矫正一下,然后把矫正的信号给记录下来,让网络再去学习它,它很聪明的,基本上掰它几回,就不往那去了,这就是我说的神经网络令人感动的地方,它还挺听话的。
AI 科技评论:那就是这种数据回来之后,我们还要重新去 post train 一下这个模型。
范浩强:当然了,相当于在产能爬坡的这个阶段里,其实是两个并行的,这边一直在采,那边也一直在训。直到我监测的时候发现,平均无干预时间已经到达一个指标了。那我就把更新断掉,后面它就变成被动收集模式了,模型就不动了。但是如果它今天出 badcase,数据依然还会再传回来,给以后的模型去做参考。
AI 科技评论:那就是现在我们有出货一些本体机器了?
范浩强:我们公司25年3月份成立,有些项目款的产品,现在那些客户的试点里面就有在用,最终说的主线硬件,时间上赶一赶,26年能推出一个给客户用的、比较统一的硬件产品。
AI 科技评论:既然我们要针对服务具体的工厂客户了,还有必要去做一个统一的硬件产品吗?
范浩强:像夹板或者是末端的东西,可能这个客户需要硬的,那个客户需要软的。但是机器人整体的 platform 还是得尽快稳定下来为好,便于数据积累和模型学习。所以我们公司战略上肯定还是期望,能尽快收敛到我们的主力机型上。
AI 科技评论:那以后会不会去做一些面向更C端的机器人?或者说更通用化的?
范浩强:我们愿景里是想做的,只不过感觉这事儿更得等一等了。
AI 科技评论:那会单去给某些本体公司提供大脑这样的事情吗?
范浩强:目前暂时不会,那个生态链上已经很拥挤了,这也不是我们擅长的东西。
AI 科技评论:那从你的角度上来看,原力灵机在整个行业中的生态位是什么呀?
范浩强:我希望它是技术的引领者、应用的先行者。
04
在山脚分开,在山顶汇合
AI 科技评论:模型和硬件之间的关系是什么样的?
范浩强:硬件其实本来也是个科学,里面也没有魔法。比如可靠性、结构、钢度这些问题,大家其实都有对应的方法论。只要设计的时候把这些问题都考虑好,都验证透了,那最后的产品一定也是好的。
现在的硬件难点,我觉得和模型一样,locomotion 大家基本上都有解决方法了,但是机器人运动中,manipulation 在硬件上的卡点十分突出。
我可以举个很细节的例子,比如手腕,人的手腕其实伸进桌斗里很容易,机器人伸不进去。有很多客户让我们做这个 case,发现死在了第一环,根本就伸不进去,你都没有资格去讲这个问题,后面还能说什么?
所以我们觉得在硬件方面,也都得从应用出发,才能到落地的状态。
我们有一个 slogan 叫模型决定场景,场景定义硬件。这代模型科技范围内,能做的事情清楚了,那后面各种实现的方法,也就纲举目张的出来了。
AI 科技评论:你们基模训练得算是快的吗?
范浩强:真的拿显卡去跑,可能就几周的时间,但是要先把跑什么、怎么跑这些事情全部搞清楚,做好前期验证和数据准备,这就要花费大量的时间去迭代和建设。
AI 科技评论:要跑什么?怎么去跑?
范浩强:要跑比如 base model 的训练参数、数据分布,这些怎么做才能合理?这些才是真正决定了这个模型的最终能力。我们往里面加了几千小时自采数据,这些数据都是一小时前采出来的,或者叫一分钟、一分钟采上来的。
AI 科技评论:你们的数据采集做得很扎实。
范浩强:这倒是,不过还好,搞人脸的时候我们已经采了10年数据了,有些采集员他们就非常有技术信仰。最激进的采集员还会主动过来问,我采的数据用到模型上效果咋样?他自己还会琢磨下一批数据该怎么采集更好。
![]()
联合开发的首款数据采集机器人 DOS-W1 量产出货合影,范浩强在现场。
AI 科技评论:他都已经从职业变成专业了是吧?
范浩强:是的,非常神奇,我觉得也算是这个工作中的乐子吧。我们公司有个参观景点,里面有块大看板,上面有个功勋榜,列着谁为我们的整个数据集里贡献了最多时长的数据,后世一定要铭记这些当年的功臣。
AI 科技评论:那他们是硅基生命的大功臣。
范浩强:采集员也要做到人机合一啊。因为我们那个任务很难,零点几毫米的对准精度,要苦练两天才能练出来。
AI 科技评论:那下一代的具身模型会跟这一代有什么区别?会朝哪些方向发展?
范浩强:我觉得首先模型一般来说有四大指标,泛化性、智能性、灵巧性,还有效率。这一代我们更多关注它的灵巧性和一定的泛化性,下一代这些指标我觉得得数量级的增长才行。
现在很多任务可能也就做个百分之八九十成功率,但是未来少不得进入客户场景,所以下一代简单任务必须冲着99、 99.9的成功率去了。另外在动作的长度上,现在大部分自己测的任务,可能10秒内干完一拿一放的任务,后面要做分钟级甚至小时级的长程任务。
AI 科技评论:现在具身模型训练路径也很多,有搞仿真的,有搞VLA的,有搞世界模型的,这是一个好事吗?
范浩强:每个人坚持自己的路挺好的,大家技术路线上太同质化,那就浪费这个试错的机会了。我们大概率还是一个预训练加真机的技术组合。大家最好路子不太一样,这样也能相互看看对方到底干得咋样,能有个参考。如果大家都一模一样,那最后比啥呢?
AI 科技评论:最终不会都收敛到一个路线吗?
范浩强:应该不会,应该是在山脚分开,在山顶汇合。比如做仿真的人天天在搞 3D 资产,做真机数采的人天天在研究怎么增广,其实最后发现它是一样的。做实的人天天想怎么往虚了搞,做虚的人天天想怎么加实的东西,因为技术问题是一样的,无论你的出发点是什么,手段是什么,其实最终在大的格局上一定能找到对应物的。
所以我真心觉得这些技术路线的分歧本身不本质,区别完全取决于你在实现过程中解没解决那些问题,你解决了的话,那就一定能做好。这种我们叫还原论思想,其实挺旷视风格的,比如当时张祥雨有几篇很重要的文章,有一篇是 ConvNeXt,他就想说别看其他人天天用 Transfomer 刷 Vision,我用卷积照样能刷。
AI 科技评论:后来大家不还是被统一到Transformer?
范浩强:现在 Transformer 已经被改的面目全非了,大家说的 Dswin(滑动注意力窗口)结构,你说那东西和卷积有区别吗?我觉得没区别。搞 Transformer 的人最后搞回来了卷积,搞卷积的人最后搞了个 Transformer,其实殊途同归。
我不喜欢做这种概念性上的战队或者对立,我们相信这世间的真相只有一个,但方法有很多。
![]()
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.