策划靖程
作者高雅
![]()
近日,上海新智具身智能科技有限公司(以下简称"新智具身")宣布完成近亿元天使轮融资,背靠复旦大学产学研体系,获国资与高校资本共同押注,这家成立于2025年6月的具身新公司开始走向台前。
与如今市面上绝大多数具身智能都盯着视觉做文章不同,新智具身团队认为,视觉让机器人"看见"世界,触觉则让机器人感知接触、理解材料、判断受力,只要机器人与真实物理世界发生接触和交互,触觉感知就会成为关键能力。
值得注意的是,这家公司没有从单一传感器或大模型视角切入,而是打通了硬件、数据、模型、产业化整条链路:自研视触觉传感器捕捉受力与形变,自建千平数据工厂积累触觉数据集,再搭配融合视觉、触觉的专属具身大模型。据悉,其视触觉传感器已进入头部具身智能客户体系,并在精细操作、数据采集和模型训练等场景中开展验证。为什么押注触觉感知?能够解决哪些痛点?财经网科技与新智具身CEO赵世豪聊了聊,以下为对话原文(略经删改):
![]()
财经网科技:新智具身为什么押注触觉感知这条技术路线?
赵世豪:目前整个行业还是太过于依赖于视觉信息了,但视觉感知本质是"纯软"大模型的常规路径,比如说生成式模型、多模态模型等,而具身智能要进入到物理世界,就一定要和世界产生交互,交互就意味着接触,接触就意味着(要获取)触觉信息,所以我们觉得触觉是一个非常重要的感知模态。
在结果层面,也能够非常明显的看出来,加了触觉模态之后机器人在很多任务完成的成功率上都有非常明显的提升。
财经网科技:新智具身的技术路线是VTLA路线,是把视觉和触觉相结合了,可以这样理解吗?
赵世豪:对的,其实说得比较通俗一点,我们要做的就是把触觉模态融入到具身的主流框架中,现在具身的主要有两个流派,一个流派是VLA,一个流派是世界模型,我们现在做的两件事,一个是把触觉融入到VLA里面,也就是VTLA,这个T就是tactile触觉的意思,然后另一个层面,我们也做触觉的世界模型,也就是引入了tactile的World Model。
财经网科技:目前也有一些做触觉感知的企业,秉持的观点是VLA和触觉感知的单纯结合会存在技术缺失,您怎么看待这种观点?
赵世豪:我觉得这个要从对触觉模态的理解出发,如果对它的理解没有那么正确,那么对一些问题来说,就会想得不太清楚。
比如说现在有一些方案,使用传统的电容、压阻,这一类触觉方案,和我们现在选择的视触觉方案其实有本质的区别,传统的方案对模型增益没有那么多。我们的触觉方案,它不仅可以采集到力本身的信息,还能够采集到像纹理、轮廓、形状这类富含语义的信息。现在的大模型是更加倾向于去学习这类语义信息的,可以给模型带来比较明显的收益。
财经网科技:那您认为在押注这条技术路线的企业中,新智具身有哪些优势?
赵世豪:其实从本质上来说,我们是一家模型公司,更重要的是我们公司内部,在模型层面进一步往上打通了两层供应链,分别是触觉具身数据的采集和触觉感知模组硬件的设计。
所以说我们一个比较核心的优势,是在公司内部打造了一个围绕触觉的生态闭环。从最底层的感知模组,到中层的触觉数据的采集等,再到顶层的触觉模型的训练。可以说,这三个部分可以互相进行反馈迭代,极大的加快了每一个部分的研发与落地速度。这三个围绕触觉要攻克的几个核心点,形成了我们一个比较高的护城河和门槛,如果有其他公司想要去做,或者想要赶超,也要先去把飞轮搭好,不然他们的速度就会一直落后于我们。
财经网科技:请介绍一下公司团队成员的技术背景。
赵世豪:我们整个团队是源自复旦大学可信具身智能研究院的,既有做LLM、生成式模型以及多模态模型的相关的研究人员,也有做像做嵌入式、做硬件,以及做硅胶材料设计相关的技术人员,除此之外,还有专注于做落地的工程人员,我们是一个全栈式的团队。
财经网科技:刚刚您提到公司也在自研一些模组,现在有一个观点,是本体对数据的采集也很重要,新智具身有做机器人本体吗,或者说有没有这方面的打算?
赵世豪:我觉得本体确实是非常重要的,我们目前是没有做本体,主要是还是围绕着触觉的核心技术去切入,如果现阶段做本体,其实对公司来说是负荷非常重
但是从长远的角度考虑,比如说从公司的生态位、以及数据的采集和模型的训练效率的角度考虑,我们也会用一种低成本的方式把本体给组起来。
财经网科技:新智具身坚持真机采集加UMI便携式采集两条路径,这是出于什么考量?
赵世豪:真机数采的方式能够保证数据的质量,因为它能够直接获取到机械臂的关节信息,但是它的缺点也存在,一方面成本很高,另一方面它不够scale up、不够灵活,它没有办法到各个环境下去采。换句话说,它能够保证数据的质量,但不能保证数据的整体数量。
但是UMI就刚好弥补了这一块,UMI它一方面成本很低,而且足够便携,能够在各场景下去采集,但它的缺点也存在,它不是直观的采集得到的机械臂的信息,导致它采集到的数据可能并没有那么准确。所以说这两个方案是从质量和数量两个层面去互补的。
财经网科技:那您认为视频学习的这种数采方式,对触觉感知的技术路线来说是不是作用不大?
赵世豪:其实我们现在的视觉模型是能够做到预测触觉的,有方法能实现把现有的视频数据,变成视觉加触觉的双模态数据,但是这一类也没有真机采的那么准,只能用在pretrain层面。
财经网科技:刚刚您也提到了数据数量和数据质量这个问题,这两者当然都很重要,但有没有感觉哪个会更重要一点?
赵世豪:我觉得要从两个层面去想这个问题,其实数量是为了保证模型的泛化性,质量是为了让模型能够真正去落地,所以说这两者是缺一不可的,如果只有质量,模型很容易在它不太适应的场景下,做不了一些动作;只保证了数量的话,它的成功率又会比较低,所以说二者缺一不可。
财经网科技:所以不能说谁比谁更重要。缺一不可。
赵世豪:对,预训练阶段需要的是数量,后训练阶段需要的是质量。
财经网科技:新智具身自建了超千平方的数采工厂,都聚焦于哪些作业场景?
赵世豪:我们锚定的是精细化的操作场景,主要有三大类,一类是精细化的物体的插拔和拾取,比如说打螺丝、芯片的插拔等;还有一类是非刚性物体的精细化操作,比如说像线束、纸杯、硅胶的操作;第三类是柔性物体的精细化操作,比如说像布料、纸张等。当然除了这三类还会有一些通用任务。
财经网科技:在传感器方面,比如精度、寿命和成本之间会不会存在着天然的矛盾,在这方面新智具身有哪些经验?
赵世豪:其实这个是不同层面的事,它们并不互斥。
像精度层面,我们只需要让解耦力的模型更好、让训练的数据质量更高、数量更多,解耦力的精度就自然会更好。然后耐用性层面,它就是工程化的问题,需要去做一些材料的优化迭代以及设计去提高它的耐用性,在这方面,我们已经做得非常好了,我们数采厂的那批传感器已经高强度运作一个多月没有去更换了。
然后再就是成本层面的问题,这其实和技术的选型相关,不同的技术方案对微光学结构的设计不同,会带来不同的成本体现,另一方面,成本也涉及到供应链的问题,如果供应链优化了,成本自然而然会降下来。
财经网科技:刚刚我们说了很多关于数据的问题,那么单单说模型层面,有没有可能会出现一种新的模型范式?它的泛化性大大提升,对数据的要求可能就会降低。您怎么看?
赵世豪:我们肯定不能去否认会有更新或者更powerful的模型出来,但是数据一定是非常关键的问题,仍需要更多的具身数据的积累才能够支撑起模型的规模化训练,进而让具身智能走向更加通用的场景,这也是为什么今年越来越多的公司去关注到数据本身的问题了。
以我们公司自己来说,数据层面做了很多功夫,刚刚跟您提到的,我们是质量和数量两手抓。
财经网科技:在商业化路径方面,公司是打包出售数据、模型还是方案?
赵世豪:我们刚刚聊的三个部分都会去做一些商业化层面的事,但是我们还是更关于模型本身。像传感器层面,我们会和一些头部的本体厂商去做传感器的销售;在数据层面,我们会销售触觉数据本身;在模型层面,我们更多的是配套硬件和模型去提供一套整体的解决方案。
财经网科技:那比如就拿触觉传感器来说,它的下游会非常分散,需求的差异可能也比较大,在这方面我们会怎么去应对?
赵世豪:我们现在主要的是做夹爪的标品。
财经网科技:还是以标品为主。
赵世豪:对,不会分散过多的精力去适配不同的定制化需求。
财经网科技:主要是tob吗?
赵世豪:对,比如像一些头部本体厂商的需求,我们还是尽可能去满足,因为把我们自己的触觉的范式去推出去给大家用到,也是非常重要的一件事情。
财经网科技:新智具身现在融资是天使轮融资吗?
赵世豪:对,我们刚结束第一轮,现在正在开启第二轮。
财经网科技:您如何看待目前的具身融资热?
赵世豪:具身智能属于高投入的赛道,算法、算力、研发团队都需要大量的资金来支撑。现在行业融资非常火热,说明大家看好物理智能的未来;充足的资金能让我们持续攻坚核心的技术,推动整个行业更快落地、更快的商业化。
财经网科技:最后聊聊公司短期内的一个发展愿景吧。
赵世豪:我们要做的一件事情是让触觉融入到主流的具身范式,让触觉模态,它不是一个配件,而是一个必需品,我觉得这个目标已经足够宏大,但其实应该也会很快能够实现这个目标,我们的信心还是非常充足的。
财经网科技:您觉得这个时间需要多久?
赵世豪:我觉得今年就可以。因为从去年下半年,有一些研究团队就开始做一些触觉的尝试,到今年越来越多的公司更加意识到触觉的重要性,我觉得这个新的范式的形成今年还是有很大希望的。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.