![]()
桥介数物要做的不只是运动控制本身,而是一个开发工具,一个平台。
作者丨高景辉
编辑丨马晓宁
![]()
“只要你做硬件,我们就投你。”
在深圳南山的一间办公室内,一位投资人向面前的年轻人开出了一个诱人的条件。但令投资人意想不到的是,对方不假思索地给出了否定的回答,仿佛相同的对话已不止第一次上演。
拒绝他的人,是具身智能企业「桥介数物」创始人尚阳星。
如果说具身智能是一座巨大的金矿,那么位于具身智能产业链上游的软硬件研发商,就是卖铲子的人,他们在矿脉尚未发现之时便已赚到了第一桶金。专攻具身智能“小脑”的桥介数物,就是他们的一员。
具身智能小脑主要负责执行短程任务,是和硬件强相关的运动控制系统,承担着机器人的精细操作、关节控制等落地执行类工作。由于成果受硬件迭代影响,国内真正做小脑的公司不多,桥介数物是其中的佼佼者。
在商业化方面,成立于2023年的桥介数物,仅用2年就服务了30多家具身智能企业,将自主研发的运控方案部署于50余种不同构型的机器人上,覆盖人形、四足、轮足等多元应用场景。在国内具身智能圈子里,稍有经验的业者都听过桥介数物的名字,谈及它的技术时,也大多抱以赞许的态度。
然而,即使技术实力已然经过市场验证,尚阳星也不愿涉足硬件业务,一心只想把软件服务做得更好。这在比拼“谁的故事更大”的具身智能赛道,显得十分难能可贵,但也因此失去了一些扩张的机会。
尚阳星本科毕业于华中科技大学,后保送至南方科技大学读研,师从逐际动力创始人张巍博士。2023年,尚阳星拉上同学成立桥介数物,正式踏上创业之路,甚至为此放下了学业。在尚阳星心中,似乎有比一纸文凭更重要的事。
那么,桥介数物究竟想成为一家怎样的公司?他们押注“小脑”的信心又从何而来?带着这些疑问,我们来到桥介数物,与创始人尚阳星进行了一场对话,听他讲述他所理解的“小脑”、具身智能硬件和桥介数物的未来。以下是不改变原意的整理:
01
机器人硬件的门槛不在于制造本身,
而在于更好地适配算法
AI科技评论:你是怎么走上机器人运动控制这条路的?
尚阳星:我的研究生导师是逐际动力创始人张巍,在他的影响下,2020年开始接触足式机器人。后来这个领域的技术发生了一些范式的变化,从一开始的MPC变成了强化学习。2023年开始,强化学习在足式机器人的应用走出了学术界,来到了工业界,从那时起我确定了创业要做的事。
AI科技评论:为什么有敢于创业的自信?
尚阳星:虽然我在足式机器人领域只有五年经验,但在此之前深入研究的人更少,我的经验相对已经算丰富了。况且强化学习的难点在于sim-to-real这个gap,而这恰恰是我最擅长的,因为过去做MPC要求对机器人的动力学、运动学有深入了解,这些经验可以迁移到用强化学习做足式机器人上面。所以在2023年,我们的技术水平算是行业里靠前的那一批。
AI科技评论:既然技术这么好,为什么只做运动控制软件,没有考虑同时做硬件吗?
尚阳星:当时我们这拨人里很多去做本体了,这和资本的喜好有关,因为能把故事讲得更大。也确实有很多投资人劝我们做硬件,声称只要做硬件就投我们。但我希望能够坚持先把一件事做好,不想同时做太多事,而且我并不在意别人的看法。后来我们确实坚持下来了。
AI科技评论:是什么样的信念支撑你们坚持下来的?
尚阳星:我们相信基于同样的事实,不同人会得出不同的结论。比如说我在逐际动力的时候,张巍老师说中国的制造业非常强,所以在中国做硬件是有优势的,能比波士顿动力做得更好,这是共识。但是基于同样的事实,我的判断是中国制造业强,那么中国能做硬件的人就很多,但是做运动控制的人可能就没那么多了。而且相比硬件,机器人运动控制的门槛要高很多,这几年随着硬件供应链的成熟,大家应该能更相信这一点。
AI科技评论:硬件的门槛在哪里?
尚阳星:这种门槛不在于制造本身,而是如何使硬件更好地适配强化学习算法,或者说难在怎么让机器人sim-to-real变得比较小,这就需要运动控制的视角。
AI科技评论:所以要做得更像人吗?
尚阳星:更像人是一方面,还有一些电机的特性,比如说转子惯量、摩擦力等等,一些没做过的人没有这样的认知,这个就属于细节了。惯量就是物体保持它原有状态的一个量,惯量越大它就越不愿意改变,转子惯量就是转子抵抗自身转速变化的能力。转子惯量越小就越灵活和丝滑,转子惯量过大就很难转动,会更难控制一些。
AI科技评论:你理解的运动控制和别人眼中的有什么不同?
尚阳星:我们讲的运动控制跟大家通常以为的运动控制不一样,不是让机器人能走路或者跳个舞就可以了,我们看的是更长远、更全面的运动控制,是结合感知的运动控制。
我最早在逐际动力做的就是带感知的爬楼梯运动,运动控制首先它是全身范围的,其次它是要能够理解环境的,比如说爬楼梯的时候不理解环境肯定是爬不好,或者是通过一个很狭窄的空间的时候,机器人需要侧着身子,再比如说机器人从椅子上站起来或者坐下,这都是需要一种全身协调规划的控制。
所以在我们的视野里边,会认为运动控制还需要考虑安全性的问题。如果是实验室场景或者表演的场景,有个电机突然坏了可能没那么令人在意,但当机器人真的走进家庭的时候,就要针对电机损坏的情况调整策略,比如让机器人可以先单腿站着,或者以一种损害最小的方式摔倒,亦或尽量不要撞到人,这些肯定都是我们未来要考虑的。
AI科技评论:未来还需要考虑什么?
尚阳星:我们默认未来在运动控制这个方向需要持续学习,让算法适应不同的状况。比如机器人运行时间久了,关节可能出现磨损的情况,甚至机器人哪天上月球了,也要适应不同的环境。
我们其实追求的是一种非常强大的控制能力,因为我觉得人本身就具备这种能力,对人来说很简单的踩高跷、穿铠甲移动、骑自行车、开车其实都需要一种通用的、很强的控制能力,机器人今天都做不到这些。但只要机器人能够持续学习,总能具备这种快速适应的能力。
AI科技评论:国外有没有和你们类似的企业?
AI科技评论:国外的好处是它只做软件就能得到投资的人认可,比如Pi。像Scale AI就跟我们有点像,但是业务方式不太一样,因为国外没有那么多硬件客户。
02
产生智能的方式有两种,
一种是模仿,一种是试错
AI科技评论:运控算法训练需要数据,数据从何而来?
尚阳星:产生智能其实有两种途径,都需要数据,但是这两种数据截然不同,一种数据是来自成功者,还有一种来自失败者,这是两种不同的产生智能的方式。下围棋就是很经典的案例,Alpha Go一开始是学人类高手的棋谱,但是Alpha Zero就不学人类棋谱,直接从头强化学习,通过不断下棋试错最终变得比原来的还强。所以我认为产生智能的方式有两种,第一种是模仿,第二种是试错。
现在训练大语言模型也是很相似的逻辑,就是模仿人类从而获得智能,这跟下围棋的第一阶段是一样的。但是我相信以后到第二阶段会更依赖强化学习,从零开始根据试错来积累更多的经验,把自己的推理能力变得更强。而且理论上一定存在一个环境,不用借助任何人类语料的信息就能够诞生出人类语言的能力,因为下围棋就是这样,不用任何棋谱信息,只需要一直下它就能学会下围棋。所以训练机器人也要有一个模拟的环境,能够让它不断地试错。
AI科技评论:很通俗的一个解释。
尚阳星:人类一开始也没人教,也是从零开始通过试错产生智能。人类的社会活动可以视为一种强化学习的过程,只不过它是在真实世界超大规模的环境中,跨越几十万年才能演化出来语言。如果能构建一个一模一样的仿真环境或者至少是近似的仿真环境,在这样的环境下去运行一个强化学习的系统,也能够产生语言的智能,只是这样一个仿真环境特别难构建。
我举这些例子是为了说明智能是有两种产生来源的,那说回来,在机器人控制能力方面,也同样是两种产生智能的方式,一种是向人类去学习,也就是遥操作的方式,由人来手把手教它动作,二是从视频里提取出人的动作让机器人学习,还有用动捕录的数据也是学习的素材。
AI科技评论:仿真似乎更难一些?
尚阳星:从头产生一个智能需要的仿真环境太难了,很难模拟得这么精细,而且不存在下围棋的那种环境。虽然现在也有仿真器,但还是不够真实,所以第一阶段就还是得靠人的数据来学。
当然,从人类视频里面获得的大量数据只是运动学层面的数据。机器人控制分为运动学层面和动力学层面,通常把运动学层面的叫做规划,动力学层面的叫做控制,这是两个不同层面的问题。运动学层面要解决关节的位置在哪里、末端的位置是怎样的轨迹等问题,动力学层面则是解决电机到底怎么控制、发多少力才能让末端跟着轨迹移动。说到底就是人类数据只能提供运动学层面的规划,因为机器人的电机和人类的肌肉是不一样的,所以没办法直接学。
但是还有一种方法,就是通过遥操作控制一个机器人教另一个一模一样的机器人,因为二者电机结构是一模一样的,可以直接实现动力学层面的学习。但这样的收集成本太高了,而且一旦未来机器人构型发生变化,这些数据就全都没用了,所以遥操作可能只是个短期阶段性的方案。
AI科技评论:长期来看如何解决?
尚阳星:长期而言还是得分开来解决,用人类数据解决规划的问题,再用仿真解决控制的问题。比如让一个机器人照着一个人的舞蹈学习,就是给它一段人类的舞蹈视频,把动作提取出来,然后用强化学习的方式,在仿真器里试错。
AI科技评论:机器人运动控制的技术演进路线是怎样的?
尚阳星:首先是技术范式的一个大的变化,即从MPC变为强化学习。MPC有很多corner case,需要写大量的规则,规划每一个动作,注入人类自己对运动的理解和智慧,因为真实环境太复杂,计算量就特别大。我当时那个工作最大的贡献就是用一个比较精巧的方法覆盖更多的环境。
即使如此,MPC还是很难,写越多规则就会出现越多问题,所以后来就有强化学习这种方式,我们只需要设定一个目标,然后交给机器人自己去探索就可以了。当然说起来简单,随着不断深入难点会越来越多,比如目标到底怎么制定,到底要怎么设置奖励函数,环境到底怎么搭建,先学哪个再学哪个……但是至少比较容易解决很多corner case的情况。所以总的来说,2023年强化学习在工业界开始落地是一个最大的分水岭。
AI科技评论:为什么一开始大家不落地强化学习?
尚阳星:因为大家觉得强化学习虽然鲁棒性特别高,但是它有个缺点,就是它的步态不是很优美。一开始大家做出来的东西,脚是拖在地上走路的,比较丑,大家也就都不屑一顾了。当然ETH那边做的效果挺好的,但因为它过于超前,甚至有人怀疑它是假的,或者机器人结构不太一样。
AI科技评论:所谓的步态优美是指一种人类审美还是工程学上的最优解?有没有可能存在看起来很丑但很高效的方案?
尚阳星:是指任何人都能看得出来的一种美。目前没有丑且高效的方案,拖着脚在地上走会产生更多的摩擦,这是一个缺陷、一种bug,这个bug来自于仿真器不够真实,因为仿真环境没有那么多摩擦、损耗,缺乏的不仅仅是一些触觉上的数据,归根结底就是仿真精度还是不够高。
AI科技评论:不考虑成本真机效果会更好吗?
尚阳星:现阶段直接在真机里边进行强化学习只是理论上可行,因为用仿真进行强化学习的时候,是用几千个机器人进行上万个小时的学习,但是如果放到真机上,那这几乎不可能实现。而且仿真里的机器人倒了之后立刻就可以重置,但是真机的机器人倒了之后需要人工重置,这个工作量太大了,并且机器人会损坏,所以不现实。
我觉得未来是能够直接用真机来学的,但这需要强化学习算法的进步。我们现在已经能够看到这种进步的机会了,但是现在还没有人真的把它落地下来,这也是我们现在在做的事情。
AI科技评论:回到刚才的问题,2023年之后有哪些技术突破?
尚阳星:强化学习的路径可以细分成几个时间节点。最早大家只是想让机器人能走路,所以走路时是弯膝的,相对来说还比较僵硬;差不多在2024的下半年的时候出现了拟人型的机器人,走得比较像人。印象中最早是众擎发的,后来我们也卖了很多拟人行走的方案。再到后边是开始跳舞,2024年底的时候我们做出了全尺寸机器人跳舞,我们也是最早做出这类方案的公司。后来2025年更多人都开始做跳舞了,我们因此卖了不少方案。
总之大概分成这个几阶段,先是行走,再是拟人行走,然后是跳舞,一开始一个策略只跳一个舞蹈,即每跳一个新的舞都要重新训练,现在已经有那种先学成千上万种动作,什么舞都能跳的通用型全身控制的模型。
AI科技评论:就强化学习来说,四足和人形机器人的难度有何不同?
尚阳星:这涉及到怎么结合感知来进行运动控制。比如说爬楼梯,以前我们做MPC的时候觉得离开感知肯定是爬不好的,但是在强化学习里我们发现,对于四足机器人来说没有感知也能爬得挺好,因为它的控制能力进一步提升了,碰一下台阶就能爬上去,反正它靠三只脚就可以稳定。但是对人形机器人来说,稍微磕一点它就会更踉跄。
所以我们需要研究怎么利用感知信息用强化学习的方式来解决这个问题。我估计今年会有很多demo出来,但在成熟稳定的落地方面,还是有比较长的路要走。这些动作没有后空翻那么炫酷,但既然技术已经发展到这个阶段,不管发什么demo这些问题都需要认真地解决。
03
很多人想做具身智能行业的「苹果」,
但我们要做「Windows」
AI科技评论:你曾说未来具身智能行业会高度分工,每家公司都做自己最擅长的一个部分,基于这种判断选择只做运动控制的战略,那么你怎么确定未来具身智能行业一定是分散而不是集中的?
尚阳星:过去很多行业的发展过程就是这样,比如电脑、手机、汽车等行业,分工都是特别细的。现在的电脑的品牌,也没有谁是自己做操作系统的,芯片、屏幕甚至键盘也可能不是,他们就只是品牌厂商。手机厂商也是一样,大部分手机的操作系统、CPU、屏幕都是分工合作的,即使如此也不妨碍他们成为很成功的公司。
AI科技评论:但是也有不是这样的,比如说像无人机,大疆就是什么都自己做。为什么会有这种差异?
尚阳星:首先是因为市场的大小不一样。市场特别大的话,就会有很多参与者进来,竞争就会更加激烈,这时候的资源都开始变得有限了,就必须重点选择一个要投入的东西,如果什么都投入就会什么都做不好。但如果市场不大,哪怕资源是有限的,对这个市场而言也完全足够了。当其他参与者想要跟你竞争的时候,由于他本身有更多资源,会看不上这么小的市场,你就很有可能能占据这个市场。
如果未来我们能把运动控制做得足够好,做到以很低的成本就能在机器人上部署使用,那么对于一般公司而言,他们就不会选择投入更多钱来自研,而是直接选择用我们的运控方案。虽然个别公司运控也可以做得特别好,但是不可能所有的公司都能把运动控制做出差异化。
AI科技评论:只靠这个说服力似乎还不够?
尚阳星:还有就是规模效应。为什么大家不自己生产螺丝钉呢,是因为螺丝钉非常标准化,而且规模越大边际成本越低。对软件来说更是如此,如果它是个标准化的软件,那基本就可以认为是边际成本为零。所以一定能够降到一个足够低的价格,让你绝对没有想法要自营。相当于是资源不够的那些厂商把研发费给我们,由我们统一研发。
所以我们认为未来运控如果能够做到标准化,大概率还是会成为一个独立的市场。但这并非共识,因为运动控制是跟硬件深度绑定的,机型一换算法也要换,所以当下的竞争没那么激烈,毕竟不是所有人都相信这个是可能的。我们相信是因为我们看到人可以通过快速适应学习来获得这种通用的控制能力。当然我们现在离理想还是有距离,但我坚信一定能走到那一天。
AI科技评论:如何过渡到那个时候?
尚阳星:目前我们是给每一家都出一个定制化的方案,以项目制的方式来适配,但是这只是一个过程。我们通过这种适配的方式来积累经验,与此同时我们也在研发更加标准化的产品。不过不是说就一定能成,但我们愿意赌一赌。
AI科技评论:有点像是之前Windows跟苹果的竞争。
尚阳星:是有点像,一开始苹果卖得很好,但最终还是Windows赢了。全天下所有的电脑,只要不是苹果基本都会用Windows,只是最后到有了苹果手机,才又把苹果的桌面市场带起来了。其中很重要的一点是Windows能够给大家一个预期,只要他装了Windows系统,不管电脑配置怎么变,使用感一直是保持一致的。
另外还有点像自动驾驶的逻辑,虽然现在还没有完全确定未来是第三方统一世界,但今天很多人认为Momenta的表现已经算不错了,这给了我们信心,因为造机器人没有造车那么难,许可证之类的限制也更小。更关键的一个点是自动驾驶的下游是单一的,自动驾驶这个应用的功能就是从a到b,不像操作系统那样会因为庞大的APP生态形成壁垒。
AI科技评论:当下机器人运动控制是更像自动驾驶还是更像操作系统?
尚阳星:肯定是更像操作系统,因为机器人也存在软件生态的机会,需要很多应用,而应用开发者不可能也从最底层开始做运动控制,这没有必要,只需要有人来把底层的东西封装好,根据需求调用相关的工具就可以了。我们就希望能够做好这样的工具,所以我们要做的不只是运动控制本身,而是一个开发工具,一个平台。把不同的机器人硬件兼容起来,做一个应用就能在各种各样的机器人上用,不需要为每个品牌厂商单独做机器人接口适配。这是作为独立第三方能够提供的重要价值。
AI科技评论:现在这一批做全栈的具身智能企业,同时做本体和运控的难度大吗?
尚阳星:他们未来有两种选择,要么发展成像苹果一样的企业,每个方面都做得特别好,那就不需要第三方的生态,可以有自己封闭的生态,因为产品力够强,别人也愿意加入他们的生态。但是剩下的如果做不成苹果,做一套自己的运控系统就比较难了。
AI科技评论:谁最有可能成为那个苹果?
尚阳星:不知道,可能是宇树之类的吧。
AI科技评论:你们现在对融资似乎没那么迫切,这是为什么?
尚阳星:还没到烧钱的时间点。
AI科技评论:那这个时间点在什么时候?
尚阳星:等我们把这个标准化的产品真正做出来,并且可以快速规模化的时候。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.