对话人物简介:
余轶南/ 维他动力创始人兼CEO,前地平线智能驾驶总裁。
赵哲伦/维他动力联合创始人、产品&市场负责人。
宋巍/维他动力联合创始人兼工程负责人。曾任地平线软件平台总架构师、智驾创始团队成员。
2023年,具身智能领域出现了一个非常重要的信号——如果端到端能实现自动驾驶, Then what’s next?
“如果你认为它能够改变机器人的未来,就应该跳进去将它真正实现出来。”
于是,余轶南、赵哲伦和宋巍,在2024年成立了维他动力。
![]()
在他们看来,这个行业里很多的玩家,要么是聚焦于做硬件,要么聚焦于做AI,而从「维他动力」的名字就能看出来,他们要将两件事儿合在一起做。
「维他」指的是智能生命,「动力」则是指运动性能。
他们的目标,是要在5年内让机器人大规模进入家庭办公和服务场所,并能提供高质量服务;而长期目标,是在10-20年内,成为全球前三的智能机器人公司。
![]()
机器人的集成水平,已超越汽车
在集成化的演变中可以看到,过去的很多机器人,需要把负责不同功能的板卡集成到一个机器人中,占用了很大的空间。而如今,机器人的集成度已经走到了汽车前边。
“今天的整车电子电气架构,分为底盘域,智驾域,交互域;下一代的汽车才会走到智能本体+智能交互,机器人产业其实已经比汽车行业往前走了一步。”余轶南说道。
目前,维他动力为机器人构建了两个核心域——智能本体域、智能交互域。
![]()
得益于这种集成化的架构,维他动力的首款产品——Vbot智能伴随机器人,可以配置当前同尺寸机器人中最大容量的电池组。其样机续航已从1-2个小时提升至4小时,上市前可接近700Wh,能支持一天使用。同时,它在关节模组、能量扭曲密度方面也得以提升。
“高度集成化最大的好处,就是把空间预留出来了。原来的四足机器人,肚子里要放好多块板子,可能每条腿都需要各自运算。但今天我们产品的两块芯片一块是在头部,一块在身体里,可拓展空间更大。”赵哲伦说道。
简化传感器,不只为降本
维他动力的主要传感器采用了前视双目摄像头+一颗禾赛JT系列激光雷达。余轶南介绍称,人的视角大概为150°左右,但是通过头部左右运动可扩展至180°-320°,上下视角可扩展到200°。基于此,其首款产品大幅简化了传感器的数量。
这不仅能带来你在硬件成本的降低,也能让算力实现更好的覆盖。
“我们比主流高端智驾的每百万像素算力,提高了3-8倍,这样也会让机器人在感知方面能够做得更好。”
![]()
赵哲伦表示,中阶智驾基本需要6颗摄像头覆盖全车,高阶智驾则需要12颗摄像头,因为它需要广角和长焦的组合才能覆盖全车,这样分配到每百万像素上的算力其实是非常有限的。
“所以我们在一开始去考虑机器人的长期架构时,就希望精简。”
同时,基于视觉在暗光、异形障碍物的局限性,维他动力也为机器人补充了的专用的360°激光雷达。
Agent架构&全模态交互
“由于人与机器人的距离通常比手机、电脑都远,所以人与机器人最好的交互方式,就是自然交互。”
在交互方面,维他动力设置了一套面向机器人的Agent架构——以用户的语言输入,来触发Agent大脑的部分,让机器人对上下文做出正确的响应。
在表达情绪方面,Vbot机器人不仅能传达眼神,还会伴随不同的声音音调,以及肢体动作。
“我们认为机器人应该是一个全模态的交互方式,在感知层面,你的视觉、听觉还有触觉都能够作为input,在Agent架构里进行分析,然后通过我们的屏幕、肢体和扬声器,以及机器人耳朵上的指示灯去表达情绪。”
赵哲伦指出,在《温暖的科技》一书中,提出在整个表达情绪的构成中,55%是靠肢体语言,38%靠语气,只有7%才是靠语言。因此,Vbot智能伴随机器人也会通过多模态来表达惊讶、勇敢、害怕、开心,惊喜等情绪。
现在,多数机器人都以语言对话作为交互方式,但维他动力坚持不让机器狗「说人话」,而是用一种可爱的声调强调其动物属性。
余轶南称,团队专门探讨过「说人话」的问题,但被否决了。他们认为特征应高度符合属性,一旦让它说人类语言,就「出戏」了。
关键一步:甩掉遥控器
余轶南认为,不管是对于自动驾驶还是机器人,快系统+慢系统、大脑+小脑结合的方式,都会是未来的主流技术架构。
据介绍,维他动力为机器人开发了一套1b左右的中小规模VLA模型。它主要接收Agent对任务的需求,同时接入对环境感知以及机器人本体的信息。
“它的输出包括思维链、各种各样的Action、对于环境的感知识别和响应,以及进行环境的探索…这也是一套快慢思考的双系统。”余轶南介绍道。
同时,维他动力也利用世界模型,让机器人在数字环境中学习:“我们可以做4000多个类似的环境,然后在一个GPU上同时去跑。”
在数字环境中,不仅能够模拟一些隐患问题,还能模拟所有的传感器,包括像摄像头,激光雷达,还有本身的IMU等等。
![]()
“无人驾驶跟辅助驾驶的最大区别,应该是有没有方向盘。”余轶南表示,在机器人这里,「甩掉遥控器」是自主移动的关键一步。
他指出,在有遥控器的情况下,事实上是遥控器承担了对环境的感知,如果没有遥控器的话,就需要机器人本身去感知。实现这一目标的最大压力,是系统对于环境本身的理解。
![]()
要想甩开遥控器,就需要将机器人身上的摄像头像素、激光雷达点云融合进一个AI网络,然后去产出对环境的理解。这也是维他动力选择了远大于其他四足机器人的算力平台的原因。(地瓜机器人S100P计算平台,最高算力128TOPS)
在设计上花费最多精力
“‘机器人设计’这个Topic,其实至今还很少被深入讨论,但却是我们花费精力最多的部分。”
赵哲伦认为,设计应当是机器人最核心的部分。如今的机器人风格都比较偏工业,还有一些则偏玩具化,更像低龄化产品。另外,有一些机器人只能在室内行走,有的能户外行走却没法上台阶。
所以,维他动力为他们的机器人作出了如下定义:
1、全地形运动能力;
2、不能过于玩具化,而是要找到「友善的平衡」。
3、全圆角设计,使用更高级材质提高品质等等;
4、简约设计,未采用过多色彩,遵循黄金分割比例;
除了工业设计,维他动力还有来自游戏、动画行业的动画师,依据迪士尼的12个动画原则,表达机器人的情绪。
![]()
“我们觉得第一款产品的高度不能比孩子高,这样整体会显得更有亲和力。另外,其实我们也做过人形机的调研,但是感觉人形进家还是有挑战的,因为它带来的风险还是比较高的:如果它在你家的某个地方摔了,有可能带来的损失是用户不可接受的,所以我们先以一个体积更小、重量更小的机器人去做尝试。”
外接功能扩展
和很多机器人一样,Vbot智能伴随机器人也可以通过多个物理接口扩展功能。例如,它的背板上可以插一个筐,用来背东西。同时维他动力也专门设计了1/4的螺母,便于安装360°的环视摄像头,实现跟拍功能。
“它本身有很强的负载能力,不光是背东西的负载,也包括拖东西的负载。它还可以用拾球器去捡网球,通过各种各样的连接工具与世界互动。”
![]()
至于未来要不要给它增加夹爪,余轶南表示,增加夹爪讨论最多的不是技术问题,而是外观造型问题。如果要上夹爪,就必须看不起不突兀,能和造型融为一体。
明年将进军海外
在维他动力看来,海外市场的「大House家庭」,通常具备庭院和上下层,Vbot智能陪伴机器人的点到点运载能力在这里将得以发挥。
“明年,我们会进到海外。在欧美的大家庭中,虽然房子面积很大,但家里装电梯的、有佣人的还是非常少的,所以我们认为四足机器人会成为一个House的标配。”
今年年底,维他动力首款产品将迎来上市。之后在次年1月份的CES上,该公司也会开启海外政策。
“我们会确保在明年春节以前,通过量产产线出来的机器人能就交付到家庭里,进入到我们的生活中。”
![]()
长期记忆的必要性
“去爸爸的房间”“去书房给妈妈送杯水”...这些简单的指令,意味着机器人需要对用户家庭关系、空间、信息形成长期记忆。
“长期记忆是必须做的,过去的汽车行业已经做了大量尝试,包括声纹识别等等。但由于车没有强调角色属性,所以大家的体感可能不是那么强。但我发现长期记忆对于机器人来说非常必要,不然它很可能听了陌生人的指令,造成用户困扰。”
赵哲伦称,在信息层面的长期记忆,主要依靠对大语言模型的上下文关键信息记忆,比如家庭角色、职业,甚至用户最近在焦虑的事情等等。
“我们认为机器人的产品化过程中,至少应该有这三维的记忆:空间、人物角色,上下文关键信息。”
![]()
最后,赵哲伦表示,维他动力这半年的融资已经达到了3亿元,这些资金足以支撑首款机器人的规模化量产,并可以保证产品交付。
“目前,工厂的搭建及试制都在进行中。对于第一款产品来说,这一套流程的周期会比较长。我们需要更多的试制的过程,让产品质量变得更好。在今年的10月到12月之间,我们会开启产品早鸟内测。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.