网易首页 > 网易号 > 正文 申请入驻

前小米智驾刘方:如果VLA跑通,自动驾驶会变成具身智能子问题|36氪专访

0
分享至

“VLA是一个像人类司机一样工作的司机大模型。”5月7日晚,理想汽车CEO李想在AI Talk中说道。

这是智能驾驶行业继“端到端”之后,出现的最新技术方向。

VLA(Vision-Language-Action,视觉语言动作)模型,最早由谷歌AI公司Deepmind推出,主要用于机器人领域,随后逐渐成为具身智能领域的主流技术范式与框架,Open AI、字节跳动等公司都在践行这个路线。

与ChatGPT、Sora等注重文本、图像与视频的视觉语言模型(VLM)不同,VLA在前者的基础上,新增了与物理世界交互的“动作”能力。

换句话说,VLA不仅理解周围环境,还能直接输出控制指令,如机器人动作或车辆驾驶决策等。智能驾驶、具身智能两大热门赛道也因此有了更深刻的交汇。

不过,当下VLA的技术实现与工程落地还处于早期。技术创新的迷雾,仍需要在实践中拨开。为此,36氪汽车近期交流了一个拥有智驾技术背景人才创立的具身机器人项目——阿米奥机器人,希望为行业提供更多参考。

阿米奥机器人成立于2024年9月,由小米汽车智驾技术产品负责人刘方成立。今年3月,阿米奥完成了种子轮融资,资方包括安克创新、智谱AI和险峰长青。

刘方曾历经小米自动驾驶团队筹建、技术研发和量产落地的全过程。更早之前,刘方在谷歌中国搜索业务部门履职。

刘方向36氪汽车表示,2023年生成式大模型GPT的出现给从业者带来很多冲击:一是更大的数据量能让更大的模型产生智能;二是大模型本身已经理解了很多人类知识,学习新技能不用只靠模仿,而是通过学习模仿数据背后的知识,来建立对事情的理解。

他比喻道,以前做每个具体的AI场景,就像是在爬一座山,总是碰到困难;但GPT出现后,不用爬山了,而像是海面上的一艘船,当海平面逐步提升,山就被淹没了。

而VLA模型,是能让物理硬件具备真正智能的大模型。刘方认为,如果VLA这条路能跑通,自动驾驶就变成一个低维度的事,成为具身智能大问题里的子问题。

刘方表示,近年来的智能驾驶,本质上是模仿学习,不依赖人工写规则,而是直接让系统学习海量数据,自主找到驾驶规律。但这也伴随着挑战,模仿学习没有办法处理已有数据之外的case。

VLA、强化学习等新技术落地,正在带来新的思路。

例如,VLA(视觉语言动作)模型中的VLM(视觉语言模型),本身就具备了认识世界的能力。“VLM的性能决定VLA超过一半的性能,VLA大部分工作其实就是在VLM上做增强。”刘方表示。

除了具备看图说话、能感知距离之外,VLA更关键的一步,是最后的动作环节。“好比买家具回来组装,首先读一下说明书,看案例,但能不能干得好,还是要实操。”

刘方表示,最后的环节本质上就是trying out(测试)的过程,机器人也会在最后的实操阶段做强化学习。

强化学习是一种AI训练的奖励机制与策略,如果智驾系统开对了就给“糖”,开的不好就挨罚。

不过刘方表示,自动驾驶跟机器人的强化学习最大差别是,竞争博弈问题。“机器人不用跟旁边的机器人抢一个杯子,但自动驾驶的强化学习中,还包括对手的反应怎么模仿。”

这最终可能需要一个好的世界模型仿真器才能解决问题。但实际落地过程中,不可能忽然出现一个很好的世界模型来帮助模拟。“只能说,世界模型的一部分模拟先让系统做强化学习、得到提升,然后找到不符合真实的模拟反应,加一些数据加让世界模型变得更好,一步步迭代。我相信世界模型跟驾驶模型一定是绑定在一起迭代的。”

刘方还表示,当下VLA还处于创新迷茫阶段,行业各家的实现路径不尽相同,也还没有达到收敛状态。

基于VLA模型,阿米奥机器人在探索自己的路径。刘方向36氪汽车介绍,公司目前主要聚焦3C消费电子领域的机器人柔性生产。

他告诉36氪汽车,很多电子产品生命周期并不长,产量小,而自动化产线部署成本高,至少需要两个月时间才能落地,“但一条生产线只生产3-4个月就满足需求了,从成本上来看,3C消费电子的产线自动其实不划算。”

而基于VLA模型,刘方表示能让过往的专用机器人变成通用机器人,学习能力和适应能力很快赶上人类水平。

例如,在工厂的固定工位提供一台机器人软硬件,代替人力三班运作,即便3C产品产线发生柔性变化,通用机器人也能够在类似的通用任务之间无缝切换。

目前,阿米奥机器人与北大搭建了联合实验室,双方在VLA基座模型上开展合作。在模型训练上,阿米奥机器人也能在投资人智谱AI的助力下开展预训练;其次,阿米奥机器人已经在工厂里进行数据采集。

商业进度层面,刘方表示,今年三四季度将有一条大的通用机器人产线整体落地。除了消费电子领域,未来阿米奥机器人还将扩展到服务领域、家庭清洁整理等场景。

以下是36氪汽车与阿米奥创始人刘方的对谈,内容经编辑:

36氪汽车:你们不考虑做汽车领域的机器人产线吗?

刘方:汽车行业的劳动强度和需求确实更大,但本质上不存在通用性需求,它是一个设备智能化的好场景,但不是具身智能的好场景。

一条汽车生产线要用7-9年,至少也要5年。如果有更好的专用设备来解决这个问题,为什么不用专用设备来解决?专用设备比通用设备会更便宜,没有必要用通用化的设备。

36氪汽车:现在机器手臂的供应商你们是自己做还是找外部?

刘方:现在夹具能够解决80%以上的任务,很多产业并不需要灵巧手。灵巧手一是成本吃不消,第二是生命周期,客户要求三班倒、用一年,这至少是7000个小时的寿命需求。我们现在的要求寿命就是8000~1万个小时,夹具可以做到。

36氪汽车:机器人代工的利润不高,你们的商业模型是怎么计算的?

刘方:第一,代工就是把人给替下来,能为客户节省多少钱。第二是机器产能要跟上。从人力成本来看,一个人力一年要10万块钱。

机器人有两部分成本,第一是实体机器人的固定资产,第二还要有算法模型,模型成本前期投入大,后面运转起来就摊薄了。机器人可以三班倒,一个工位可以替换三个人的成本。

36氪汽车:你当时为什么选择了消费电子的产线机器人领域创业,而不是自动驾驶?

刘方:我最早一份工作是在Google就是做language model(大语言模型),2023年初GPT3.5出来后,对我产生了很大冲击。

第一,大数据量会让更大的模型产生智能。用大量数据喂养一个本质上是模仿学习的技术框架,即便没有见过一些case,也能产生智能。

第二,大模型本身理解了很多人类知识。学习新技能不需要只靠模仿,而是通过学习模仿数据背后的知识,来建立对事情的理解。这更靠近AGI,这也是具身智能VLA在做的事。 如果这条路能跑通,自动驾驶就变成一个低维度的事,只是一个大问题的子问题。

36氪汽车:所以VLA在自动驾驶落地是一个相当确定的事?

刘方:VLA在机器人的落地是比较确定的事。雷总(小米CEO雷军)一直讲,应该以高维打低维。站在更高维度,机器人做好了,也能开车,自动驾驶就是很自然的事。

36氪汽车:VLA能解决自动驾驶行业哪些问题?

刘方:两个问题,第一是数据量太大,以前靠写规则覆盖所有case是不可能的。后来大家通过模仿学习,不写规则了,直接通过数据学习的办法让效率变得更高,这是特斯拉去年讲的事情。但还有问题,模仿学习没有办法处理数据之外的case。这也是VLA能够提供的最大帮助。

36氪汽车:强化学习能解决问题吗?

刘方:我们的方法是在VLA上做强化学习。强化学习跟人一样,人通常先学习基础能力:看图说话、知道距离。其次是知道动作怎么做,这个要实操。比如买家具回来组装,首先要读一下说明书,看案例,但能不能干得好,还是要实操。这一步本质上就是trying out的过程,我们只在最后实操阶段做强化学习。

因为机器人没有大的模拟环境去模拟交互,只能在实际中能做大量试验。且机器人直接学习和尝试的时间、次数是有限的,所以机器人不可能从0开始强化。VLA大致的学习逻辑和方向是对的,中间做不好的事情,最后靠强化学习来做。我们管这个叫残差强化学习,学习VLA模型和实际环境之间的偏差,而不是全部环节都上强化学习。

36氪汽车:自动驾驶用强化学习难吗?

刘方:其实更难。自动驾驶跟机器人最大的差别是,存在竞争博弈问题。机器人不用跟旁边的机器人抢一个杯子,但自动驾驶的强化学习中,还包括对手的反应怎么模仿。

要么在真实环境采集,但有些数据本来就很难采;要么在模拟环境中生成对手的反应,但生成数据,也不一定真的就覆盖了训练所需要的数据分布,探索空间不够大的时候,强化学习也不会产生实际效果。

36氪汽车:那怎么解决?世界模型有用吗?

刘方:如果仿真能力很强,世界模型里不同对象的反应模仿做的很好的话,其实就不存在out of distribution(OOD,指的是当一个模型被训练在特定的数据分布上时,它在处理与训练数据不同的数据分布时的性能可能会变差)的问题了。

这是个逻辑上的悖论,我一直没有想明白,这可能是个一步步往上迭代的过程。不可能忽然出现一个很好的世界模型来帮助模拟。只能说,世界模型的一部分模拟让系统做强化学习,得到提升,然后找到不符合真实的模拟反应,加一些数据加让世界模型变得更好,一步步迭代。我相信世界模型跟驾驶模型一定是绑定在一起迭代的。

36氪汽车:最近理想汽车说VLA进入无人区了,你认同吗?

刘方:创新不容易,VLA确实还是个迷茫的状态,大家有不同的路径和实现方式。比如Pi Robotics的方案跟Facebook、Google、字节、和我们的方案都不一样。

虽然都是VLA,但大家在各种细节、算法设计、数据使用上都不一样。机器人VLA还没有达到收敛状态,是因为还没有人做出一个百分百靠谱的东西。

不像自动驾驶,特斯拉已经做出标杆且被产品化了。机器人迄今为止还没有,但这也是创业者的机会。

36氪汽车:这与机器人的落地场景很多有关吗?

刘方:因为VLA还没有收敛,没有放之四海皆准的经验。我们的经验是,VLM的性能决定VLA超过一半的性能,VLA大部分工作就是在VLM上做增强。

同时VLM的空间能力、空间之后的语义理解能力很差,就是说,它不知道图像里的东西在3D空间的位置是怎样的,也不能知道两个物体的3D对应关系是怎样的。我们希望通过3D增强的方式来强化VLM的感知能力。

然后还要把对动作的理解能力加回来,我们是通过生成式的模型来解决问题。以前做language model要做很多中间步骤,但GPT3.5告诉你干脆就不用做,直接生成。这跟物理学家费曼的观点一样,“只有我创造的,才是我能理解的东西”。

36氪汽车:VLA的底层技术有什么变化吗?现在还是transformer的范式。

刘方:短期内可能看不太到。但最近自回归学习和生成式模型发展比较快,这可能对模型性能有蛮大提升。

36氪汽车:你觉得AGI时代的终端会是什么?

刘方:我觉得功能型产品会更加直接和直观一些,能干活的机器人是我想做的事。情感陪伴型、游戏型、玩具型我其实不太能够理解,我只能干自己看得懂的事。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
紧急提醒:截图别乱发,暗水印能直接找到你的本人

紧急提醒:截图别乱发,暗水印能直接找到你的本人

戗词夺理
2026-03-25 10:35:41
拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

卷史
2026-03-26 09:34:56
4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

4亿预算!穆里尼奥是重返切尔西还是执掌葡萄牙队,终极抉择困难

成吉思热
2026-03-26 10:02:48
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
西部排名大乱!雷霆输球,马刺冲第1,湖人坐稳第3,3队抢第8

西部排名大乱!雷霆输球,马刺冲第1,湖人坐稳第3,3队抢第8

麦子的篮球故事
2026-03-26 17:33:02
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

BBC采访爆出大瓜!特朗普开出停战价码:海湾国家需支付2.5万亿美元

星辰大海路上的种花家
2026-03-25 13:08:50
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

ATP的灾难:无趣的辛纳和事业心不足的阿尔卡拉斯

网球之家
2026-03-26 13:25:06
哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

哪吒汽车破产覆灭,最讽刺的不是200亿债务,而是这个名字本身

蜉蝣说
2026-03-25 10:54:58
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

军评陈光文
2026-03-25 22:20:57
《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

上官晚安
2026-03-26 06:48:44
国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

界面新闻
2026-03-25 22:29:47
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 18:27:00
36氪 incentive-icons
36氪
让一部分人先看到未来
150976文章数 2848565关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
旅游
亲子
房产
军事航空

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

视点|陶然亭公园海棠春花文化节,解锁春日新体验

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版