网易首页 > 网易号 > 正文 申请入驻

蚂蚁灵波沈宇军:VLA和世界模型都不是物理AI的终局

0
分享至



导语:人人都能给机器人提供数据就是物理AI的GPT时刻。

2026中国AIGC产业峰会上,蚂蚁灵波科技首席科学家沈宇军与量子位联合创始人兼总编辑李根做了一场对话,讨论AI 2.0下半场。

沈宇军认为,从物理AI“数据”到VLA、世界模型,物理AI(具身智能)的终局可能远远没有到来。以下是他的对话内容整理,有删减,未经本人审核:

大模型从ChatGPT突破起步,最开始大家觉得好玩,后来慢慢走向实用,尤其是最近Coding能力的爆发。我本身做机器人行业,从这个视角看,大模型其实是踩中了互联网过去几十年积累的数据红利

互联网积累了海量的文字、图像、视频素材,这些数据恰好碰上了算力的发展,两者融合到一起,在爆发的时候正好把互联网几十年的数据积累用起来了。

再进一步看,自动驾驶也发展了将近十几年,慢慢积累了属于自己的数据——从最初车上没那么多传感器,到现在人类开车时数据可以被自动记录下来。反观机器人行业,数据目前还是一个很大的空白。我们没有几十年的互联网积累,也没有十年的自动驾驶沉淀,机器人现在的数据非常短缺。

有人说AI终于走到下半场,从数字世界往物理世界走,我们也提出了AIGA(AI生成Action)的概念。但做模型的核心其实是在做数据。我觉得更关键的问题是:数据到底怎么演变?怎么让数据真正从数字世界过渡到物理世界?

过去一年本体厂商越来越多,本体本身发展得也不错。今年能看到一个明显的趋势:各种各样的数据采集方式开始涌现。这说明大家逐渐意识到,具身智能——具身是一部分,智能是一部分——要做智能就离不开数据。只是大家还没想清楚:物理智能到底需要什么样的数据?以及怎么尽可能地把数据标准化?

标准化是很重要的事。Call back一下,大模型的成功很大程度上得益于互联网把数据标准化了。Coding、对话这些领域,互联网已经搞得非常好了,现在更多是去享受这个红利。

但到了物理世界,从眼下五花八门的数采方式来看,大家虽然意识到了数据的重要性,却还没有找到那条最正确的路。我相信在不远的将来,数据这件事也会逐渐收敛

模型要能生产生产力

我们毕竟活在物理世界,真正想要的有体感的服务,还是需要物理世界中的具体交互。

所以我们觉得只有AIGC可能还不够。到最后,智能到底能不能帮我们解决一些具体的问题?大家都说Agent,Agent能在数字世界帮我们解决很多流程问题、调用一些工具,但很多让人真正有体感的东西还是要有操作。比如我现在就是想喝一杯咖啡——这个场景可能有点老生常谈了。

尤其我们做具身的,更希望这个模型不能生产内容,更能生产所谓的生产力。比如机器人进入工厂、物流、仓库,去搬货、做分拣。我们也和本体厂商合作,在这些场景中做了一些探索。前不久,我们的机器人还进入了药房的线下零售门店。

如果真的有幸能看到那么一天——机器人发展得非常好、非常智能——那生活中的方方面面都可以落地。举个例子,刚才上台前,需要工作人员把椅子搬上来,工作人员要专门在那里等着。如果时间上有调整,他就得一直在旁边等着。

如果有一天这件事机器人能做,它站在那里也无所谓,它知道什么时候该上场,并且把事做好,那就能释放出很多劳动力,让大家去做更有价值的事情。我相信机器人会逐渐渗透到生活的方方面面,把人释放到更需要人的事情上,比如创造、文化这些更偏人类活动的方面,而不是去做枯燥重复的体力活。

在我们看来,机器人不管是进入企业还是进入千家万户,大家对硬件的诉求一定是不一样的,不可能只有一款统一的机器人。就像大家用手机,华为、小米、苹果,各有各的偏好,这是个性的需求。企业更是如此:有的地方需要力气大的机器人,有的需要更敏捷的机器人。

但这些机器人有一个共同的需求:智能。智能不是工业机器人那种按固定轨迹、在固定时间做固定的事。生活中很多事是随机的,智能的含义就是要能应对这些随机性。像我刚才说的,大会时间调整了,它能不能知道什么时候该上场搬椅子?这是一个简单的例子。

所以灵波的定位很清晰:我们希望做一个相对通用的“大脑”,让所有机器人在这个大脑下更好地完成任务

物理世界相比数字世界有两个优势。

第一,模态肯定更多——有听觉、温度、触觉等等。这些模态在数字世界不太好获得,但不代表它们不重要,因为很多时候智能正是通过越来越多的模态叠加来实现的。现在数字世界讲多模态,其实还是逃不开文本、图像、视频、声音。你能让它感受到“力”吗?不太能。所以物理世界因为模态更丰富,反而可能催生出更强的智能。

第二,物理世界能拿到真实的反馈。在数字世界,任务大多是人为定义的——人给一个标准,希望模型给出某种输出。但在物理世界,很多东西是大自然定义的:比如一个苹果,你松手它一定会落地,不需要任何人定义,这是现实规律。因为有了与物理世界的连接,智能很可能能从现实里直接学习,甚至超出人为设定的损失函数或奖励函数。

基于这两点优势,物理智能的想象空间非常大。当然,目前变量太多,需要验证的东西也太多,很多因素耦合在一起,行业会先分出很多派别,但慢慢一定会收敛。



VLA和世界模型都不是终局

大家经常讨论怎么做模态融合,主要是VLA和世界模型两条路。但我想提另一个点——灵波要做通用大脑,而且是存在于物理世界的大脑,我们布局中有一个很关键、但行业很少提到的环节:空间感知能力,也有人叫空间智能

机器人生活在物理世界,输入来自各种传感器,不是简单的文字或照片。物理世界有深度、距离、力等传感器。把这些输入变成有效信息,是具身智能非常重要的一环。但现在大家更热衷于讨论最核心的那块——怎么把传感器输入变成更好的信息传给模型,反而容易忽略输入端。

我的看法是,不管最终核心模型的技术路线怎么变,从传感器输入开始更好地理解这个世界,是非常关键的。灵波在做具身大脑的过程中,很关键的一环就是从输入端开始,做好空间感知。

再回到大家最爱聊的核心部分。今年1月底我们对外讲了一些看法,两条路线我们都摸过:VLA和VA(现在也叫WAM,世界动作模型)。

我的体感是:第一,核心还是数据。不管范式怎么变,把数据摸清楚是关键能力。现在大家喜欢提数据量——几万小时、十几万小时,甚至百万小时。但只提数量不提质量是不科学的。到底什么样的数据是好数据?这很关键。

我们过去做VLA,很重要的一件事就是把数据这条路趟通——拿到一条数据,该怎么处理、该不该送给模型,这是核心链路。不管技术路线怎么演进,数据是逃不开的。

第二,我们两条路都摸了,我的判断是:两条路线都不会是终局。为什么?因为VLA和世界模型解决的是不同问题。VLA擅长人机交互,它是从多模态模型往后延伸一步,相当于多模态模型在物理世界的应用。世界模型则像视频生成模型往物理世界的应用,更擅长对未来的判断。

我觉得人类这两方面能力都具备:一方面能融合各种信息,另一方面对未来有预判,做事之前会大概想想结果会怎样。对机器人而言,这两种能力必须结合,缺一不可——不能只能预测未来却无法融合模态,也不能只能融合模态却无法预测未来。

在我看来,VLA在产业界更好落地、效率更高,所以做的人更多。但世界模型如果真能预测未来,对机器人一定有帮助。我判断,当机器人数据量积累到一定程度时,这两条路线一定会深度融合。

这种融合甚至不是像现在这样——把数字世界的模型拿来做物理应用,而是可能催生出物理世界独有的模型。这个模型从一开始就是基于物理世界更多模态设计的,专为机器人应用而生。它可能不能跟人对话,但能更好地执行任务。

总结起来还是三点:第一,物理智能离不开传感器输入的空间感知,灵波会从输入端开始,让机器人更好理解世界;第二,不管技术路线如何演进,数据是逃不开的,我们要把机器人需要的数据研究明白,甚至推动制定标准;第三,现在大家讨论的技术路线都不是终局,未来一定会有物理世界独有的模型出现。

短期看有几个变化。一是硬件会越来越收敛——不是形态收敛,而是供应链会收敛,变成模块化的东西,不再完全耦合在一起。硬件和传感器会越来越标准化。二是数据的标准也会越来越收敛。

这两点收敛后,模型层面的技术路线争论会越来越激烈。因为前两样定了,变量就在建模上。模型争论一段时间后,范式可能也会收敛。模型收敛之后,会反向推动硬件进行一次升级——那时的硬件已经不是上一代的了,而是专门为具身智能打造的下一代硬件。就像这样的周期:硬件震荡、收敛,然后模型迭代。这是可以期待的。

从产业落地角度看,也应该有一些期待。今年到明年,会有一些标杆案例让模型真正投产,不再是demo,而是投入商业应用。2-3年后,这些案例会被批量复制,越来越多产业会用到模型。之后,机器人会尝试以某种方式进入C端,可能不是所有事都能做,但能找到一个切入点。然后逐渐进入家庭,就像现在新能源车一样普及开来。

大模型的训练是一个持续过程,从GPT 1.0、2.0到3.0。但Chat为什么成为标志性时刻?因为它真正走进了千家万户,人人都能用、都能体验到。类比到具身智能,什么时候能让大部分人参与进来,那就是我认为的具身智能的ChatGPT时刻。

参与有两个层面。最直观的理解是具身智能普惠到每个人——那个可能还比较遥远。但在那之前还有一个阶段:数据阶段。就像现在大家开车,会为自动驾驶提供人类驾驶经验一样。

什么时候能有一个数据标准,让我们每天的行为都可以成为训练机器人的数据?当人人都能为机器人产生数据的时候,在我看来,那就是具身智能的ChatGPT时刻

现在已经有好多做数据的公司出来了,只是流派不同。接下来一两年,应该是做模型的公司和做数据的公司之间磨合的过程。因为数据标准一定是由模型来定义的,但模型提出的需求,硬件迭代也需要周期。经过一两年磨合,大概在2028年左右,可以期待每个人都能成为具身智能的数据提供方

灵波走的是通用大脑路线,也有一些公司比如特斯拉,既造自己的本体,也做自己的大脑——模型专门为本体服务。机器人就像手机一样,大家不可能都用同一款,因为总有个性化诉求。所以我们比较坚定地走通用大脑模式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
割四赔五上热搜,当地书记都无可奈何,只能自掏腰包进行补偿

割四赔五上热搜,当地书记都无可奈何,只能自掏腰包进行补偿

映射生活的身影
2026-05-26 15:56:12
大润发创始人今日去世

大润发创始人今日去世

中国基金报
2026-05-26 18:02:51
山西矿难3天,荒唐的一幕发生,央媒发声,原因太令人愤怒

山西矿难3天,荒唐的一幕发生,央媒发声,原因太令人愤怒

每一次点击
2026-05-26 07:54:25
思域中国20年:为什么“视觉运动”越泛滥,思域的逻辑越成立

思域中国20年:为什么“视觉运动”越泛滥,思域的逻辑越成立

汽车商业评论
2026-05-15 13:50:12
五个副省级城市政府主要领导调整,“70后”杜旭亮任杭州市代市长

五个副省级城市政府主要领导调整,“70后”杜旭亮任杭州市代市长

上观新闻
2026-05-26 10:21:18
法国不愧是革命老区,谈及特朗普访华时,大儒辩经金句频出!

法国不愧是革命老区,谈及特朗普访华时,大儒辩经金句频出!

大又元
2026-05-26 11:54:33
黄仁勋陪父母普通小店吃饭,曾回忆:我的英文是不懂英语的母亲用字典教的

黄仁勋陪父母普通小店吃饭,曾回忆:我的英文是不懂英语的母亲用字典教的

爆角追踪
2026-05-26 09:37:26
韬定律掀的是台积电们的桌子

韬定律掀的是台积电们的桌子

智远同学
2026-05-25 21:23:45
俄威胁称准备对基辅发动大规模袭击,将会威胁到外国外交官,中方是否会自基辅撤离外交官?外交部:呼吁当事各方共同推动局势尽快降温

俄威胁称准备对基辅发动大规模袭击,将会威胁到外国外交官,中方是否会自基辅撤离外交官?外交部:呼吁当事各方共同推动局势尽快降温

极目新闻
2026-05-26 15:46:13
“想停火?先签协议” 特朗普打起新算盘

“想停火?先签协议” 特朗普打起新算盘

上游新闻
2026-05-26 14:19:02
盒马“贵妃粉耳”翻车!粉木耳配上女性剪影,网友怒批:低俗擦边

盒马“贵妃粉耳”翻车!粉木耳配上女性剪影,网友怒批:低俗擦边

乌娱子酱
2026-05-26 16:31:28
胡锡进:华为会被历史至少记住1000年,嘲讽的人让我无法理解

胡锡进:华为会被历史至少记住1000年,嘲讽的人让我无法理解

映射生活的身影
2026-05-26 02:07:09
武汉28岁孕妇失联后续:时隔10天,首位目击人发声,丈夫行为反常

武汉28岁孕妇失联后续:时隔10天,首位目击人发声,丈夫行为反常

李晚书
2026-05-26 12:04:16
里克尔梅:已敲定两名国际顶级球星,我当选他们就会加盟皇马

里克尔梅:已敲定两名国际顶级球星,我当选他们就会加盟皇马

懂球帝
2026-05-26 03:53:07
国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

国宴上桌,高层调研:一家民企密集被“看见”,什么信号?

智谷趋势
2026-05-20 17:04:05
你的公积金是什么段位?

你的公积金是什么段位?

职场资深秘书
2026-05-26 16:25:54
高峰没料到,20年前狠心抛弃的儿子,如今成为母亲那英最大的骄傲

高峰没料到,20年前狠心抛弃的儿子,如今成为母亲那英最大的骄傲

长宁区追梦影视文化传播中心
2026-05-26 13:59:57
突发:伊朗发生大规模爆炸

突发:伊朗发生大规模爆炸

扬子晚报
2026-05-26 07:46:02
由戴耳环的女支书,想到戴耳钉的李局长!

由戴耳环的女支书,想到戴耳钉的李局长!

仕道
2026-05-26 15:04:15
未来几年最清醒的活法:改变习惯,改变心态,改变系统

未来几年最清醒的活法:改变习惯,改变心态,改变系统

洞见
2026-05-25 09:41:56
2026-05-26 19:40:49
物理AI大观
物理AI大观
探物理之妙,观AI之大;智联万物,洞见未来。
2文章数 0关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

游戏
数码
手机
亲子
公开课

《马拉松》主演谈玩家批评 为何大家希望游戏失败

数码要闻

乔思伯推出ZE-120/240/360系列联体风扇,39-119元

手机要闻

2nm天玑之王稳了!vivo X500系列参数偷跑:全球首发天玑9600 Pro

亲子要闻

英语启蒙别再犹豫,别再纠结,来找悠悠聊聊

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版