网易首页 > 网易号 > 正文 申请入驻

一场需要耐心的长期主义竞赛 具身智能业内激辩三大核心问题

0
分享至

来源:市场资讯

(来源:每日经济新闻)

11月20日下午,在智源2025具身开放日上,在多位技术负责人参与的BAAI具身模型会客厅讨论中,关于具身智能未来的共识远少于分歧。

世界模型是不是核心,具身智能是否会收敛到统一架构,语言是否应该退居次要,动作模型如何设计,数据从哪里来⋯⋯每一个问题都仍在探索之中。

但《每日经济新闻》记者注意到,另一种更深层的共识正在形成——具身智能的真正竞争不在概念,而在长期投入、真实落地与数据质量。

未来几十年,当机器人在真实世界中创造价值、积累经验、形成反馈时,或许才能孕育出具身智能的“ChatGPT时刻”。在此之前,这仍是一场需要耐心的长期主义竞赛。


图片来源:主办方供图

世界模型是万能钥匙?

当讨论具身智能的关键路径时,世界模型总是被提及,与世界模型的结合是不是未来具身智能发展的关键?

这个问题随着世界模型概念的模糊化,而在业内产生分歧。

北京大学助理教授、银河通用创始人王鹤认为,“世界模型”一词最早来自强化学习领域,指的是根据当前状态与所采取的动作,预测下一步状态变化的动力学模型。然而,在Sora等视频生成模型出现后,世界模型概念逐渐向用视频生成未来倾斜,这让它与具身智能所需的能力发生了偏移。

王鹤认为,视频生成模型并不能直接作为具身智能的通用解决方案。原因在于,机器人与人的身体差异巨大,即使训练出一个能想象人类如何操作世界的视频模型,也不能保证它对机器人同样有效。即便是当下最像人的人形机器人,其动作空间、灵巧度和执行方式都与人类存在不小差距,看起来像人做事,不等于机器人学会了做事。

但王鹤同时强调,对未来进行预测是具身智能不可缺少的一环,机器人必须能够根据未来目标倒推当前动作,并对环境变化保持前向与后向的推理能力。因此,具身世界模型是必要的,但它必须根植于真实机器人数据,才能有真正属于机器人的世界模型诞生。

智源研究院院长王仲远认可世界模型对具身智能未来发展的重要性。他指出,当下业界对世界模型并无统一定义。“如果世界模型仅仅指视频生成(Video Generation),那显然不够。”真正对具身智能有意义的是能够根据过去的时空状态,准确预测“下一时刻状态”,并据此规划动作的模型,这种预测是基于前序的时空状态和现场环境上下文,进而给出的精准决策。

王仲远举例称,自己回答问题时,要基于前一位嘉宾的发言内容以及现场环境,做出“拿起话筒”这一决策。这才是机器人需要的世界模型,不仅仅是生成几秒钟后的画面,而是要基于对环境的理解,给出一个准确的步骤动作和响应。

具身智能会否收敛到统一架构?

在大语言模型时代,Transformer架构(一种基于自注意力机制的神经网络架构)一统天下。具身智能领域是否会收敛到一个统一的架构?是否会出现属于机器人的“具身Transformer”?

中国科学院大学教授赵东斌给出了一种可能性。他表示,目前Transformer在具身智能领域的应用已经带来了显著的性能提升,例如近期Physical Intelligence发布的π*0.6模型,利用强化学习获取数据链,能够在叠衣服、装盒子等多个任务中实现通用。他认为,随着技术演进,模型架构可能会收敛到单一模型,或者呈现多样化但核心统一的态势。

此外,大部分嘉宾则对于技术路线的收敛持认可态度。在此基础上,如果具身智能最终会收敛到一个统一架构,那么这个“具身Transformer”的技术路径在哪里?

招商局集团AI首席科学家张家兴认为,当下大模型的发展逻辑难以直接迁移到具身智能。“过去三年形成的LLM(Large Language Model,大语言模型)与VLM(Vision-Language Model,视觉语言模型)等结构,是以语言为中心,而语言在人类执行动作时并不参与。”他举例称,人类开车时不会在大脑中不断语言化动作指令,因此语言作为中间层的VLA架构(视觉语言动作模型,Vision-Language-Action),其本质与机器人需要的结构不一致。

张家兴提出,具身智能需要一个完全属于机器人自身的智能结构,而不是从现有VLA体系延展出来的产物。现阶段,他认为真正的具身架构还未出现,业界正在等待一个来自基础大模型领域的突破性创新,类似当年Transformer论文那样。这种创新将有可能弱化语言在模型中的中心地位,让模型以行动和视觉作为驱动核心。

与张家兴的视角类似,清华大学助理教授、星海图联合创始人赵行认为,视觉是世界上最通用的感知传感器,具身智能的基础模型应当遵循生物进化规律:先有运动和视觉,最后才诞生高级语言智慧。因此,理想的模型顺序应该是Action First(动作优先),然后Vision(视觉),最后Language(语言)。

赵行强调了一个关键差异:具身模型是一个闭环系统。语言模型是一问一答的开放系统,而具身模型需要“动作—反馈—再次动作”的实时循环,其核心是持续的环境交互。它必须从世界反馈中修正自己的策略,而不是完成一次思考后给出单一答案。

智元机器人合伙人、首席科学家罗剑岚在此基础上进一步扩展了闭环系统的结构组成。他认为,未来一定会出现闭环一致的“具身Transformer 系统”,但未必是单一模型,而更可能是由视觉(V)、语言(L)、动作(A)等模块共同构成的系统。“VLA 的趋势是对的,但最终形态不会是今天这个样子。”真正的质变可能需要等到具身智能互联网形成,即成千上万台机器人在真实场景中解决具体问题,累积海量数据后,才能催生出真正的统一系统。

在架构探索之外,动作输出端的不成熟也是当下具身智能无法收敛的重要原因。王鹤指出,目前行业在动作输出上尚未收敛,存在大量基于概率匹配的方法,这类方法虽然适合处理连续变量,但为端到端的深度强化学习埋下了隐患,如何对概率模型应用策略更新是尚未解决的问题。

王鹤认为,短期内行业需依赖仿真环境和合成数据来探索动作优先的架构,因为目前全球仅有约一千台人形机器人在运行,数据量远不足以支撑新架构的探索。“长期来看,地球上人形机器人的数量必须保持长期高速增长,只有这样,它们的能力才能同步提升,而反过来,能力的增长又会进一步推动数量增长,最终才能孕育出真正强大的模型。”

自变量创始人、CEO王潜则认为,是否叫Transformer并不重要,Transformer 更像盖楼的钢筋,真正决定楼是什么样子的,是建筑的结构设计。他强调,物理世界充满了语言和图像无法描述的精细摩擦与接触过程,因此必须建立一个独立于虚拟世界的、能够描绘复杂物理过程的基础模型。“可能十年后或者是五年后,可能反而是我们从物理世界中收集到的数据来做出来的多模态模型,反过来吞噬今天的一些基础模型。”

突破跨域数据瓶颈一定要用真实数据吗?

无论是否收敛到一个统一模型,对所有具身企业而言,一个共识正在形成:如果具身智能要走到“ChatGPT时刻”,必须先解决数据问题。

张家兴团队选择“高质量+低成本”的路线,以真实物理世界的探索数据为基础,并通过低成本的人类采集来构建数据金字塔的中间层,试图以最高效的方式夯实数据地基。

赵行则提出了数据采集的三个维度:真实性、多样性和规模化。他强调必须以真实机器人的素材为起点,且不能局限于实验室,必须深入真实场景。罗剑岚同样坚持真实数据路线,他认为,靠遥控操作采集数据只是起步,未来必须依靠大量部署在真实环境中的机器人,在自主交互中产生广泛数据,形成自我反馈和提升的闭环。

王仲远主张利用互联网上的海量视频数据作为基座模型的学习来源,这类似于人类儿童通过看视频认识世界。在此基础上,再通过真机采集的数据进行强化学习和反馈,不断精进能力。

但亦有真实数据之外的探索路径。

王鹤在讨论中提到,全球规模化运行的人形机器人可能仅在千台级,甚至更少,如此小的机器人人口,远不足以支撑一个动作优先的基础模型。

王鹤认为,短期内行业必须依赖模拟环境与合成数据,这会比受限于真实机器数量的方式发展得更快。但长期来看,只有当机器人数量进入指数级增长,数据才可能形成正反馈循环,推动模型与能力共同演进。

加速进化创始人、CEO程昊认为,数据瓶颈的破解是一个螺旋上升的过程。目前极速进化多使用仿真数据以求速度,目标是为了让机器人具备落地能力,从而在真实场景中收集数据。当真实数据遇到瓶颈时,再回退到仿真环境中进行针对性训练。“机器人落地创造价值,价值驱动规模,规模反哺模型。”

在海量数据需求之外,王潜认为,自变量什么数据都在用,只是侧重点不同。互联网数据用于学习通用常识,仿真数据用于导航和探索,而真实的物理接触数据则是核心壁垒。

王潜提到,根本在于所有类型的数据都可以被利用,但真正的挑战在于:处理好任何单一类型的数据都相当困难。这背后涉及大量核心的工程问题,也正是团队日常工作的重点所在,同时这些难题也构成了行业的技术壁垒。

一个清晰的现实浮现出来:具身智能的未来并非由某一种技术突破决定,而是取决于架构创新、真实世界落地、机器人数量增长与高质量动作数据积累是否能同时发生。具身智能的发展路径比语言模型时代更复杂,也更漫长。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈永贵说:毛主席和周总理百年之后,只有邓小平能支撑中国

陈永贵说:毛主席和周总理百年之后,只有邓小平能支撑中国

华人星光
2025-12-30 11:37:53
5人反穿鳌山最新!2人身亡1人坠崖,救援队曝猛料,一点也不无辜

5人反穿鳌山最新!2人身亡1人坠崖,救援队曝猛料,一点也不无辜

游者走天下
2026-01-06 15:38:50
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
省委书记不打招呼、直奔现场

省委书记不打招呼、直奔现场

新京报政事儿
2026-01-06 22:37:08
马杜罗卫队确实殊死抵抗,不过却是古巴人,最终阵亡了32人

马杜罗卫队确实殊死抵抗,不过却是古巴人,最终阵亡了32人

战风
2026-01-05 11:45:55
2026年4款全新MPV曝光:零跑将推“半价MEGA”,吉利华为有新品

2026年4款全新MPV曝光:零跑将推“半价MEGA”,吉利华为有新品

蜗牛车志V
2026-01-07 10:53:12
呼吁美军抓普京,泽连斯基话音刚落就失联了?后方基地被炸成火海

呼吁美军抓普京,泽连斯基话音刚落就失联了?后方基地被炸成火海

书纪文谭
2026-01-07 13:35:39
分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

娱说瑜悦
2026-01-06 17:28:42
被司晓迪点名后,“一言不发”的张一山,终不再顾及所谓的体面

被司晓迪点名后,“一言不发”的张一山,终不再顾及所谓的体面

查尔菲的笔记
2026-01-05 20:53:02
20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

元哥说历史
2026-01-05 07:45:02
杨利伟“成名”背后:妻子做出巨大牺牲,女儿已离世

杨利伟“成名”背后:妻子做出巨大牺牲,女儿已离世

老特有话说
2025-12-14 17:53:35
她是国家一级演员,享正军级待遇,离异后至今单身,67岁依然美丽

她是国家一级演员,享正军级待遇,离异后至今单身,67岁依然美丽

老谢谈史
2025-12-16 14:59:41
0.9分0.7板!真没油了!再见,马刺

0.9分0.7板!真没油了!再见,马刺

篮球教学论坛
2026-01-07 13:22:46
广东今日早报!朱芳雨回购徐昕,徐杰最新伤情,麦考尔主动请战

广东今日早报!朱芳雨回购徐昕,徐杰最新伤情,麦考尔主动请战

多特体育说
2026-01-07 06:20:03
血管堵塞的真凶是肉?是糖?都不是,而是它,比肥肉伤 10 倍!

血管堵塞的真凶是肉?是糖?都不是,而是它,比肥肉伤 10 倍!

神奇故事
2025-12-18 22:10:05
CBA拿到10000分有多难?31年来历史仅5人,王治郅差312分,姚易呢

CBA拿到10000分有多难?31年来历史仅5人,王治郅差312分,姚易呢

兵哥篮球故事
2026-01-07 11:09:47
进口头孢西力欣涨价30倍!国内已停供2年,医生称非理性囤货没必要

进口头孢西力欣涨价30倍!国内已停供2年,医生称非理性囤货没必要

红星资本局
2026-01-06 19:35:05
0:4+0:11惨败!21岁陈熠多哈赛硬仗掉链子,冲冠遇考验

0:4+0:11惨败!21岁陈熠多哈赛硬仗掉链子,冲冠遇考验

阿晞体育
2026-01-07 12:23:07
林良锋:有一个人可救曼联,但曼联看不明白

林良锋:有一个人可救曼联,但曼联看不明白

体坛周报
2026-01-07 13:47:21
女子攀爬江苏一景区野道不慎坠崖?官方回应:事发点不到2米高

女子攀爬江苏一景区野道不慎坠崖?官方回应:事发点不到2米高

半岛晨报
2026-01-05 21:00:03
2026-01-07 14:12:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1941364文章数 5183关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

外媒披露美国在委内瑞拉下个目标:系马杜罗关键盟友

头条要闻

外媒披露美国在委内瑞拉下个目标:系马杜罗关键盟友

体育要闻

全明星次轮票数:东契奇票王 詹皇超KD升西部第8

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

50万亿存款"洪流"将至 四大去向引关注

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

房产
本地
旅游
艺术
军事航空

房产要闻

海珠双冠王!中交天翠以强兑现力+生活温度,筑就长期主义产品

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

旅游要闻

黄山雪霁现雾凇云海奇观

艺术要闻

David Grossmann:不一样的风景画

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版