网易首页 > 网易号 > 正文 申请入驻

自变量:具身模型不是把DeepSeek塞进机器人

0
分享至



编辑|张倩

国内具身智能,接下来可能是「大脑」的战场了。

2026 开年,自变量机器人传出融资消息,字节、红杉出手,融资额达到 10 亿。虽然自变量是一家软硬一体的公司,但这场融资背后,真正说服投资人的可能是他们对于机器人「大脑」的思考。

和之前的 locomotion(移动)、navigation(导航)战场不同,「大脑」所主导的 manipulation(操作)涉及频繁的物理世界交互,随机性、不确定性充斥着每一个看似简单的任务。这也是为什么,在我们看了多年的机器人跳舞、跑酷、玩杂技之后,机器人在自主操作上依然没有拿出一个技惊四座的 demo。而这个「自主操作」,才是决定机器人能否大规模走入人类世界的关键。

在自变量看来,「操作」这类任务的复杂性决定了,机器人必须有一个由「物理世界基础模型」所支撑的「大脑」。这个「大脑」不是像很多人想的「把 DeepSeek 塞进宇树」那么简单,它不是 AI 模型的「应用层」,而是独立、平行于语言大模型、多模态模型等虚拟世界模型的新范式。

对于这个新范式应该是什么样子、如何去打造,自变量已经有了一套体系化的方法论,并且自研出了一些成果。这些大胆的尝试,或许会为具身智能领域带来新的变量。

具身智能 ≠ AI 模型下游应用

我们知道,最近几年机器人「大脑」的进化主要还是依赖语言模型和多模态模型。于是很多人就认为,具身智能是 AI 模型的一个应用方向。但自变量 CEO 王潜曾在多个场合强调,这个定位存在偏差。

举例来说,图中有两个矿泉水瓶,一个瓶盖拧紧,一个没有完全拧紧。只靠视觉去看,它们在图像里差别很小,但一旦把它们拿起来、翻转或倾倒,结果却完全不同 —— 一个会漏水,一个不会。



物理世界里真正关键的信息,往往就藏在这些「看不出来但会影响行为」的细节中。这些差异只有在与世界发生真实交互时才会暴露出来,而不是静态观察就能轻易判断。

更重要的是,这类信息往往并不会在当下立刻给出反馈。比如拧瓶盖这个动作本身,并不会产生任何可见变化,真正的差异要等到下一步、甚至再下一步操作时才显现出来。对模型来说,这意味着它必须能够把一连串感知、动作和结果在时间上串联起来理解,而不是只处理某一帧画面、某一个瞬间的输入输出。

这正是物理世界对智能提出的一个隐性要求:模型不仅要能感知,还要能处理足够长的行为序列,理解因果是如何在时间中逐步展开的。否则,它就永远学不会那些「现在看不出来、但之后会出问题」的物理规律。

而在很多真实任务中,问题甚至不只是时间跨度变长这么简单。机器人往往需要在行动之前,对未来进行某种形式的推演。比如在倒水之前,它需要判断瓶子会不会漏;在整理桌面之前,它需要决定先拿走什么、再放回什么。这类判断并不是对当前状态的直接反应,而是对「接下来会发生什么」的内部演算。

也正因为如此,单纯依赖静态信息训练出的语言模型或多模态模型,在物理世界里往往显得力不从心。它们并不真正理解「拧紧」和「没拧紧」在物理后果上的差别,也难以应对充满连续变化、随机扰动和部分不可观测的现实环境。

在自变量看来,这并不是靠给现有模型打补丁就能解决的问题,而是指向了一个更底层的结论:我们需要一种「生于物理世界、用于物理世界」的基础模型。这种模型应当与语言模型、多模态模型平行存在,而不是作为它们的下游应用。自变量的目标,正是要打造这样一个基础模型。

构建物理世界基础模型——

要端到端、要做通才模型

要打造这个模型,自变量认为有两点非常重要:

一是要有一个统一的架构,因为真正的物理智能需要的是整体性的、具身的理解,而不是模块化的知识拼接。

举个例子,人类在使用锤子时,注意力不在「这是一个锤子」「锤子有多重」,而是在木头、钉子和要完成的目标上。锤子作为一种工具,会被纳入行动本身,在认知中「隐退」。但对于现在很多机器人来说,情况恰恰相反,每一次使用工具,它们都要重新经历一整套流程:看见这是锤子,理解锤子的用途,规划怎么用,再执行动作。自变量认为,这种方式永远无法达到人类那种直觉的工具使用境界。

归根结底,这种局面是把模型拼接起来的分层架构所带来的 —— 视觉模块先把世界压缩成向量,语言模块再接手理解,规划模块再根据语言输出动作。一套流程下来,模块之间彼此「看不见」「听不见」对方真正关心的东西。每跨一次模块,细节、关联和物理直觉都会被削掉一层。这就像把一幅油画描述给盲人,再让盲人转述给聋人。

这就不难解释,为什么自变量从成立第一天就是「端到端」路线的坚定信徒。他们看到的是这一路线的底层逻辑:信息必须在一个统一的空间里流动,系统才能发现不同东西之间深层的关联。早期,这一选择饱受质疑,但如今,Google Robotics、Physical Intelligence 等头部具身智能团队也都走到了这条路上。

二是模型要足够通用,因为只有这样才能学到物理世界的共性结构。

这条路已经被语言模型走过一遍。大家发现,相比于最初针对单一任务分别做专用模型,把翻译、问答、写作、推理等任务放进同一个模型里,反而能让模型学到更底层的逻辑和常识。物理世界也是一样,当模型同时学习足够多、足够杂的任务,它会被迫去发现这些任务背后的共性结构 —— 物理规律、物体属性、因果关系。一旦掌握了这些共性,模型学新任务所需的数据量就会骤降,甚至出现「涌现」。

提到语言模型,它的成功其实还有一个常被忽视的关键:它找到了一个极好的损失函数 —— 预测下一个词。这个看似简单的目标,能够把海量文本中的结构、逻辑、常识全部压缩进模型里。

但机器人面对的是一个更复杂的局面,它的损失函数应该预测什么?

自变量认为,不能只停留在「预测动作」。如果只预测动作,模型很容易沦为一个「模仿者」,它只学会了手势的形状,却不懂得背后的原因。真正的突破口在于:将损失函数从「动作预测」升级为「多模态状态的预测」。

当模型试图预测「如果我推倒这个杯子,下一秒视觉画面会如何变化、指尖的触感会如何消失」时,它实际上是在强迫自己理解因果律,把物理世界的复杂性压缩进模型里。

这也解释了为什么自变量的 WALL-A 模型不只输出动作。它还能用语言和人对话,能根据图片重建三维环境,能像世界模型一样预测未来。这些能力看似五花八门,但背后的逻辑是一致的:如果一个模型真正理解了物理世界,它就应该能用各种方式表达这种理解,无论是控制机械臂,还是描述它在做什么,还是预测物体会怎么滚动。在这个模型身上,我们已经能够看到自变量所追求的物理世界基础模型的雏形。



在国内,这种活动也是非常有益的尝试,因为从语言模型发展来看,整个技术社区的发展离不开开源文化,具身智能领域也需要自己的 DeepSeek。

重走婴儿的路

物理世界没有捷径

看到语言模型的蓬勃发展,很多人可能都会思考一个问题,为什么机器人迟迟等不来它们的涌现时刻?

一个可能的答案是:语言本身就是一种高度压缩的符号系统,人类已经用几千年的时间把世界的复杂性「预处理」成了文字。模型要做的,只是学会这套现成的编码规则。但物理世界没有这样的捷径。重力、摩擦、碰撞、形变,这些规律从未被谁显式地写下来,它们散落在每一次交互的细节里。

这也意味着,物理世界基础模型的构建,某种程度上是在重走人类婴儿的路。物理世界基础模型要学的,是那些人类「做得出但说不清」的东西,这可能才是智能更本源的形态。

这条路注定漫长,也足够迷人。而自变量正走在这条路上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌晨,全线暴跌!超22万人爆仓!金银、美股,巨震

凌晨,全线暴跌!超22万人爆仓!金银、美股,巨震

中国经济网
2026-01-30 10:38:05
哪些酷刑是人类意志不能承受的?网友:人彘就是早期的感官剥夺!

哪些酷刑是人类意志不能承受的?网友:人彘就是早期的感官剥夺!

解读热点事件
2025-11-19 00:05:05
深夜里的金属风暴:从大涨到跳水只隔一小时 金价单日波动500美元 白银+4%→-8%

深夜里的金属风暴:从大涨到跳水只隔一小时 金价单日波动500美元 白银+4%→-8%

财联社
2026-01-30 00:04:17
英国评中越战争:中国不是“教训”越南,是复仇,复什么仇?

英国评中越战争:中国不是“教训”越南,是复仇,复什么仇?

正观历史
2025-11-27 15:30:02
还八百就八百,你可知八百精兵意味着什么?

还八百就八百,你可知八百精兵意味着什么?

小豫讲故事
2026-01-28 06:00:07
新华社:多地中小学取消期末统考,释放什么信号?

新华社:多地中小学取消期末统考,释放什么信号?

澎湃新闻
2026-01-29 16:56:04
欧联杯排位赛收官:维拉贝蒂斯罗马进前8,葡超强势

欧联杯排位赛收官:维拉贝蒂斯罗马进前8,葡超强势

体坛周报
2026-01-30 08:43:22
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
西部排名又变了:湖人爆冷惨败,快船双喜临门,2队排名互换

西部排名又变了:湖人爆冷惨败,快船双喜临门,2队排名互换

篮球大视野
2026-01-29 15:31:48
真相大白!广东男篮五连胜CBA排名第一原因曝光,杨铭亮相新岗位

真相大白!广东男篮五连胜CBA排名第一原因曝光,杨铭亮相新岗位

曹说体育
2026-01-29 15:39:04
这可能是中日经济的最后一战,中国两张王牌,日本或将塌方式溃败

这可能是中日经济的最后一战,中国两张王牌,日本或将塌方式溃败

小嶯说故事
2026-01-28 20:39:45
2月开始,水逆退散,贵人支持,赚钱顺遂,幸福看得见的生肖

2月开始,水逆退散,贵人支持,赚钱顺遂,幸福看得见的生肖

毅谈生肖
2026-01-30 10:15:15
台最新民调出炉,蒋万安碾压民进党;新竹县陷僵局,郑丽文很头疼

台最新民调出炉,蒋万安碾压民进党;新竹县陷僵局,郑丽文很头疼

起喜电影
2026-01-30 03:07:21
金晨早前开车视频被翻出,现在一看,怪不得当时白敬亭反应这么大

金晨早前开车视频被翻出,现在一看,怪不得当时白敬亭反应这么大

东方不败然多多
2026-01-30 01:24:51
白宫新闻发言人宣称,又有20多国加入“和平委员会”,中方已表态

白宫新闻发言人宣称,又有20多国加入“和平委员会”,中方已表态

阿七说史
2026-01-29 10:12:39
夫妻性生活的那些“坑”:几个姿势,既累又伤身!

夫妻性生活的那些“坑”:几个姿势,既累又伤身!

精彩分享快乐
2026-01-30 00:05:03
曼联续约马奎尔最大阻碍曝光,拉爵嫌他太老!签大内维斯已不可能

曼联续约马奎尔最大阻碍曝光,拉爵嫌他太老!签大内维斯已不可能

罗米的曼联博客
2026-01-30 09:51:19
什么是愚蠢?哲学的五个扎心真相

什么是愚蠢?哲学的五个扎心真相

听哲学
2026-01-10 21:44:02
一次“被迫”的迁移:用了22年Windows,微软把我变成了Linux用户

一次“被迫”的迁移:用了22年Windows,微软把我变成了Linux用户

CSDN
2026-01-29 18:23:22
美国政府又“停摆”?特朗普发声!黄金、白银再爆发!

美国政府又“停摆”?特朗普发声!黄金、白银再爆发!

证券时报e公司
2026-01-30 08:13:06
2026-01-30 11:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12219文章数 142552关注度
往期回顾 全部

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

头条要闻

两名公民在本土死于联邦执法人员枪下 特朗普"退缩"了

头条要闻

两名公民在本土死于联邦执法人员枪下 特朗普"退缩"了

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

汽车要闻

全面科技化 新款梅赛德斯-奔驰S级发布

态度原创

房产
健康
教育
数码
艺术

房产要闻

跨海高铁,四大新机场,G98扩容…封关元年,海南配套大爆发!

耳石症分类型,症状大不同

教育要闻

关于开展2026中小学教师数字素养与技能提升活动(EOC)作品征集的通知

数码要闻

“存储荒”将愈演愈烈?行业人士敦促消费者抢先购买手机、电脑

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

无障碍浏览 进入关怀版