【探秘具身机器人】小米领投20亿押注“家庭机器人大脑”，自变量凭什么让猫和地毯不再成为难题？|算法|多模态|小米集团|知名企业

【探秘具身机器人】小米领投20亿押注“家庭机器人大脑”，自变量凭什么让猫和地毯不再成为难题？

2026-04-22 10:19:22　来源: AIZQ知穹传媒

广东举报

分享至

小米刚投了近20亿，又发布了新一代模型WALL-B，还撂下一句“35天后机器人进家庭”的狠话。今天咱们就来聊聊，这家公司凭什么敢说“让机器人告别预设脚本，真正走进你的客厅”？读完这篇，你大概就能明白，未来可能比我们想象的来得更早一些。

融资消息：一个集结了四家互联网巨头的“超级天团”

先说点大家关心的“硬通货”。据《智能涌现》独家消息，自变量已经在3月底到4月初完成了近20亿元的B轮融资，由小米战投和红杉中国联合领投。这个小米战投大家不陌生吧，这两年它在具身智能领域频频落子，从触觉传感、灵巧手到本体和模型，几乎全赛道覆盖。而小米自家的机器人CyberOne也刚刚进入工厂“实习”，主攻柔性装配。所以这次小米亲自下场领投自变量，传递的信号其实很明确：在家庭机器人这条赛道上，小米找到了自己认可的“大脑”合作伙伴。

但比小米更刺激的，是自变量背后的股东全名单。在此之前，美团、阿里、字节跳动分别在A轮、A+轮、A++轮领投或独投了自变量。也就是说，到现在为止，自变量已经成为国内唯一一家同时获得字节、美团、阿里、小米四家互联网大厂投资的具身智能企业。

一个做机器人的公司，凭什么集齐了所有互联网顶流？答案还得落到它的产品上。

核心瓶颈：机器人早就不是“手”的问题了，是“脑子”

现在大家经常刷到机器人后空翻、写毛笔字、跳舞的视频，看着很震撼，但自变量的创始人兼CEO王潜一针见血地指出了本质：这些本质上还是预设轨迹的“命令行机器人”，每一个动作都经过预先编程或遥控操作。工厂里的工业机器人也一样，一个动作可以重复一万次，每次条件都相同；但家庭环境恰恰相反，一万个动作可能每个只做一次，每次条件都不一样。

王潜在发布会上说了这么一段话，我觉得特别能反映当下的困局：“硬件已经到位了，双足、灵巧手、力控关节都很好。但大脑没有跟上。家庭环境中的每一秒都可能出现全新事件——猫何时跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力与实验室地板完全不同。”

听着是不是特别真实？这就是我们每天在家里会遇到的“随机性”。猫会突然跳上桌子，孩子会把玩具扔在完全意想不到的地方，阳光的角度会变化，地板的摩擦力也和实验室的标准地板不一样。这就是为什么至今没有一台机器人能真正做家务——不是硬件不够好，是大脑不够聪明。

重磅模型WALL-B：机器人有了属于自己的“统一内存”

既然问题出在大脑，那就从大脑改起。自变量联合创始人兼CTO王昊在发布会上详细解读了新一代模型WALL-B。

怎么理解WALL-B的突破呢？王昊用了一个非常巧妙的比喻——苹果的M1芯片。在M1之前，Mac电脑的CPU、GPU、内存都是各自独立的，数据在三个模块之间搬来搬去，每搬一次就损耗一次，性能瓶颈非常明显。苹果通过“统一内存架构”让所有处理单元共享同一块内存，性能一下子就起飞了。

WALL-B做的事情，本质上是一样的。目前的机器人行业主流方案叫VLA架构——视觉模块负责“看”，语言模块负责“理解指令”，动作模块负责“动手”。听起来分工明确对吧？但问题是，数据在这三个模块之间传来传去，视觉模块看到的丰富细节，传到动作模块时可能就只剩一个模糊的摘要了。WALL-B直接把视觉、语言、动作、物理预测等所有能力揉在一起，放在同一个网络中从零开始联合训练，消除了模块之间的边界和数据搬运损耗。

这意味着什么？最直观的一个场景：以前机器人看到杯子，需要先“看”、再“理解”、再“动手”，中间有延迟；现在它看到杯子的同时，就已经准备好伸手了。这就是WALL-B所说的“原生多模态”——不需要通过“传话”的方式在不同模块间转译信息。

除了原生多模态，WALL-B还有另外两个核心技术亮点：一个是具备物理世界“世界观”——能够感知并预测重力、惯性、摩擦力、速度等基本物理规律，利用对基本物理常识的理解来应对新场景，不需要针对每个家庭重新训练；另一个是能与世界交互并自我进化——在真实环境中完成自我迭代，无需工程师重新训练，无需人工注入新数据，无需返回实验室。

为什么是“牛奶数据”而不是“糖水数据”？

模型好不好，关键还得看数据。自变量在数据采集上走了一条很多人不敢走的路。

行业内绝大多数公司依赖实验室里采集的数据——光照恒定、物体位置固定、没有任何干扰。王昊把这个比喻为“糖水数据”，它很甜、很干净、量也大，但用这个训练出来的模型，就像在泳池里学了10年游泳的人，一丢进大海就会淹死。

而自变量选择了“牛奶数据”——真实家庭环境中采集的嘈杂、多变、充满随机性的数据。为了让模型学会应对真实世界的混乱，自变量的团队进入了超过100个志愿者的真实家庭去训练模型。有的家庭地面散落着拖鞋、快递箱、玩具和袜子，有的家庭猫会突然跳上桌子，有的家庭厨房灯光偏暖色而客厅偏冷色。这些变量在实验室里永远模拟不出来。

王昊有句话说得特别好：“这个行业最大的秘密，不是算法，不是架构，不是硬件，数据才是。这条看似最难的路，反而可能是最简单的。”

你会发现，自变量的逻辑其实特别简单：既然最终的目标是让机器人走进真实家庭，那从一开始就应该用真实家庭的数据来训练它。

35天倒计时：机器人进入真实家庭，隐私问题怎么办？

最重磅的消息来了。自变量在发布会上宣布：35天后，也就是5月25日，部署WALL-B模型的新一代机器人将首批入驻真实家庭，并公开招募首批愿意开放家庭场景的用户。

当然，机器人进家庭，隐私问题是绕不开的。王潜给出了三个明确的解决方案：一是视觉脱敏，机器人在设备端会随时打码，原始图像不离开设备，机器人看到的是处理过的去除了个人特征的场景数据；二是透明授权，用户主动按下同意键后方可开机，不存在“默认同意”；三是用途限定，绝不共享第三方，机器人只认一个主人，发现可疑指令立即锁定。

王潜也坦诚地说，当前模型仍处于“实习生”阶段，会犯错，需要远程协助，有时可能把拖鞋放到厨房，擦桌子擦到一半停下来“思考”。但它能够实现24小时不间断工作，而且每工作一天都会因新数据的产生而变得更聪明。它不是来表演的，是来生活的。

王潜曾经说，“只要进入家庭，你就可以使唤它，不需要再考虑有什么是能做的，有什么是不能做的”。这个目标，听起来像科幻，但自变量的倒计时已经开始了。

当然，我们不指望第一批进家的机器人就能完美搞定所有家务。但关键是，一旦机器人真的踏进家门开始“生活”，每天产生的新数据会驱动它飞速迭代——这是所有困在实验室里的机器人永远得不到的进化机会。

就像王昊说的，OpenAI曾经领先谷歌近两年，而在机器人领域，这种领先窗口可能会更长，达到三年以上。谁能率先把数据飞轮转起来，谁就掌握了下一个时代的主动权。

35天后的5月25日，第一批机器人即将踏入真实家庭的门口。那个瞬间，可能比我们想象中来得更安静——没有轰轰烈烈的发布会，只有一个机器人走进客厅，看着散落一地的玩具和打翻的水杯，开始它的第一份“实习工作”。而未来，就从这里开始了。

（文中图源：网络，如有侵权，请联系删除）

【近期举办的AI硬件千人峰会】

火速报名参会！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.