3个月造出机器人大脑，硅谷2026年才想通的路|右脑|陈凯|动作|左脑

3个月造出机器人大脑，硅谷2026年才想通的路

2026-03-27 17:06:26　来源: 野生运营

北京举报

分享至

教猴子洗菜和教人类厨师的区别，陈凯在2024年底就讲清楚了，听进去的人不多。

这位在微软亚洲研究院干了十五年、主导产品年调用量千亿次的科学家，当时提出的"AnthroLearning"（人类学习）路线，收获的反馈是沉默，甚至质疑。主流做法是让机器人"背"动作——人类戴着设备控制机械臂，记录轨迹，再让机器反复模仿。陈凯的比喻很毒：这等于"手把手教猴子干活"，环境一变就露馅。

转折发生在2025年5月。特斯拉宣布Optimus放弃动作捕捉，转向人类第一视角数据；原Google DeepMind科学家创办的Generalist AI放出机器人扔积木进盒子的Demo。到年底，Skild AI、Physical Intelligence、英伟达硅谷梯队集体调头。陈凯和张翼博的深度机智，早在2025年6月就搭好了数据管线。

他们用1000小时人类第一视角数据训出的PhysBrain，做过一个经典测试：把胡萝卜放进盘子。夹子碰到胡萝卜后，它选择像人一样推——推不进去，加大力度再推，发现盘子边缘太高，主动切换策略夹取，换角度、调力度，成了。推这个动作从未出现在训练数据里。

这种"涌现"来自物理常识的注入，而非轨迹拟合。陈凯团队设计的"左右脑"架构TwinBrainVLA更刁钻：冻结的左脑保常识，可训练的右脑学动作，中间用非对称Transformer动态查询。结果是右脑学会抓杯子时，左脑还记得杯子会碎。

硬件负责人何旭国花了大力气解决数据采集。智能眼镜每增10克耳朵就抗议，他们干脆把存储、算力、通讯全外置成腰包，画面里有手才开机，没手就休眠。国内首批10万小时多模态第一视角数据就这么攒出来的，成本远低于市场均价。

做大脑的公司为什么还要造本体？陈凯的解释是：人类数据的最佳载体得是高度拟人的结构。他们研发的机器人全身72个自由度，谐波力控，不通电能自主站立——这对进工厂、进家庭意味着低能耗和高安全性。

张翼博算过账：美国采了27万小时第一视角数据，烧钱无数。中国今年整个行业就能冲到千万小时，国产算力也能接得住。技术路线一旦收敛，拼的就是投入信心和执行密度。

对话结束前，陈凯提到一个细节：PhysBrain在SimplerEnv四个全新任务上，以67.4%的成功率压过Physical Intelligence的Pi0.5，领先10个百分点。测试集里的胡萝卜，模型从来没见过。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.