![]()
教猴子洗菜和教人类厨师的区别,陈凯在2024年底就讲清楚了,听进去的人不多。
这位在微软亚洲研究院干了十五年、主导产品年调用量千亿次的科学家,当时提出的"AnthroLearning"(人类学习)路线,收获的反馈是沉默,甚至质疑。主流做法是让机器人"背"动作——人类戴着设备控制机械臂,记录轨迹,再让机器反复模仿。陈凯的比喻很毒:这等于"手把手教猴子干活",环境一变就露馅。
转折发生在2025年5月。特斯拉宣布Optimus放弃动作捕捉,转向人类第一视角数据;原Google DeepMind科学家创办的Generalist AI放出机器人扔积木进盒子的Demo。到年底,Skild AI、Physical Intelligence、英伟达硅谷梯队集体调头。陈凯和张翼博的深度机智,早在2025年6月就搭好了数据管线。
![]()
他们用1000小时人类第一视角数据训出的PhysBrain,做过一个经典测试:把胡萝卜放进盘子。夹子碰到胡萝卜后,它选择像人一样推——推不进去,加大力度再推,发现盘子边缘太高,主动切换策略夹取,换角度、调力度,成了。推这个动作从未出现在训练数据里。
这种"涌现"来自物理常识的注入,而非轨迹拟合。陈凯团队设计的"左右脑"架构TwinBrainVLA更刁钻:冻结的左脑保常识,可训练的右脑学动作,中间用非对称Transformer动态查询。结果是右脑学会抓杯子时,左脑还记得杯子会碎。
硬件负责人何旭国花了大力气解决数据采集。智能眼镜每增10克耳朵就抗议,他们干脆把存储、算力、通讯全外置成腰包,画面里有手才开机,没手就休眠。国内首批10万小时多模态第一视角数据就这么攒出来的,成本远低于市场均价。
![]()
做大脑的公司为什么还要造本体?陈凯的解释是:人类数据的最佳载体得是高度拟人的结构。他们研发的机器人全身72个自由度,谐波力控,不通电能自主站立——这对进工厂、进家庭意味着低能耗和高安全性。
张翼博算过账:美国采了27万小时第一视角数据,烧钱无数。中国今年整个行业就能冲到千万小时,国产算力也能接得住。技术路线一旦收敛,拼的就是投入信心和执行密度。
对话结束前,陈凯提到一个细节:PhysBrain在SimplerEnv四个全新任务上,以67.4%的成功率压过Physical Intelligence的Pi0.5,领先10个百分点。测试集里的胡萝卜,模型从来没见过。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.