硅谷2025年才转向的路线，中国团队提前1年押中了|右脑|陈凯|动作|左脑|机器人

硅谷2025年才转向的路线，中国团队提前1年押中了

2026-03-27 17:06:31　来源: 闪存猎手

北京举报

分享至

机器人学人"推"胡萝卜这件事，陈凯记了很久。

2024年底，这位前微软亚洲研究院首席研究员提出"AnthroLearning"路线时，收到的反馈是沉默。当时行业主流是让机器人"背"动作——人类戴着设备控制机械臂，录下轨迹再反复模仿。陈凯打了个比方：这相当于"手把手教猴子干活"，教洗菜、做饭、洗碗，但猴子永远不懂人类社会的常识。

他的方案是反过来的：先给猴子装大脑，让它进化成人，再学技能。

具体做法是采集人类第一视角视频。不是看机器人怎么动，而是看人怎么用手、怎么判断空间关系、怎么在失败时换策略。这种数据天然包含物理常识，就像婴儿观察父母做家务，看的不是动作轨迹，而是"杯子要轻放""抽屉拉不开时晃一晃"这类隐性知识。

转折发生在2025年5月。特斯拉宣布Optimus放弃动作捕捉，转向人类第一视角数据。随后Generalist AI、Skild AI、Physical Intelligence、NVIDIA相继跟进。陈凯和张翼博的中科大少年班同学，就在这个月创立了深度机智。

年底，他们用1000小时人类数据训出PhysBrain基座模型。测试任务是把胡萝卜放进盘子——机器人夹子碰到胡萝卜时，选择了像人一样推动，发现盘子边缘太高推不进去，主动改为夹取，一次没进，又调整角度和力度。推的动作从未出现在训练数据里，这是模型自己"涌现"的变通能力。

陈凯解释这种"智能涌现"的底层设计：TwinBrainVLA"左右脑"架构。左脑是冻结的VLM，保持开放世界理解；右脑可训练，专门处理动作策略。右脑能动态查询左脑的语义知识，但左脑参数不会被污染。结果是机器人既不会变成"只会抓杯子不懂杯子会碎"的执行机器，也不会停留在"知道要轻放但手不听使唤"的阶段。

硬件负责人何旭国为这套"大脑"设计了身体。不是市面上常见的智能眼镜方案——存储、电量、重量三者不可兼得，每增加10克对耳朵都是负担。他们最终把算力和存储外置成腰包，头部只留摄像头，画面中出现手时自动录制，消失时停止，最大程度保证数据有效性。

本体采用72自由度谐波力控关节，不通电时能自主站立。张翼博强调"谐波+同构"兼得：谐波是技术路线，同构是结构路线，要求手指长度、胳膊肘角度与人对齐。这是用人类数据学习的最佳载体。

2026年被称为"AnthroLearning元年"。深度机智计划先开源4B小模型证明可行性，数采设备已开始商业化，更大模型将开放调用，同时探索养老和教育场景。

张翼博认为中国的优势在数据：美国采集27万小时第一视角数据花费巨额成本，中国今年整个行业将达到千万小时量级，国产算力也能完全承接。"现在技术收敛了，下一步是投入信心。"

陈凯补充了一个常被忽略的细节：标注成本差异巨大。对手部轨迹建模可能只需几块钱算力，但对空间常识、任务理解的标注可能需要几百块——"这是人们习以为常的下意识行为，属于智能的'暗物质'。"

对话结束时，他提到PhysBrain在SimplerEnv测试中的一个细节：模型第一次夹取胡萝卜失败后，没有机械重复，而是顺势推了一把。这个动作从未被教过，但机器人"觉得"这样更合理。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.