![]()
机器人学人"推"胡萝卜这件事,陈凯记了很久。
2024年底,这位前微软亚洲研究院首席研究员提出"AnthroLearning"路线时,收到的反馈是沉默。当时行业主流是让机器人"背"动作——人类戴着设备控制机械臂,录下轨迹再反复模仿。陈凯打了个比方:这相当于"手把手教猴子干活",教洗菜、做饭、洗碗,但猴子永远不懂人类社会的常识。
他的方案是反过来的:先给猴子装大脑,让它进化成人,再学技能。
具体做法是采集人类第一视角视频。不是看机器人怎么动,而是看人怎么用手、怎么判断空间关系、怎么在失败时换策略。这种数据天然包含物理常识,就像婴儿观察父母做家务,看的不是动作轨迹,而是"杯子要轻放""抽屉拉不开时晃一晃"这类隐性知识。
![]()
转折发生在2025年5月。特斯拉宣布Optimus放弃动作捕捉,转向人类第一视角数据。随后Generalist AI、Skild AI、Physical Intelligence、NVIDIA相继跟进。陈凯和张翼博的中科大少年班同学,就在这个月创立了深度机智。
年底,他们用1000小时人类数据训出PhysBrain基座模型。测试任务是把胡萝卜放进盘子——机器人夹子碰到胡萝卜时,选择了像人一样推动,发现盘子边缘太高推不进去,主动改为夹取,一次没进,又调整角度和力度。推的动作从未出现在训练数据里,这是模型自己"涌现"的变通能力。
陈凯解释这种"智能涌现"的底层设计:TwinBrainVLA"左右脑"架构。左脑是冻结的VLM,保持开放世界理解;右脑可训练,专门处理动作策略。右脑能动态查询左脑的语义知识,但左脑参数不会被污染。结果是机器人既不会变成"只会抓杯子不懂杯子会碎"的执行机器,也不会停留在"知道要轻放但手不听使唤"的阶段。
硬件负责人何旭国为这套"大脑"设计了身体。不是市面上常见的智能眼镜方案——存储、电量、重量三者不可兼得,每增加10克对耳朵都是负担。他们最终把算力和存储外置成腰包,头部只留摄像头,画面中出现手时自动录制,消失时停止,最大程度保证数据有效性。
![]()
本体采用72自由度谐波力控关节,不通电时能自主站立。张翼博强调"谐波+同构"兼得:谐波是技术路线,同构是结构路线,要求手指长度、胳膊肘角度与人对齐。这是用人类数据学习的最佳载体。
2026年被称为"AnthroLearning元年"。深度机智计划先开源4B小模型证明可行性,数采设备已开始商业化,更大模型将开放调用,同时探索养老和教育场景。
张翼博认为中国的优势在数据:美国采集27万小时第一视角数据花费巨额成本,中国今年整个行业将达到千万小时量级,国产算力也能完全承接。"现在技术收敛了,下一步是投入信心。"
陈凯补充了一个常被忽略的细节:标注成本差异巨大。对手部轨迹建模可能只需几块钱算力,但对空间常识、任务理解的标注可能需要几百块——"这是人们习以为常的下意识行为,属于智能的'暗物质'。"
对话结束时,他提到PhysBrain在SimplerEnv测试中的一个细节:模型第一次夹取胡萝卜失败后,没有机械重复,而是顺势推了一把。这个动作从未被教过,但机器人"觉得"这样更合理。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.