如果机器人只会拧螺丝,它和一把电动扳手有什么区别?
2026年初,"具身智能"被正式写入"十五五"规划纲要。政策热度之下,资本涌入、创业潮起,但清华AIR教授曹婷却抛出一个被多数人忽视的问题:真正决定这个赛道能不能落地的,不是机械臂多灵活、不是大模型多聪明,而是"物理智能体"——一种能在真实岗位上持续学习、自己变强的能力。
![]()
这位在微软研究院深耕七年、把神经网络从云端塞进手机和IoT设备的科学家,2025年夏天选择回到清华。她还计划孵化一家新公司,专注做"可以持续进化的物理智能体"。
![]()
为什么是现在?为什么是这个方向?我们和曹婷聊了聊。
从百万用户到"没人走过的路"
曹婷的职业路径,是一条从产业深处走向学术前沿的曲线。
华为、微软,两段企业研究院经历,让她完整经历了"论文想法→系统落地→百万用户使用"的全过程。「你会真切体会到,自己的工作被百万、千万用户用起来是什么感觉。」
这种训练塑造了她对技术价值的判断标准:不是发多少顶会论文,而是能不能在真实设备上稳定运行、能不能省掉百亿次云端调用、能不能保护用户隐私。
但2025年,她选择离开这条熟悉的路。
「企业研究院让我把一个清晰的问题做到极致,而接下来我更想去做那些还没有标准答案、也还没有人把路径真正走通的事情。」
具身智能的窗口期,是她判断的核心依据。「这件事正在从"想象"变成"可以做",不是五年后,是现在。」
这个判断背后,还有一个参照:清华AIR的刘云新教授。这位在微软亚洲研究院(MSRA)工作近二十年的端侧智能专家,五年前选择加入AIR。「一个在工业界深耕这么多年的人,选择把后半程放在学术研究和产业培育上,背后一定有很深的判断。」
曹婷的转向,不是逃离产业,而是把视角往前推一步——去做五年甚至十年后,国家和社会真正需要的事。
为什么"十五五"的时间点选得准?
具身智能入列国家战略,曹婷的评价很直接:「这个时间点选得非常准。」
她的判断基于一组 rarely 同时出现的条件:
机器人本体逐渐成熟,成本和稳定性改善;中国拥有全球最完整的制造业体系、最强的供应链协同能力;制造业、物流、养老、城市管理等高密度、丰富类型的真实应用场景。
「这样的组合,在别的国家并不容易同时具备。」
她把这个局面比作当年中国布局电动车:「真正重要的不是某一个单点技术,而是技术成熟度、产业基础、场景需求和政策牵引在同一个时间点形成了合力。」
而这种合力有个特点——窗口期不会持续太久。「谁能尽快把真正有价值的东西做出来,谁就有机会定义下一阶段的产业格局。」
那么,什么是"真正有价值的东西"?
工具箱 vs. 模范员工
曹婷的答案很具体:真正能在开放世界里持续进化的物理智能体。
她点破了当前赛道的尴尬现状:哪怕VLA(视觉-语言-动作模型)或者世界模型训练得很强,多数产品还是在做拧螺丝、搬运、分拣、抓取这类单点任务。
「像一个工具箱,但还不是一个真正会成长的可靠员工。」
她描述了一个理想场景:今天清管道,下一次就会记住哪里容易打滑,要动作幅度小一点、慢一点;今天打扫卫生间,下次就会记住污渍分布和台面材质,知道怎么擦更稳、更不伤表面。
「脱离工具,越来越像一个模范员工,才是具身智能目前急缺的那一块。」
![]()
这个需求背后,是物理世界与数字世界的本质差异。数字智能体面对的是稳定接口和确定规则;物理世界则充满不确定性——训练时没见过的情况每天都会出现,每台机器本体、每个场景、每次交互都不一样。
「它不能只靠预训练的模型,经验必须在真实环境里自己去摸索和持续积累,才能在自己的场景下把每台本体能力发挥好。」
这意味着,物理智能体比数字智能体更必要,也更难。难点不只是让机器做出动作,而是让它在真实交互中积累经验、形成记忆,并把这些经验转化成下一次更稳、更好的执行。
曹婷列举了一系列尚未成熟的技术问题:怎么理解物理环境,怎么表示交互经验,怎么构建长期多模态记忆,怎么形成持续进化的闭环。
「这些问题到今天都还没有成熟解法,而这正是我们提早投入、也已看到初步成果的方向。」
端侧部署:一个被低估的硬约束
物理智能体的挑战不止于算法。曹婷指出,产业侧还有一个非常具体的矛盾:真正有用的物理智能体,必须在端侧部署。
这个结论可能反直觉——数字智能体能跑在云端,为什么物理智能体不行?
三个硬约束:
延迟。机器人的输入是物理世界的连续视频、点云、传感器等多模态数据,往云端传几帧数据,十几秒可能就过去了,「根本不能支撑实时动作的生成」。
网络。很多真实场景是弱网或离网状态,比如管网清洁场景,云端依赖不现实。
隐私。无论是家庭场景还是工业场景,「用户图像敢不敢传到云端去?」
这三个约束叠加,意味着具身智能体必须在端侧跑。但端侧的算力是有限的——手机、IoT设备的计算资源,和数据中心完全不在一个量级。
「这就要求你在模型的推理效率上做到极致,不是"差不多",是真正的极致。」
这正是曹婷团队的强项。她在微软期间的核心工作,就是极致压缩模型、提升推理效率,让复杂神经网络从云端迁移到端侧。极低比特模型量化、基于查表的大模型高效推理、全帧率实时多模态大模型架构、存算一体模型加速器——这些技术积累,现在被重新指向物理智能体的端侧部署难题。
清华AIR的坐标系
回到最初的问题:为什么选择清华AIR?
曹婷的对比很清晰。企业研究院面对的问题,「往往是已经有产品基础、有用户场景、有业务重心的问题空间」;清华AIR则让她「把研究、产业和长期问题定义放在同一个坐标系里思考」。
这个坐标系的锚点,是国家层面的真实需求。制造业柔性升级、物流无人化、能源设施巡检、老龄化社会照护——「这些问题都不是靠传统自动化就能解决的,它们需要真正的物理智能。」
具身智能被写入"十五五"规划,「不是因为它是一个好听的概念,而是因为它关系到中国下一步的产业竞争力。」
曹婷的下一步,是把这套判断落地。我们独家获悉,她及团队正计划孵化一家新公司,专注于可以持续进化的物理智能体,目前仍在筹备阶段。
从微软的百万用户场景,到清华AIR的长期问题定义,再到一家新公司的起点——这条路径的选择,本身就像是对"物理智能体"概念的某种隐喻:不是执行预设指令的工具,而是在真实环境中持续学习、调整策略、积累经验的系统。
只是这一次,学习的主体变成了创业者自己。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.