具身智能最缺的不是机器人，是会成长的员工|模态|智能体|神经网络

具身智能最缺的不是机器人，是会成长的员工

2026-04-27 21:54:34　来源: 全栈遛狗员

北京举报

分享至

如果机器人只会拧螺丝，它和一把电动扳手有什么区别？

2026年初，"具身智能"被正式写入"十五五"规划纲要。政策热度之下，资本涌入、创业潮起，但清华AIR教授曹婷却抛出一个被多数人忽视的问题：真正决定这个赛道能不能落地的，不是机械臂多灵活、不是大模型多聪明，而是"物理智能体"——一种能在真实岗位上持续学习、自己变强的能力。

这位在微软研究院深耕七年、把神经网络从云端塞进手机和IoT设备的科学家，2025年夏天选择回到清华。她还计划孵化一家新公司，专注做"可以持续进化的物理智能体"。

为什么是现在？为什么是这个方向？我们和曹婷聊了聊。

从百万用户到"没人走过的路"

曹婷的职业路径，是一条从产业深处走向学术前沿的曲线。

华为、微软，两段企业研究院经历，让她完整经历了"论文想法→系统落地→百万用户使用"的全过程。「你会真切体会到，自己的工作被百万、千万用户用起来是什么感觉。」

这种训练塑造了她对技术价值的判断标准：不是发多少顶会论文，而是能不能在真实设备上稳定运行、能不能省掉百亿次云端调用、能不能保护用户隐私。

但2025年，她选择离开这条熟悉的路。

「企业研究院让我把一个清晰的问题做到极致，而接下来我更想去做那些还没有标准答案、也还没有人把路径真正走通的事情。」

具身智能的窗口期，是她判断的核心依据。「这件事正在从"想象"变成"可以做"，不是五年后，是现在。」

这个判断背后，还有一个参照：清华AIR的刘云新教授。这位在微软亚洲研究院（MSRA）工作近二十年的端侧智能专家，五年前选择加入AIR。「一个在工业界深耕这么多年的人，选择把后半程放在学术研究和产业培育上，背后一定有很深的判断。」

曹婷的转向，不是逃离产业，而是把视角往前推一步——去做五年甚至十年后，国家和社会真正需要的事。

为什么"十五五"的时间点选得准？

具身智能入列国家战略，曹婷的评价很直接：「这个时间点选得非常准。」

她的判断基于一组 rarely 同时出现的条件：

机器人本体逐渐成熟，成本和稳定性改善；中国拥有全球最完整的制造业体系、最强的供应链协同能力；制造业、物流、养老、城市管理等高密度、丰富类型的真实应用场景。

「这样的组合，在别的国家并不容易同时具备。」

她把这个局面比作当年中国布局电动车：「真正重要的不是某一个单点技术，而是技术成熟度、产业基础、场景需求和政策牵引在同一个时间点形成了合力。」

而这种合力有个特点——窗口期不会持续太久。「谁能尽快把真正有价值的东西做出来，谁就有机会定义下一阶段的产业格局。」

那么，什么是"真正有价值的东西"？

工具箱 vs. 模范员工

曹婷的答案很具体：真正能在开放世界里持续进化的物理智能体。

她点破了当前赛道的尴尬现状：哪怕VLA（视觉-语言-动作模型）或者世界模型训练得很强，多数产品还是在做拧螺丝、搬运、分拣、抓取这类单点任务。

「像一个工具箱，但还不是一个真正会成长的可靠员工。」

她描述了一个理想场景：今天清管道，下一次就会记住哪里容易打滑，要动作幅度小一点、慢一点；今天打扫卫生间，下次就会记住污渍分布和台面材质，知道怎么擦更稳、更不伤表面。

「脱离工具，越来越像一个模范员工，才是具身智能目前急缺的那一块。」

这个需求背后，是物理世界与数字世界的本质差异。数字智能体面对的是稳定接口和确定规则；物理世界则充满不确定性——训练时没见过的情况每天都会出现，每台机器本体、每个场景、每次交互都不一样。

「它不能只靠预训练的模型，经验必须在真实环境里自己去摸索和持续积累，才能在自己的场景下把每台本体能力发挥好。」

这意味着，物理智能体比数字智能体更必要，也更难。难点不只是让机器做出动作，而是让它在真实交互中积累经验、形成记忆，并把这些经验转化成下一次更稳、更好的执行。

曹婷列举了一系列尚未成熟的技术问题：怎么理解物理环境，怎么表示交互经验，怎么构建长期多模态记忆，怎么形成持续进化的闭环。

「这些问题到今天都还没有成熟解法，而这正是我们提早投入、也已看到初步成果的方向。」

端侧部署：一个被低估的硬约束

物理智能体的挑战不止于算法。曹婷指出，产业侧还有一个非常具体的矛盾：真正有用的物理智能体，必须在端侧部署。

这个结论可能反直觉——数字智能体能跑在云端，为什么物理智能体不行？

三个硬约束：

延迟。机器人的输入是物理世界的连续视频、点云、传感器等多模态数据，往云端传几帧数据，十几秒可能就过去了，「根本不能支撑实时动作的生成」。

网络。很多真实场景是弱网或离网状态，比如管网清洁场景，云端依赖不现实。

隐私。无论是家庭场景还是工业场景，「用户图像敢不敢传到云端去？」

这三个约束叠加，意味着具身智能体必须在端侧跑。但端侧的算力是有限的——手机、IoT设备的计算资源，和数据中心完全不在一个量级。

「这就要求你在模型的推理效率上做到极致，不是"差不多"，是真正的极致。」

这正是曹婷团队的强项。她在微软期间的核心工作，就是极致压缩模型、提升推理效率，让复杂神经网络从云端迁移到端侧。极低比特模型量化、基于查表的大模型高效推理、全帧率实时多模态大模型架构、存算一体模型加速器——这些技术积累，现在被重新指向物理智能体的端侧部署难题。

清华AIR的坐标系

回到最初的问题：为什么选择清华AIR？

曹婷的对比很清晰。企业研究院面对的问题，「往往是已经有产品基础、有用户场景、有业务重心的问题空间」；清华AIR则让她「把研究、产业和长期问题定义放在同一个坐标系里思考」。

这个坐标系的锚点，是国家层面的真实需求。制造业柔性升级、物流无人化、能源设施巡检、老龄化社会照护——「这些问题都不是靠传统自动化就能解决的，它们需要真正的物理智能。」

具身智能被写入"十五五"规划，「不是因为它是一个好听的概念，而是因为它关系到中国下一步的产业竞争力。」

曹婷的下一步，是把这套判断落地。我们独家获悉，她及团队正计划孵化一家新公司，专注于可以持续进化的物理智能体，目前仍在筹备阶段。

从微软的百万用户场景，到清华AIR的长期问题定义，再到一家新公司的起点——这条路径的选择，本身就像是对"物理智能体"概念的某种隐喻：不是执行预设指令的工具，而是在真实环境中持续学习、调整策略、积累经验的系统。

只是这一次，学习的主体变成了创业者自己。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

具身智能最缺的不是机器人，是会成长的员工

DeepSeek V4上线三天，第一批实测出来了

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

人类马拉松"破二"新纪元，一场跑鞋军备竞赛

黄杨钿甜为“耳环风波”出镜道歉：谣言已澄清

Meta 140亿收购Manus遭中国发改委否决

不那么小众也可以 smart的路会越走越宽

态度原创

小姨又给妹妹买了好多衣服，姐做兼职给你买

LPL又一超级强队诞生！S赛冠军复出豪取六连胜，小局12-0一场不败

轻薄本迎来骁龙时刻！华硕推出三款万元AI PC，太精准了

你绝对想不到，摄影能让她成为女神！

云游中国｜逛世界风筝都 留学生探秘中国传统文化

坐在特朗普身边亲历枪击案的女记者身份非常不一般

坐在特朗普身边亲历枪击案的女记者身份非常不一般

云游中国｜逛世界风筝都留学生探秘中国传统文化