![]()
ROBOT INDUSTRY
当具身智能迈向通用化,核心壁垒已从硬件转向底层认知大模型与真实数据。酷哇以自研通用世界模型Coowa WAM 2.0为核心,在复杂城市场景中打通算法、终端到RaaS商业闭环,构建起“商业落地反哺AI认知”的正向数据飞轮,用物理AI重算城市服务总账。
![]()
不同于在实验室打磨参数或执着于双足行走的同行,酷哇科技有限公司(以下简称“酷哇”)联合创始人兼COO李柯宏认为,自动驾驶与具身智能正处于从专用任务系统向通用物理智能演进的关键阶段。
酷哇选择以自研通用世界模型Coowa WAM 2.0为技术底座,通过智慧出行(自动驾驶小巴CooBus)、智慧物业(轮足机器人R0、四足机器人D0)和智慧城市管家(“麒麟”“独角兽”系列)三大终端矩阵,成为业内唯一同时进驻北上广深开展常态化服务的具身智能企业,手握超50亿元订单,并率先实现经营性盈利。
1
最复杂的开放物理世界是具身智能的“最佳试验场”
![]()
当大多数机器人公司还在封闭园区或结构化道路上打磨算法时,酷哇在2016年就做出了一个在当时看来颇为大胆的决定:直接切入城市开放环境。李柯宏解释道:“我们必须找到一个能规模化落地的场景,这个场景要有足够大的量,能覆盖城市运营中各种长尾案例,同时包含非结构化和结构化场景,可以训练系统的泛化移动与泛化操作能力。”城市空间治理恰好满足了所有条件:需求明确、市场空间大、技术可迭代性强,更关键的是,这个行业很早就出现了人力缺口的拐点。
![]()
图1 酷哇科技联合创始人兼COO 李柯宏
酷哇要打造的是通用的物理AI,而物理AI的前置条件是同时满足算法、算力和数据量—前两者有方法论可解,但数据没有捷径。研发团队发现,实现泛化移动的核心在于对“Free Space”(自由可行驶空间)的精准解析,这是通往物理AGI的必经之路。只有在最复杂的开放物理世界中“摸爬滚打”,才能积累起真正驱动模型进化的高质量数据。
李柯宏强调:“今天讲机器人或自动驾驶落地,缺的就是数据语料。环卫场景下的语料恰好是非结构化的,人行道与主干道最大的差异在于结构不规则,没有车道线、‘马路牙子’等明确规则;动态参与物以人为主,更偏向机器人交互;也没有明确的交通规则。基于这三点,这类数据的多样性、丰富度都有非常大的优势。”这种在真实物理世界中积累的数据,与仿真数据有着本质区别。仿真依赖于人为定义的规则,而真实世界是无序、随机的。
李柯宏举例说:“比如,小摊小贩摆摊,铺个草垫卖瓜果,瓜果种类无穷无尽,摆放方式随机,仿真做不出来。只有尽可能覆盖所有真实数据,智能化才能实现质的飞跃,就像大语言模型一样—当数据量足够大时,智能就会涌现。”
![]()
图2 酷哇科技R0轮足机器人
正是基于这一认知,酷哇将城市服务作为核心试验场,将机器人投入到最复杂、最高频的非结构化环境中进行“压力测试”。在实际部署过程中,酷哇遇到的困难,来自对“产品”二字的重新定义。李柯宏坦言,客户对VLA、VLM以及世界模型的关注度,远低于对技术和产品具体能解决什么问题、能带来多少经济效益的关注。这要求团队在产品研发中,必须兼顾实用性、价格和长期技术延展性。
作为端侧模型驱动的物理载体,硬件需要从最底层对软硬一体进行定义并正向设计:“比如,我们的最小市政作业机器人尺寸应如何界定?辅助执行部件需要具备何种性能?底盘关节应如何根据视觉感知结果进行调校?这种对物理边界的深刻理解,正是长期浸泡在开放场景中才能沉淀出的工程底蕴。”
2
世界模型+50Pb数据,如何定义“真”智能?
![]()
当具身智能行业热议“世界模型”时,酷哇于2026年初正式发布了Coowa WAM 2.0(World-Action Model)通用世界模型底座。这一模型的核心,不是让机器人变得更会“思考”,而是让它能够在执行物理动作前深刻理解三维空间,在脑海中完成对物理定律和未来状态的亿万次预演与试错。
酷哇构建的WAM 2.0,本质上是一套类生物神经系统的双流架构。它将人类认知机理中的“快思考”与“慢思考”引入机器人的决策系统,在工程上凝练为四大技术支柱:基于语义的表征学习、基于视频生成的未来预测、直觉行动系统、VLM宏观约束。针对城市服务中低频但逻辑复杂的长尾场景—比如理解交警手势、判断倒塌树木的优先级—酷哇引入了自研的UrbanVLM,承担宏观规划与因果约束的职责。云端部署的UrbanVLM Large模型拥有320亿参数,负责全局任务编排;端侧的UrbanVLM Tiny模型则部署在机器人边缘侧,负责百毫秒级的语义风险识别。李柯宏形象地解释道:“我们系统中的VLM主要负责‘慢思考’,处理非标、复杂且非时间敏感的综合治理需求,如识别路面病害并自主上报监管部门;而本地端侧的直觉模型则负责‘快思考’,解决高频的物理交互与绝对安全问题。两者在系统层级上各司其职。”
![]()
图3 酷哇科技落地北京、上海、深圳等地
真正让酷哇的技术底座具备颠覆性能力的,是超50PB的非结构化真实世界数据集,其价值在于它全部来自真实的物理交互环境。李柯宏谈道:“我们有现成的客户和商业化空间,形成新的数据飞轮,迭代我们的通用操作算法。”在WAM 2.0的框架下,这些数据不再只是训练素材,而是构成了“反事实推演”的现实基础—模型通过学习海量的真实状态-动作-结果三元组,逐渐在潜在空间中建立起对物理规律的统计认知,从而能够在虚拟推演中生成符合物理逻辑的未来场景。
数据驱动的飞轮效应,直观反映在Coowa WAM 2.0模型的泛化能力上。“由我们世界模型驱动的开放场景机器人不需要重度部署,直接放在路上就能用,迁移后的表现也能完全复制,因为我们的数据样本已经足够多,覆盖了一线、二线、三线城市、市中心、郊区,甚至农村。”李柯宏认为,中国的道路环境和行人行为预判,对于酷哇的模型而言,已不存在任何迁移成本。
![]()
在技术架构上,酷哇巧妙地融合了“系统1”与“系统2”的分工协作。李柯宏解释道:“VLM不介入安全执行,它只处理复杂长程任务和非标低频任务。直觉模型负责本地作业和安全,比如有人突然跳到机器人前10厘米,直接触发物理制动,无需云端大模型判断。有快思考的端侧小模型在,安全就有保障。”
万台级终端部署量仅仅是通用智能的入场门槛,今年业内可能将有不止一家公司达到这一量级,这个规模的数据能够涌现出优秀的空间移动能力,但在长程精细化操作和复杂物理协同上仍需突破,距离具身智能的“GPT时刻”仍有距离。李柯宏判断:“预计在未来2~3年内,当行业率先跑通十万台规模的异构具身终端常态化作业时,交汇出的海量多模态真值数据,才有机会真正催生出通用物理AI的涌现。”
3
从“一脑多态”到通用机器人的商业闭环
![]()
当行业对双足人形机器人趋之若鹜时,酷哇却选择了更为务实的路径:轮足复合形态加高自由度机械臂,以及各类城市服务专机。李柯宏以实际产品举例,双轮或四轮移动效率更高,单臂或双臂取决于是否需要双手协作以及长程任务处理能力。“这些会精确到产品形态。但我们也在某些模块和原子执行器件上做通用设计,方便操作数据对齐。”
这种“一脑多态”的思路,使得酷哇能够用一个通用底层模型,覆盖不同物理形态的产品。李柯宏算了一笔账:“仅一个街区的综合服务,我们算下来就需要数个SKU的机器人去协同完成不同功能。如果把视角放宽到全城物理空间管理,可能需要十几二十种产品。不能指望一种硬件形态解决所有真实物理问题,就像不能用通用火箭发射所有卫星。”而支撑这一产品矩阵的,正是酷哇自研的世界模型。
![]()
图4 酷哇科技参与深圳环卫机器人大赛
酷哇很早就确立了MaaS(Mobility-as-a-Service)统包运营模式,而不是单纯卖设备。李柯宏解释道:“客户根本不关心你的自动驾驶怎么做的,他们只关心你能解决什么问题、带来多少经济性。”基于这一洞察,酷哇采取了“直接给结果”的商业模式,这种模式对全栈自研能力提出了极高要求,但也正是这种倒逼机制,让酷哇不得不持续优化模型以降低成本、提升效率。过去三五年,酷哇的复购率接近100%,客单价每年上涨,四年翻了一倍多,客户数也翻倍。
能够实现盈利的关键,在于世界模型大幅降低了边际部署成本。李柯宏指出:“我们不依靠人工预部署,而是依靠算法能力在端侧的封装,移动能力在新环境的部署成本基本为零。从数据看,公司业务规模过去三年翻了三倍,而系统维护与部署成本控制与三年前基本持平,技术毛利能完全覆盖成本。这得益于早期在底座模型上进行了大量前瞻性研发投入。”
4
RoboCity落地路径在于“全局智能”
![]()
在酷哇的长期战略规划中,其业务终局并非单一场景的智能升级,而是构建由统一世界模型驱动的“RoboCity(机器人生态城)”。在该框架下,形态各异的具身智能终端将不再作为独立信息孤岛运行,而是通过一套系统实现环境认知的全局共享与任务的实时协同。李柯宏强调,RoboCity不是创造一个全新的、只有机器人的世界,而是让物理AI自然地融入人类的日常生活。
从商业化角度看,推动RoboCity落地面临着碎片化采购方的现实挑战。街道办管人行道,城管管路网,物业管小区——面对这种多头管理的格局,酷哇如何推动他们接受统一的“城市服务总包”模式?“核心看需求。他们底层需求都一样:招工难,人力成本高,但需要拆开来看工种、工序和具体环境。我们基于这个结构性痛点,用具身智能做了大脑的解决方案,并针对不同的客户类型做了多重解决方案。”这种以需求为锚点的商业逻辑,使得酷哇能够穿透客户壁垒,将分散的采购方凝聚到统一的解决方案之下。
![]()
图5 Coobus进行城市内接驳
展望未来,李柯宏对轮足式具身智能机器人的发展寄予厚望,但同时也保持着清醒的认知:“具身智能机器人发展的意义更多是让客户在形态和交互上接受物理AI这件事。自动驾驶已经有近20年历史,接受度逐渐提高,我们能看到智驾的拐点也许已经来了,但全场景的通用泛化机器人普及仍需时间。”他认为,带有机械臂的轮足形态终端是RoboCity拼图中不可或缺的一块,解决了传统轮式机器人无法逾越台阶、路沿的地形桎梏,真正实现了“全域、全时段、全地形”的三维空间无人化服务。
“我们想做的是通用物理AI的基建提供商”。李柯宏描绘了酷哇的“三步走”战略:短期是城市空间管理,中期是工业制造,如机器人造机器人,长期进入家庭,成为消费级智能终端。“我们希望以世界模型为基础模型的大脑能参与到所有通过机器人执行的物理交互场景中,这将深刻改变未来的社会经济结构。”李柯宏谈道。
阅读更多内容,欢迎订购《机器人产业》杂志。
点击跳转!圈内人都在看的专家观点
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.