网易首页 > 网易号 > 正文 申请入驻

让城市成为生命体:酷哇发布WAM 2.0世界模型,剑指RoboCity终局

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

Scaling Law在物理世界失灵了吗?

大模型重塑数字世界之后,物理AI成为了下一个征途。

但在自动驾驶之后,通用机器人正面临着一道前所未有的工程天堑——

真实物理世界开放、连续且强因果约束,任务高度多样、交互对象不可穷举、失败成本极高。

行业正达成新共识:

Scaling Law依然有效,但仅靠堆砌真实数据已触及天花板

要实现规模化进化,通用机器人必须在行动前具备“理解、推演并评估物理世界”的能力。

于是,世界模型(World Model),以及进一步的环境与动作统一建模架构——World-Action Model(WAM),正在成为物理AI的关键基础设施。

作为具身智能领域的代表性玩家,由上海交大系技术“双子星”——何弢博士与廖文龙博士联手掌舵的酷哇科技(Coowa),近期发布了其核心技术底座——COOWA WAM 2.0世界模型

这次升级标志着机器人开始从“动作复现”转向“规划推理”,完成了从模仿者向思考者的跃迁。



模仿学习的尽头:为什么“闭环数据”不够用了?

过去十年,深度学习的成功主要建立在“大规模真实数据驱动的自监督学习”之上,GPT系列正是这一范式的典型代表。

然而,如果将这一逻辑迁移到机器人领域,却可以发现一个尴尬的分布外(OOD)陷阱。

语言系统的词汇与语法规则虽然庞大,但终究是有限的,新样本大多落在既有的语义流形之内。而物理世界截然不同——状态与交互的组合近乎无限,且动作的后果无法仅由历史共现模式推断

在这样的系统中,仅依赖真实数据的模仿学习存在一个致命的数学缺陷:累积误差(Cumulative Error)

在长序列的多步决策中,微小的状态预测偏差或动作执行误差,会随着时间和环境反馈被不断放大。

这导致系统迅速偏离训练数据的分布,进入模型从未见过的“未知区域”。一旦进入该区域,机器人行为失稳甚至灾难性失效便不可避免。

更由于物理世界的不可逆性,我们无法像训练AlphaGo那样在真实世界中进行无限次的试错。高质量交互数据采集成本高、长尾场景(Corner Case)复现难,构成了物理AI的“数据长城”。

因此,通用机器人必须引入反事实推演(Counterfactual Reasoning)能力——即机器人在执行动作之前,在脑海中预演“如果我这样做,世界会变成什么样”。



这正是World-Action Model (WAM)存在的意义。

范式重构:从“感知-执行”到“推演-决策”

传统的机器人系统遵循“感知(Perception)→ 策略(Policy)→ 控制(Control)”的线性链路。

这种设计的局限在于,系统无法内在建模动作的潜在后果,本质上是一种高维的“条件反射”。



酷哇科技的COOWA WAM 2.0带来的是一种系统级的范式升级,它是一个可学习的神经模拟器,通过统一建模以下三大元素,实现了可推演的决策能力:

  • 世界状态:可观测的环境与对象表征;
  • 动作候选:机器人自身与他体的可能行为;
  • 状态-动作-结果:统计关联与因果演化。

在这一架构下,机器人不再盲目行动,而是基于对世界的理解进行“思想实验”。



硬核拆解:COOWA WAM 2.0的四大技术支柱

为了实现上述能力,COOWA WAM 2.0在工程上构建了四大核心模块,巧妙地融合了“快思考(直觉)”与“慢思考(推理)”。

1、基于语义的表征学习 (Semantic Representation Learning)

——机器人的视觉皮层

低层的像素信息难以直接用于决策,机器人需要理解画面背后的语义。

该模块利用图像-文本对齐(Masking + 对比学习)技术,提取高层语义特征。



它将纷繁复杂的视觉输入,映射为可理解、可计算的环境表征(Latent Representation)

这不仅解决了感知信息过载的问题,更为后续的直觉系统和推理系统提供了统一、可迁移的感知基础,实现了跨任务与跨场景(如从环卫车到人形机器人)的泛化能力。



2、基于视频生成的未来预测 (Video-based World Dynamics Prediction)

——物理世界的推演沙盒

这是世界模型的核心。

该模块通过对环境状态序列建模,学习物理规律、对象交互和场景演化模式,有点类似于Sora的视频生成能力,但它更专注于动力学的一致性

通过自监督预测训练,它能生成未来可能的动态场景,为机器人提供一个零成本的虚拟试验场

在这里,机器人可以前瞻性地评估动作后果,从而规避现实中的风险,极大降低了累积误差的影响。

3、直觉行动系统 (Intuition-driven Action Generator)

——系统1:快速响应的第一感

在开放环境中,机器人不能对每一个动作都进行耗时漫长的逻辑搜索。

直觉行动系统扮演了“系统1”的角色。



它基于环境的高维表征和模仿学习习得的经验规律,不依赖逐步搜索,而是直接利用直觉模型预测潜在动作结果,快速并行生成多组动作候选

这使得机器人即便在面对突发状况时,也能基于经验生成合理的应对方案,保证了响应的实时性。



4、VLM宏观约束 (Vision-Language Model Constraints)

——系统2:因果逻辑的守门员

直觉系统虽然快,但容易产生幻觉或违反长期目标。

此时,需要VLM(视觉语言大模型)介入,扮演“系统2”的角色。

在COOWA WAM 2.0中,VLM不直接生成底层的连续控制信号(因为不够精准),而是承担宏观规划与因果约束

  • 宏观因果约束:将任务目标转化为高层约束,防止低层动作产生危险。
  • 动作筛选与优化:在直觉系统生成的候选动作库中,VLM根据常识和物理逻辑进行“剪枝”和“优选”。

这种“直觉生成+VLM约束”的互补架构,既保证了机器人动作的快速反应,又确保了决策符合人类意图与物理常识。

从WAM到Robo City,构建物理世界的“新基建”

COOWA WAM 2.0的出现,标志着通用机器人正在从“单一技能模型”走向“通用认知底座”。

但在酷哇科技他们看来,技术架构的完成度只是第一步,商业系统的鲁棒性才是检验物理AI是否成熟的终极标准。

得益于COOWAWAM 2.0带来的极高泛化能力与低边际部署成本,酷哇科技打破了具身智能领域长期存在的“定制化陷阱”和“难以规模化”魔咒。这一技术突破直接转化为强劲的市场表现:目前,公司已手握50亿元订单,并在全球50多个城市及地区实现常态化运营。

更具里程碑意义的是,酷哇近期宣布其已率先实现年度EBITDA(息税折旧摊销前利润)回正,证明了其通用机器人已从依靠资本输血的科研原型,蜕变为具备自我造血能力和商业确定性的工业级产品。



在这一商业基石之上,酷哇正在构建一个被称为“Robo City”的未来城市图景。

在酷哇的构想中,未来城市中的数万台异构机器人将由一个个孤立的个体,跃升为通过WAM共享同一个“世界认知”的智能集群,具体包括以下组成部分:

  • L4级无人小巴(Coobus):在城市微循环中高效接驳,打通出行的“最后一公里”;
  • 城市管家机器人:穿梭于CBD与公园,化身为流动的智能交互终端,基于人流热力图主动寻找需求,实现“货找人”的动态商业闭环;
  • 泛具身服务机器人:在无人商超与园区内部,自主完成货架盘点、补货,以及跨楼层的物资垂直流转。

它们共同构成了一套覆盖全城的物理智能体网络(Physical Agent Network),像水电网一样,成为维持现代城市高效运转的新型基础设施



万台通用机器人重构现实,WAM在沙盒中推演未来,物理AI才真正迎来了属于它的高光时刻。

酷哇科技,不仅是这套新基建的定义者,更是跑在最前面的破局人。

真是酷哇~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国犹太人资本巨头贝莱德,已经全面渗透中国市场

美国犹太人资本巨头贝莱德,已经全面渗透中国市场

素颜为谁倾城人
2026-02-05 08:01:11
字节英伟达都在给员工发这个「最有面的中产水果」?“cos成费列罗比6J车厘子贵多了”

字节英伟达都在给员工发这个「最有面的中产水果」?“cos成费列罗比6J车厘子贵多了”

Vista氢商业
2026-02-05 17:19:21
今日6场中日死磕!王楚钦卫冕之路开启,孙颖莎遇克星,全是硬仗

今日6场中日死磕!王楚钦卫冕之路开启,孙颖莎遇克星,全是硬仗

老牛体育解说
2026-02-05 11:11:21
“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

妍妍教育日记
2026-02-04 19:09:07
1988年,我军在老山截获越南绝密电报,求救信息令首长大吃一惊

1988年,我军在老山截获越南绝密电报,求救信息令首长大吃一惊

南书房
2026-02-03 15:55:03
生吃解毒,熟吃润肺!正大量上市,10元5斤,每天吃一点,作用大

生吃解毒,熟吃润肺!正大量上市,10元5斤,每天吃一点,作用大

阿龙美食记
2026-02-02 22:44:49
讣闻|《东方体育日报》记者龚哲汇因病离世,年仅31岁

讣闻|《东方体育日报》记者龚哲汇因病离世,年仅31岁

深蓝财经
2026-02-05 09:27:39
刘强东妹妹辞世九载,妹夫未再婚独养三子,刘强东每年赠百万元

刘强东妹妹辞世九载,妹夫未再婚独养三子,刘强东每年赠百万元

阿晪美食
2026-02-05 17:36:31
活了30年才知道,这些“反人类”生活物品的正确用法!以前可真傻

活了30年才知道,这些“反人类”生活物品的正确用法!以前可真傻

抠搜侠
2026-01-28 15:18:39
热身赛:U19国青1-0乌兹别克斯坦U19,贾伟伟制胜球

热身赛:U19国青1-0乌兹别克斯坦U19,贾伟伟制胜球

懂球帝
2026-02-05 18:47:16
广东省委领导班子用一整天时间召开民主生活会

广东省委领导班子用一整天时间召开民主生活会

南粤女声
2026-02-05 12:09:21
我娶了县长痴呆25年的女儿,晚上我准备打地铺,她说:不许睡地上

我娶了县长痴呆25年的女儿,晚上我准备打地铺,她说:不许睡地上

千秋文化
2026-01-05 22:15:53
蔚来真盈利了!第四季度经营利润7至12亿元

蔚来真盈利了!第四季度经营利润7至12亿元

不看车bukanche
2026-02-05 19:31:29
收到利好消息,高市早苗瘪嘴笑,日本右翼:中国将不得不放她一马

收到利好消息,高市早苗瘪嘴笑,日本右翼:中国将不得不放她一马

议纪史
2026-02-04 17:55:03
一位专家称2025年牛市中,赚钱的账号是18.9%,大概有80%的人亏损

一位专家称2025年牛市中,赚钱的账号是18.9%,大概有80%的人亏损

风风顺
2026-02-05 15:04:40
梅婷“骑马持枪”戏在全网火了,张国荣的话,终于有人信了

梅婷“骑马持枪”戏在全网火了,张国荣的话,终于有人信了

世鑫的笔记
2026-02-03 14:02:37
周总理劝陈云去见林彪,陈云推说不知住址,这梁子算是结下了?谁也没想到,15年后替林彪争功劳的,竟然还是这个连门都不肯进的人

周总理劝陈云去见林彪,陈云推说不知住址,这梁子算是结下了?谁也没想到,15年后替林彪争功劳的,竟然还是这个连门都不肯进的人

历史回忆室
2026-02-04 23:02:06
郎平也没想到,当年留给前夫在美国长大的女儿,如今成了她的骄傲

郎平也没想到,当年留给前夫在美国长大的女儿,如今成了她的骄傲

冷紫葉
2026-01-29 19:10:32
月薪3万,春节住不起汕头亚朵

月薪3万,春节住不起汕头亚朵

旅界Pro
2026-02-05 08:35:37
平型关战日军辎重队伤亡惨重,因队藏五百精兵且六千援军将至

平型关战日军辎重队伤亡惨重,因队藏五百精兵且六千援军将至

唠叨说历史
2026-01-26 15:07:49
2026-02-05 20:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12116文章数 176371关注度
往期回顾 全部

科技要闻

美团7.17亿元收购叮咚买菜

头条要闻

普京计划上半年对中国进行访问 外交部回应

头条要闻

普京计划上半年对中国进行访问 外交部回应

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

谢娜明年开演唱会:带老歌出来见见人

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

健康
手机
时尚
教育
亲子

耳石症分类型,症状大不同

手机要闻

消息称某厂天玑9500性能机测试0815±X轴马达

新年专场|| 你们都找我要链接的好物,这次终于补货了

教育要闻

阿联酋:以高等教育国际化破解人才瓶颈

亲子要闻

袋鼠妈妈陷“孕妇过敏”风波,宣称“准孕妇可用”打擦边球?

无障碍浏览 进入关怀版