![]()
12月18日,商汤科技旗下的机器人公司——大晓机器人进行了品牌亮相。这意味着,商汤科技在具身智能领域的解决方案正式对外发布。
大晓机器人中的“大晓”源于“大千世界,晓识万象”,寓意着机器人能够洞察理解万象规律,从而学会与世界精准交互,其使命是——让每个机器人拥有“聪明的大脑”。
“大晓”也源于两位核心领军人物的名字——董事长是商汤科技联合创始人、执行董事王晓刚,首席科学家则为世界级AI科学家、澳大利亚科学院院士陶大程。
作为一个刚刚起步的团队,大晓机器人汇集了来自南洋理工大学、香港大学和香港中文大学的AI领域前沿科学家:吕健勤、李鸿升、刘子纬、潘新钢、赵恒爽、刘希慧等,他们均是全球顶尖AI实验室MMLab的核心成员,分别是环境智能、世界模型、具身模型等领域的开拓者。
基于上述科学家团队的最新科研成果,大晓机器人发布了“以人为中心”的全新具身研发范式、首个开源且商业应用的开悟世界模型3.0(Kairos 3.0),以及具身超级大脑模组A1,与行业伙伴共同构建全链自主可控、开放共赢的产业级生态体系。
![]()
在具身智能大脑的迭代上,数据面临着断崖式缺口,大晓机器人认为,目前行业采取的两种主流数据采集方案——采集员真机遥操以及以特斯拉为代表的纯视觉学习,都面临着一个共同的局限:无法真正理解世界的物理规律和人类行为的因果一致性。
因此,大晓机器人提出的全新具身研发范式,核心技术之一就是“环境式数据采集技术”,以人为中心构建数据采集体系,通过跨视角多模态设备,能够融合视觉、触觉、语音、力学规律等多维度数据,为具身智能模型训练提供 “人—物—场”的全要素数据支撑。
据大晓机器人方面介绍,在这种新范式下,一年可以实现千万小时的数据收集。与之对比的是,当前具身智能行业的真机数据量级仅为10万小时。
在即时零售仓储场景中,该方案已实现多视角的数据采集,覆盖了数万种 SKU,完成仓储分拣与打包全流程,涵盖五大阶段13个原子动作;在居家、零售等多元场景中,也已实现对人体自然行为、物品交互轨迹的精准捕捉,甚至能复现遥操作范式下难以实现的生鲜抓取、精细化放置等任务。
而以此为基础,大晓机器人也发布了首个开源且商业化应用的世界模型——开悟世界模型3.0,形成跨本体的统一世界理解框架。基于多模态信息的深度融合,模型可生成长时动态交互场景视频,为具身智能提供高保真、可泛化的虚拟训练环境。
基于上述“基础设施”,大晓机器人打造了开悟具身智能世界模型产品平台,并于12月18日正式发布。
开悟具身智能世界模型产品平台集成“文生世界、像驱世界、迹塑世界”等多模态生成能力,内置支持11大类、54细类,累计328个标签,覆盖115个垂类具身场景,开发者只需输入简单指令,就能快速生成可视化的任务模拟内容,并可一键分享,大幅降低具身智能的开发门槛。
此外,大晓机器人还推出了具身超级大脑模组A1,基于纯视觉无图端到端VLA模型,搭载具身超级大脑模组A1的机器狗无需预采高精地图即可适应复杂、动态、陌生环境。依托模型的视觉理解和运动规划能力,机器人能实现动态环境下鲁棒、安全、合理的路径生成,真正实现“自主行动”。
![]()
据悉,大晓机器人将作为软硬一体的解决方案供应商,与行业伙伴合作来共建具身智能创新生态,加速机器人商业化落地。
从商业模式上来看,大晓机器人在具身智能领域的角色,类似于华为在汽车行业的定位,既做软硬件供应商,又会深度参与到终端产品的定义和开发之中。
对此,王晓刚并未否认,他对亿欧汽车表示:提供模组还是整体的机器人,取决于行业的发展阶段,长期来看是软硬一体的设计,而大晓机器人的目标是以较低的成本输出最优的产品,真正解决用户的痛点。
以下是亿欧汽车等媒体与大晓机器人的交流纪要(有删节):
开源是为了更好的发展
媒体:与遥操数据采集或者仿真数据相比,环境式数据采集的成本能降低多少?数据的质量能提升多少?
王晓刚:一是这里涉及到硬件设备,如果是遥操,需要购买机器人,(一个)几十万,二是人力成本,我们环境式采集就不需要,可以一边工作、一边采集了,这是几倍的效率提升。更重要的是,这种方式有更好的可复制性,你不需要再雇人。比如我们在闪购仓里有工作人员,戴上我们的设备正常地做他的工作就好了。
为什么原来只有十万小时数据,今天可以达到一千万小时?因为可以有更多人参与进来。类比自动驾驶里面,特斯拉有量产车,司机一边开车一边反馈数据,而不是说再去雇一个数据采集车队。
媒体:开悟世界模型3.0开源以后,如何平衡商业化收益?
王晓刚:世界模型有两部分,一是云产品平台,这个产品的平台是云服务的,通过访问网页就可以创作各种数据,包括视频、机械臂各种参数相关的数据,这就变成了一个共享和创作的平台。
另外,开源是方便大家在这个基础上做各种软硬件的适配。就像DeepSeek开源以后,各种国产芯片对他们来讲更加方便,我们也会收益很多。
世界模型要收集越来越多的场景,我们就可以在这个过程当中得到很多反馈,帮助世界模型快速迭代。一旦开源有影响力了,在今天很重要的国产化芯片成为未来主要趋势的时候,开源会变得非常重要——
因为英伟达芯片时代,大家不再需要芯片适配,你出来的模型在英伟达芯片本来就跑得比较好,国产芯片就需要适配,谁的模型影响力大,对芯片公司的价值就会越高,你可以看到今天国产化的芯片公司,他们上市以后整个估值涨得非常高,背后就需要模型的支撑。
媒体:训练通用大脑的数据,从不同的人类到不同的场景,设备是一样的,但是取过来的数据要对应到机器人身上,有一个跨本体的gap,这怎么弥合?
王晓刚:这个范式核心的出发点是理解物理世界的规律,怎么跟环境交互。
这个世界模型有几个层次,不是一上来就单纯的用人的行为数据,底层注入了很多物理规律。我们从互联网上找到很多数据,苹果熟了以后掉到地上的描述,苹果为什么熟了以后掉到地上?背后的物理规律是什么?会有很多这方面的解释,这就为模型打下一个基础。这是为什么它会有思维链,你让它摆ACE的logo,如果你要不是理解物理规律,摆这个logo不是它见过的任务,让任何一个VLA的方式去做都做不了。
![]()
媒体:这个数据的规模要到多大?
王晓刚:我们也参考过特斯拉自动驾驶里用到数据的规模,我们要到千万小时。但是千万小时也只是采集的数据,有了世界模型还会把它再放大一个数量级,达到上亿小时。
“我们也不是一个完美的团队”
媒体:具身智能领域有不少团队是很草根的,商汤这样的大公司也入局了。您怎么看这两种不同的背景力量?
王晓刚:这是长期的赛道,需要持续创新,并不是在某一个点上突破就能成立的,这就是为什么我们这里有这些教授的团队,另外也有产业化落地经验丰富背景的团队在,他们的结合也是比较互补的。另外还需要进行规模化量产、体系化这些能力。
今天要打赢具身这场仗,在各方面都是要比较前面的。我们也不是一个完美的团队,还是有很多不足需要补强的,我们也在积极地做这件事情,关键是我们要能够知道,我们对这件事情的拼图,我们自身还是有一定的优势在,之前对行业场景的应用理解也是比较深的。
我们自己做人工智能做了11年,当客户看到我们来的时候,他们是非常期待的,他知道我们理解他应用的痛点。比如方舟平台,历史上接的都是静止的摄像头,今天有了机器人就变成移动的平台,这里面应用需求的痛点还是在那,我们一旦进入,很快就能抓住,这是我们和有商汤背景比较大的优势。
![]()
媒体:现在看具身智能,相对来说还是比较同质化的,在未来机器人行业会有功能非常强大的大模型赢家通吃,还是会有专注特定领域的细分场景机器人出现?
王晓刚:大家对机器人的期待是通用性更强,这个发展肯定是逐渐的过程,立刻就有机器人把不同领域的事情做好不太现实,如果在一个领域里做的任务尽可能通用化就很了不起了。
但是这并不妨碍在底层,他们要分享一些共同的东西,我们提到的对世界的理解、思维链、世界模型里面的这些能力具备,能让每个垂直领域都受益。
是不是一个大脑把所有事情搞定,那还是需要时间的。
工业机器人是基于物理模型、基于规则很多年积累下来做的,通用性是差一些,今天我们做的一些机器人跟工业机器人,是互补的关系。在一些柔性产线,就需要让机器人具备通用化的能力,这里面就有一定的空间,现有的工业机器人这么长时间的积累,可靠性达到百分之百,这是它的优势。
媒体:公司的供应链在哪里?作为新成立的公司融资和估值有没有什么预期?
王晓刚:在过去两年,商汤已经投了一批具身的企业,包括本体的、零部件的,有一些触觉传感器的公司,我们在这个方向上布局还是比较早的,零部件供应商这方面商汤给我们创造了比较好的条件。
今天我们的目标有几个,商业化落地,超级模组跟机器人加持以后有空间自主的能力,四足机器人从明年开始有大规模落地的可能。
未来两年像一些前置仓、零售仓储的场景里面,是有机会进行发力的,这些场景相对来说比较类似,全国也是在快速增长,明年有十几万家,其他的场景工业机器人,可复制性是难一些。
媒体:世界模型在智能驾驶领域有一点分歧,有公司在强调世界模型,也有公司在走VLA路线,同时强调强化学习。您怎么看待强化学习在机器人领域的作用?
王晓刚:这两个不矛盾,强化学习跟世界模型在自动驾驶里面本身就是结合的。但是强化学习要有一个仿真环境,这个仿真器越真实,场景越多越好,所以世界模型就是巨大的仿真器,今天不光是我们在用,像特斯拉最新在自动驾驶里面研发的路线也要用世界模型进行强化学习,这样才能够相当于学了500年的驾驶经验。
我们在具身领域也是一样,如果能有好的世界模型,就能用强化学习,所以现在你看,我展示的一个视频,在家庭的环境里面,机器人走过去打开冰箱,把里面的饮料拿出来,再找到餐桌,把瓶子盖打开,再交给人去喝水,整个链路里面不一定一下子就能成功的,这里面如果有强化学习在,这个过程当中就不断地给你反馈,这样也可以以最高效的方式解决这个问题。
做模组还是做机器人,取决于行业阶段
媒体:为什么还要做模组这种比较大的硬件出来,有点重复造轮子的感觉,为什么不做一些比较轻的东西?
王晓刚:这个出发点是,最终输出的产品需要满足场景的需求。
我们自己也是把现有行业里面的机器人买过来,看能不能满足需求,就可以看到硬件本身是存在很多缺陷的。
比如传感器的视野范围是很窄的,看不到路不知道选哪一条、过马路看不到红绿灯。
另外大家知道机器狗都有跟随功能,现在都是120度,如果出了这个范围机器狗是没有办法跟着你的,我们要做的是360度的、UWB的信号,在任何地方要走,它都能够跟随你。
所以说,第一我们要满足场景功能上的需求。
但是我们整个方案不是终点,后面还会持续迭代,包括成本会往下降。这里面芯片还是比较贵的,是不是可以找一些更便宜的、国产化芯片,另外还有怎么把功耗降下来。这是软硬一体的设计,就要跟场景有一个紧密结合。
媒体:我们在具身智能产业链中,到底是什么样的生态位?我们讲世界模型,智元也有开放平台,跟智元这样的公司是互补关系还是生态关系?
王晓刚:大晓今天还是在起点,我们跟很多公司不一样的地方,还是以产品落地进入到场景为导向,这也是基于我们过去对不同的行业和场景有理解和积累。
我们做这件事情,不是说先重复做别人的事情,比如我做一个机器狗或者人形机器人的本体,做一些demo,我们是反过来的,把机器狗拿到实际应用当中,你发现它为什么做不好,缺少大脑的模组。
但是今天即便有了模组的A1,我们机器狗本体还有很多问题。比如它的续航,包括质量,有好多机器狗不能防水,雨天出去还需要有人给它打伞。出现这些问题,成本非常高,就要重新设计机器人的本体,但是我不会重新都做,我会和生态合作伙伴一起做,一起设计,他们帮助我们来生产,包括一些关键的零部件。
媒体:听上去我们既做解决方案,也会深度介入产品定义,这听上去有点像华为的模式,如果是这样的话,我们作为供应商,又作为产品的提供者,怎么去平衡这两个角色?
王晓刚:推出来这样一个模组,大家可以想像它是一个阶段性的(方案),因为正常来说,将来的发展不应该是背着一个东西,应该是一体化的设计到机器人本体里面去。
今天你说我们的定位是什么,你提供一个模组,还是提供整体的机器人,我们要看这个行业发展是什么样的阶段,从长期来说还是软硬一体的设计。我们自己的目标,是要输出最优的产品,能够解决我们用户的痛点,而且它成本是比较低的。
媒体:进入具身智能领域,大晓重点看好的场景是哪些?未来3-5年,哪些场景会带来真实的应用和变化?
王晓刚:今天看到的机器人,目前能够规模化落地的,是一些提供情绪价值的,跳舞、打拳、表演,跟物体没有什么交互。
除此之外,我认为加了我们大脑模组以后,四足机器人在很多垂直方向会有一波大规模落地的前景,原因是硬件本身的速度相对来说比较稳定,再加上我们这些空间智能自主的能力,就跨过了工业应用的红线。
再往后两三年,我们会看到大家期待的是工业场景,商业服务里面我们看好前置仓、闪购仓,零售的增长速度是非常快的,而且相对来说比较标准化,能够规模化。
工业场景的难点在于可复制性比较差,在一个工厂做完以后复制到别的工厂很难。而且工厂数据是敏感的,自己的产线是不愿意把数据开放出去的,这就给通用化机器人带来很大的困难,有可能在这个场景里做通了,但很难再去做其他场景,商业价值不一定非常高。
五年以后,像家庭的场景是更远期的。
媒体:规模有具体的定义吗?十万台级?百万台级?
王晓刚:像前置仓的场景,中国有十几万的前置仓,未来几年还在快速增长。如果咱们的机器人能够解决前置仓的问题,一个前置仓有十个人左右,就是十万级的规模了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.