网易首页 > 网易号 > 正文 申请入驻

机器人WAIC现场抢活讲PPT?商汤悟能具身智能平台让机器人「觉醒」

0
分享至

新智元报道

编辑:编辑部

【新智元导读】如今的具身智能,早已爆红AI圈。数据瓶颈、难以多场景泛化等难题,一直困扰着业界的玩家们。就在WAIC上,全新具身智能平台「悟能」登场了。它以世界模型为引擎,能为机器人提供强大感知、导航、多模态交互能力。

WAIC上,各家机器人的火爆,各位已经都见证过了。

不过现在行业遭遇的一个重大瓶颈,就是急缺数据、训练效率低,让许多机器人的性能暴涨被卡了脖子。

这样就导致目前绝大多数具身智能机器人,自主解决问题的能力还比较弱。

怎么破?商汤有解。

昨天的WAIC上,商汤的具身智能平台——悟能正式亮相!这是一场真正的炸裂革命。

你只需用一句自然语言描述场景,它就能为具身智能的训练生成符合物理规则、多视角统一、真实世界还原度极高的多视角视频。

也就是说,商汤用自己擅长的世界模型,破解了仿真数据输出的难题,赋能各种场景的机器人(和机器狗)。

想象一下,你双手紧握方向盘,脚踩油门,身临其境地穿梭在城市街头,光影变幻,七个摄像头为你构建出一个无比真实的世界。

别误会,这不是你在玩《极品飞车》,而是你在和AI一起「开悟」!

接下来的AI,将不再是工具,而是合作者、探索者、创造者。此刻,就是我们一同驶向未来的起点。

商汤「悟能」平台,为什么能为具身智能做到如此不可思议的赋能?让我们来仔细看看。

四大功能,让机器人性能再进一步

首先,机器人的一个核心问题,就是大脑VLA。很多行业的翘楚,都在这个方向推出了自己的模型。

而对于这些领域,商汤既有的能力感知和多模态,就有极大的使用空间。

比如,机器人的感知、导航、交互,以及世界模型,都能助力于机器人构造很好的VLA以及跟世界交互的可能性。

另外,商汤的大装置,还能给底层提供端侧和云侧的核心方案。

具体来说,这个平台提供了以下功能。

感知

做视觉感知,是商汤的一大强项。

不管是机器狗还是机器人都是带视觉的,一个天然视觉感知,就是对世界万物做识别和理解。

左边为机器狗的视角,右边为机器人的视角

而商汤在这部分的视觉能力,恰好就能完全嵌入到机器人的核心芯片当中,因此,在端侧就能处理好这种感知能力。

同时,它们也被赋能去识别场景中的所有物件、行人。

总之,如果在机器人行业中需要做感知,用商汤平台就再合适不过了。它适配了大量的芯片,包括提供云和端侧处理的能力。

导航

平台的第二大能力,就是视觉导航。

目前在行业中,虽然已经有了全自主的无人驾驶车,却还并未出现全自主自动驾驶的机器狗和机器人。

而商汤绝影,恰巧就在做全自主视觉的无人驾驶。

此前,这个团队已经赋能了许多车企,做端到端的智能驾驶。

这些同样的模块,也可以去适配到机器狗和机器人身上。

比如,对机器狗来说,导航就是找到一个非车道以外的、人能行驶的路径,规划好路径以后,来做好避障即可。

因此,同样的能力可以赋能各式各样不同的基础硬件。

下面展示的,便是机器狗行进的过程中,「悟能」实时为它做出的路径规划。

交互

平台的第三大能力,就是交互工具。

现场,商汤科技董事长兼CEO徐立为我们举了一个很有意思的例子——用AI生成《长安的荔枝》的PPT,然后让机器人给我们来做讲解。

这一次,机器人被调适得非常幽默,可以让我们深刻感受到,它已经从一个交互工具,演变成了一个交互伙伴。

只见这个机器人绘声绘色地做起了讲解,颇具个人风格,期间还不断爆梗:「难度大概相当于让你拿小灵通打王者荣耀,想想就知道有多虐!」

「那咱们来算一笔账,按唐朝的银子换算,一次运输得花掉今天的1000万人民币!」

注意,在这个过程中,机器人是自己翻PPT的——它很清楚地知道,自己讲解的内容是在哪一页。甚至如果我们对它提问,它还会自己翻回去。

甚至在嘈杂环境中,它也不怕被打断。即使中间你问它问题,它在讲解完后,还会记得自己的主线任务,继续往下讲。

整个过程中都体现出,这个机器人有全局记忆的能力。

甚至有趣的是,上面这个功能,还可以用到机器狗上,对于形态并没有限制。

从「开悟」,到「悟能」具身世界模型

现在,商汤「开悟」世界模型,已经可以在车里生成多视角视频。

这一点,可以说意义重大。原因在于,在虚拟世界里要生成很多数据去做交互,最关键的就是,这些数据在未来可能就是强化学习的一个基础。

而商汤在自动驾驶上,就已经做到了用一句自然语言去生成一个七视角摄像头的视频。

可以看到,它具有很好的空间一致性。(车开过不同摄像头时,它几何位置的对应,完全符合物理对空间世界的理解。)

而且,它在时序上也做到了一致性。

比如在这台车行驶的过程中,几次把车牌号拉出来一看,都能发现这个世界模型在时序上的生成是一致的。

甚至,世界模型还能做编辑。在这个过程中,可以实时做编辑替换,甚至是插入、删除现实中的车。

这部分新生成的数据,可以为AI进入现实世界,提供闭环交互训练的解决方案。

比如在自动驾驶中,「加塞场景」就是典型的长尾场景,真实数据极其稀缺,而开悟世界模型就提供了高质量的多场景数据(光照、天气、道路结构)。

最后将所有视角的视频结合,就仿佛在真实场景中开车一样。这种交互的真实感与实时性,可以说是「极品飞车」现实版了。

如今,商汤进一步把「开悟」扩展到了具身智能领域,并赋予了它一个全新的名字——「开悟智能」,简称「悟能」。

「悟能」具身世界模型,可以通过「人、物、场」,构建一个4D的真实世界。

比如下面是两张初始视角图。给出一张具身关节模型,对它下指令「在厨房区域的架子上找东西」,它就可以生成如下的视频,生成了关节模型的连续位姿。

同样,如果下指令「进入娱乐室,向右转,然后打开通往院子的门」,模型也能立刻生成下面的视频和连续位姿。

这些具身世界模型生成的内容,因为具有时空一致性,就可以从多个角度去观察。

比如动作骨架正在完成的,是一个手动切黄瓜的指令,而接下来,它就能同时生成一段「第一人称」和「第三人称」视角的机器人切黄瓜视频。

或者,一段机器人在白天的公园里跳跃的视频。同样,第一、第三人称视角都一起生成出来了。

为什么说,第一视角和第三视角相结合的世界模型如此重要呢?

要知道,机器人并不天然拥有人的直觉,也缺乏对世界的理解。而「悟能」让机器人同时拥有第一视角和第三视角相结合的世界模型后,相当于给它开了一个外挂。

这样,它不仅可以通过第一视角,通过传感器「感知」世界,捕捉到实时环境信息;还能通过第三视角开启「上帝视角」,看到人类的肢体、骨骼是如何精妙配合、完成每个动作的,相当于拥有人类动作的参考指南。

二者结合后,我们就能知道机器人看到了什么,应该做什么动作,由此,机器人真正像人一样学会了举一反三,能做更自然流畅的交互,可以做端到端的VLA了。

在以往,要靠数据采集生成这样的视频,需要花费大量的时间和精力,如今却可以飞速完成。

甚至,这个世界模型还能生成不同相机位姿的视频,因此,我们可以不限位置,把相机放在机器人的任何位置,来模拟生成符合3D关系的4D世界真实视频。

可以看到,以上这几大功能,可以让「悟能」平台赋能各式各样的机器人企业,让机器人和现实世界交互。

比如机器狗从此不会只是巡逻和跳舞,现在它可以陪着小孩放学、陪着老人散步,不仅是守护者,更是贴心的陪伴者。

因为可以导航去任何地方,它就能知道你要去哪儿,会在路上替你规避危险、应对突发,甚至还能帮你拎东西。

可以说,AI演进的十年历程,就是AI从感知世界,到理解世界,最终具备与真实世界交互的能力。

除了「悟能」平台,商汤还会构建更强的世界模型与空间智能,推动AI 迈入真正与物理世界交互的时代,实在是太令人期待了!

具身智能爆火,却卡在了数据上

具身智能赛道,现已成为全球AI核心竞争点之一。

不论是谷歌、英伟达等科技大厂,还是诸如Figure、Skilled AI等初创黑马,对此不断加码研发,冲刺万亿级市场。

然而,具身智能机器人在应对多变的现实世界,仍面临着诸多瓶颈。

这几天,英伟达杰出科学家Jim Fan对此也吐槽了一番——机器人都会跑酷和跳舞了,怎么还不能帮我遛狗呢?

他这一现象称之为,机器人领域的mini版「莫拉维克悖论」。

这恰恰说明了,具身智能领域的发展,还有很多问题等待被攻克。

传统机器人通常被设计为「专才」,针对特定人任务进行优化,缺乏应对多变任务的灵活性。

举个栗子,送餐机器人更擅长在餐厅环境中导航和递送食物,却无法在工业生产线上工作。

这种「单一技能」的模式源于机器人硬件和算法高度定制化,导致不同本体难以实现任务迁移,即我们常说的「本体泛化」。

若要解决这一挑战,核心便在于设计一个通用的「智能大脑」。

由此一来,即便是不同形态的机器人,都能共享一套算法,适应多样化的硬件平台和任务需求。

有了本体泛化还不够,具身智能如何实现「任务泛化」,是决定其能力的上限。

若要完成「冰箱取食材—切菜—烹饪—端上桌」的任务,长序列规划、跨模态理解,以及实时纠错的能力必不可少。

人形机器人Neo

当前难题是,有时因为光线变化、多步任务缺少中间状态等,机器人就会翻车。

此外,具身智能发展另一大瓶颈,也是全行业亟待解决的问题——如何实现场景泛化。

它要求机器人在不同环境中,都能准确感知、理解,并于物理世界交互。然而,场景泛化的前提,必须有高质量、多模态的数据加持。

如何获取这些数据?生成合成数据,成为了具身智能「Scaling Law」的救命稻草。

为了应对上述瓶颈,业界逐渐探索出多种技术路线,但尚未形成统一的标准。

以谷歌、Figure、Physical Intelligence为代表,他们主攻VLA(视觉-语言-动作)模型,通过语言和图像输入,直接生成动作。

另一种是「大小脑」架构,将规划和执行分离。

最后一种便是常见的「世界模型」,目标就是让机器人能够像人类一样「理解世界」。

无论是哪种技术路线,皆需要高质量多模数据为支撑。

这一次,商汤WAIC现场带来的「悟能」具身智能平台,是一个具备全栈能力的AI大脑。

不论是在感知、视觉导航,还是交互、生成多样高质数据上,「悟能」为机器人行业提供了全面的赋能。

做这件事的人,为什么是商汤?

AI刻在DNA,商汤在下一盘大棋

作为计算机领域的先行者,商汤的入局并非偶然,而是技术基因和战略眼光的必然延伸。

多年来,这家AI公司在多模态大模型、算力基础设施,以及产业生态各方面,有着深厚的积累。

在技术布局的过程中,商汤经历了从「视觉感知」到「多模态推理」的探索。

它不仅能识别棋子,还能在遮挡情况下实现精准抓取。这一突破标志着,商汤向物理世界交互的具身智能迈进。

在大模型掀起的热潮中,商汤多次迭代了「日日新大模型」,通过原生融合模态训练,在多模态推理和长思维链能力上,取得了顶尖的性能。

而且,日日新早已用在傅利叶、归墟等公司的机器人「大脑」上。

这一次,徐立又带着最新的SenseNova V6.5来了。

在多模态推理上,V6.5与Gemini 2.5 Pro不相上下;在交互性能上,多榜单刷新SOTA,并且推理成本狂降到30%。

另一方面,商汤的AI大装置SenseCore 2.0,能为其具身智能平台提供强大的算力支持。

截至2024年底,商汤大装置运营的「总算力规模」已达23,000PetaFlops。

通过预填充和解码分离等优化技术,SenseCore能提升GPU利用率和推理效率,降低了模型的部署成本。

这种端云协同架构,可以支撑从数据生产、模型训练,到仿真测试的全流程,提供了一站式解决方案。

除了底层能力的积累,商汤在生态方面也在加速布局。

商汤旗下国香资本,投资了银河通用、众擎、钛虎等多家具身智能企业,覆盖了本体、运控、关键模组等全产业链环节。

庞大的具身智能「朋友圈」,能让商汤更了解产业痛点,加速技术验证和迭代,进而反哺和优化模型算法。

在人才储备上,商汤汇聚了多位顶尖行业学者,比如深度学习与计算机领域的专家林达华、王晓刚等等。

从技术演进,到算力、生态、人才的全面布局,充分展现了商汤「三位一体」的综合实力。

具身智能的黄金时代已悄然开启,商汤「悟能」平台的发布恰逢其时。

在这场激烈的竞争中,「悟能」不仅是对商汤技术基因的延伸,更有望成为撬动具身智能「第二增长曲线」的关键支点。

未来,在智能制造、医疗护理、家庭服务等多场景中,具身智能蕴藏着万亿级市场价值。

商汤正以王者之姿,点燃具身智能的引爆点,让机器人成为所有人的「超级队友」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
古特雷斯:人民币不能成为通行货币!话音刚落,拉夫罗夫立刻回怼

古特雷斯:人民币不能成为通行货币!话音刚落,拉夫罗夫立刻回怼

海佑讲史
2026-06-02 06:45:09
电子眼抓拍有规律!记住7点,2026开车全年不扣分不被罚真的不难

电子眼抓拍有规律!记住7点,2026开车全年不扣分不被罚真的不难

沙雕小琳琳
2026-05-31 14:51:29
赛豆汽车正式成立,首款车曝光!

赛豆汽车正式成立,首款车曝光!

电动内参
2026-06-01 23:51:46
话说“割四赔五”:家有逆子,父母遭殃、弟兄蒙羞、何以解忧?

话说“割四赔五”:家有逆子,父母遭殃、弟兄蒙羞、何以解忧?

奇思妙想生活家
2026-06-02 12:57:23
快讯!关于中美日的消息!

快讯!关于中美日的消息!

故事终将光明磊落
2026-06-02 16:53:15
夫妻性生活:不怕时间短,就怕你不会“延迟”让彼此爽

夫妻性生活:不怕时间短,就怕你不会“延迟”让彼此爽

精彩分享快乐
2026-06-02 12:00:14
离谱!中山大学一寝室月用近900度电,电费573元!学生透露:学校已删账单

离谱!中山大学一寝室月用近900度电,电费573元!学生透露:学校已删账单

辉哥说动漫
2026-06-02 18:23:33
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
气温已超32度!为啥上海人顶着烈日也要排队?就为这口夏日专属“鲜味”,“吃了就觉得很爽”!

气温已超32度!为啥上海人顶着烈日也要排队?就为这口夏日专属“鲜味”,“吃了就觉得很爽”!

上海黄浦
2026-06-02 15:28:06
陈涛赢球还下课!深圳新鹏城敲定新帅,曼城集团卫星球队主帅

陈涛赢球还下课!深圳新鹏城敲定新帅,曼城集团卫星球队主帅

代古龙侃球
2026-06-02 09:56:03
武汉又一初中官宣取消火班,采取分层走班制!

武汉又一初中官宣取消火班,采取分层走班制!

华庭讲美食
2026-06-02 17:42:35
中超5队上榜全球TOP50!北京国安排第32,2升班马力压巴萨进前30

中超5队上榜全球TOP50!北京国安排第32,2升班马力压巴萨进前30

体坛鉴春秋
2026-06-02 17:25:47
比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

阿讯说天下
2026-05-26 13:40:22
42架军机接连损毁!专家:美军严重误判

42架军机接连损毁!专家:美军严重误判

鲁中晨报
2026-06-02 09:19:02
网传上海高校教师“铁饭碗”松动:备案制编制到期可无理由不续聘

网传上海高校教师“铁饭碗”松动:备案制编制到期可无理由不续聘

番外行
2026-06-02 14:30:07
巴媒:巴西队携10吨物资赴美,每到一城都会搭建医疗保障体系

巴媒:巴西队携10吨物资赴美,每到一城都会搭建医疗保障体系

懂球帝
2026-06-02 19:56:20
42死395伤!汤山血案:妒忌我生意好,老乡竟投毒毒杀早点摊众人

42死395伤!汤山血案:妒忌我生意好,老乡竟投毒毒杀早点摊众人

莫地方
2026-06-02 00:09:06
医生发现:人患肺癌前1年,身体一般会出现7个预警信号

医生发现:人患肺癌前1年,身体一般会出现7个预警信号

牛锅巴小钒
2026-06-02 17:10:58
斯诺克榜单更新!赵心童入围,成历史第12人,新赛季冲世界第1!

斯诺克榜单更新!赵心童入围,成历史第12人,新赛季冲世界第1!

刘姚尧的文字城堡
2026-06-02 11:38:39
终于知道为什么领导那么喜欢上班了,网友曝光领导抽屉都是性用品

终于知道为什么领导那么喜欢上班了,网友曝光领导抽屉都是性用品

灯锦年
2026-06-01 00:35:03
2026-06-02 21:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15368文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

准新小区数百户业主自筹1750万改造外立面 系杭州首例

头条要闻

准新小区数百户业主自筹1750万改造外立面 系杭州首例

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

房产
健康
本地
公开课
军事航空

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

违规干细胞应用,暗藏致命隐患!

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版