网易首页 > 网易号 > 正文 申请入驻

具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了

0
分享至

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

WAIC 2025大模型论坛上,商汤科技正式发布了「悟能」具身智能平台,官宣入局具身智能。

以此为出发点,商汤科技在具身智能领域的布局也开始浮出水面。

站在这个具身智能的风口之上,商汤选择此时入局,体现了怎样的思考,其背后又有着怎样的积淀?

吸引AI头部企业、初创公司和投资者们纷纷踏足,具身智能又究竟发展到了哪一步?

在这场论坛上,这些问题的答案被一一揭开。

新型多模态模型亮相WAIC

先来看商汤发布的日日新V6.5多模态推理大模型

日日新6.5独创了图文交错思维链,跨模态推理精度显著提升。

传统的多模态推理模型,在推理之前会将图像转变成文本解读,后续的推理过程就变成了纯文本。

而在图文交错思维链当中,图像会以本体的形式参与到整个推理过程。

在这种图文混合的思考模式下,日日新6.5的多媒体推理能力在多个数据集上都超越了Gemini 2.5 Pro。

同时依托轻量Vision Encoder +和纵深LLM架构,日日新6.5相比6.0表现提升了6.99%,但推理成本只有日日新6.0的30%,综合算下来性价比提升了5倍。

随着模型能力提升,商汤在大模型落地上,就不止做“卖软件”的生意,还做“卖大脑”的生意。

从多模态模型到具身智能大脑

其实,商汤能够高调切入具身智能,是其从感知视觉、多模态,走向物理世界交互的必然结果。

商汤科技联合创始人、执行董事、首席科学家林达华认为,多模态是迈向AGI的必经之路。因此,只有能够同时“读文本、看世界、动手脚”,AI才可能真正理解并改造物理环境。

而且超过十年的行业落地经验,包括在自动驾驶领域的成功实践,也让商汤在感知、定位、轨迹规划和安全冗余等方面累积了大量真实数据与世界模型经验。

这些能力迁移到机器人等具身形态——相当于先在“会开车的大机器人”身上练兵,再扩展到泛化的移动与操作场景。

因此,商汤继「开悟」世界模型之后,发布全新「悟能」具身智能平台。一端承接日日新多模态大模型的通用能力,一端拥有打造和使用世界模型进行训练的经验,进而打造生态体系。

「开悟」世界模型背后包括商汤积累的10万3D资产,支持多视角视频生成,最多可以同时生成11个摄像头角度视频,并在长达150s的时间保持时空一致。

空间上,它可以理解遮挡、前后层级,让同一物体在不同视角下呈现一致外观。

时间上,它能够理解时序和运动规律,让物体在时间推移中保持自然连贯的变化。

并且支持参数化编辑,天气、光照、道路,以及路上的车辆,都支持一键变换。

在具身智能场景中,还可以同时处理人、物、场,构建4D的真实世界。

并且这种世界同时包含了第一和第三视角。

这样做的目的,是同时满足“机器人自己看到什么”与“人类示范动作长什么样”这两类信息的互补需求。

第一视角是机器人在真实运行时唯一能获取的感知流,它决定了模型推理时的输入分布;第三视角则能完整捕捉人类或机器人全身的姿态骨骼和环境关系,为动作意图、路径规划提供清晰标签。

将两种视角对齐训练,可以让模型学会把外部示范映射成自身可用的感觉‑动作对,一方面显著减少昂贵的遥操作数据量,另一方面提高跨机器人、跨场景的泛化能力,使同一个“大脑”既能看懂人类演示,也能在自己的相机视角下执行,从而加速具身智能落地。

基于「开悟」世界模型,商汤科技推出了「悟能」具身智能平台架构,包含感知、决策与行动等多个层次:

  • 感知层:视觉/语音/触觉多传感输入;
  • 决策层:LLM+世界模型协同规划;
  • 行动层:VLA端到端控制机械臂、移动底盘。

这一大脑,能够支持自动驾驶、机器人、机器狗等具身场景中的感知、导航、交互等功能。

在具身智能落地上,商汤选择“软硬协同”路线。目前已与众多人形机器人、物流搬运底盘厂商、家用陪伴平台等伙伴达成合作,将T模型预装进不同形态的机器人,让硬件天然具备多模态感知和推理能力。

未来,随着硬件越卖越多,回流的视觉、语音和操作数据也越丰富,进一步反哺模型迭代,形成正向的数据飞轮。

破解具身智能行业难题

除了发布新产品,商汤还在这次论坛上组织具身智能行业从业者以及学术界人士,一起探讨了具身世界模型发展的关键问题。

圆桌讨论首先聚焦的问题,依然是数据稀缺——一个具身智能从业者面临的共同痛点。

北京大学助理教授、智源学者、银河通用创始人兼CTO王鹤介绍了他的解决方案——先在虚拟环境把pick‑and‑place做到几乎与现实一致,再用少量真机样本校正长尾场景

而商汤“开悟”世界模型恰好承接了“99%”的合成任务,能够批量生成长时多摄像一致的视频。

商汤与傅利叶等伙伴合作推出的超千万数量级的机器人,则源源不断回流那关键“1%”的真实视觉、语音和操作日志,二者形成互补闭环,解决了数据从量到质的难题。

当然,数据只有“量”还远远不够,商汤联合创始人、执行董事、CTO王晓刚认为,仅有机器人本身摄像头的第一视角并不够,上帝俯瞰的第三视角能补全肢体骨骼与全局语义;只有把两种视角对齐,端到端训练才能兼顾感知与动作。

澳大利亚科学院院士、南洋理工大学教授陶大程进一步指出,第一视角不仅要看图像,还要叠加深度、惯性、力觉等多传感器流,才能完整地捕捉“感知—意图—行动”闭环

为此,商汤在世界模型中同步生成并标定第一和第三视角数据,确保时空一致,再映射回端侧传感器,让机器人既“看自己”也“学别人”,从而缩短仿真与现实之间的落差。

这一做法也契合圆桌嘉宾关于“视角一致性决定迁移效果”形成的共识。

关于模型路线的取舍,同样引发了热议。

上海交通大学人工智能学院副院长、上海穹彻智能科技创始人卢策吾认为,必须兼顾通用与场景闭环

上海市信息投资股份有限公司副总裁、库帕斯科技董事长山栋明则从投资与供应链角度呼应这一观点。他认为当下只要能把设备铺出去,真实数据自然会涌回

商汤正在验证这条“双轮”路径——多模态大模型日日新V6.5提供跨领域能力,垂直应用不断把真实反馈注入基座,驱动模型滚动升级。

综合来看,商汤通过世界模型的大规模仿真、合作硬件的真实数据回流、第一与第三视角的融合标注,以及“通用大脑 + 场景闭环”的协同演进,把数据、算法与硬件生态织成了一条自循环链。

商汤的数据飞轮已起步,正全速领跑未来赛道,将通过多模态与硬件协同,共筑具身智能护城河。

从工业到家庭,千万数量级机器人将承载这颗具身大脑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

林子说事
2026-03-26 14:08:00
马上评|双双被罚,友谊赛不是“友尽赛”

马上评|双双被罚,友谊赛不是“友尽赛”

澎湃新闻
2026-03-25 16:16:26
电力人气股,涨停!9连板

电力人气股,涨停!9连板

新浪财经
2026-03-26 12:19:23
上海11连胜展最佳姿态!顶级外援激发本土球员效率,小偰成大赢家

上海11连胜展最佳姿态!顶级外援激发本土球员效率,小偰成大赢家

篮球资讯达人
2026-03-26 00:31:17
不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:32:21
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

丞丞故事汇
2026-03-26 10:43:34
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
山东“老头乐”公司起诉小米汽车,当事企业称已和解

山东“老头乐”公司起诉小米汽车,当事企业称已和解

界面新闻
2026-03-26 16:30:03
A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

明心
2026-03-26 15:15:16
多名大学校长炮轰机器人跳舞是哗众取宠

多名大学校长炮轰机器人跳舞是哗众取宠

上峰视点
2026-03-25 19:07:57
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

180视角
2026-03-26 08:43:01
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
朝鲜为何突然禁播部分中国影视作品

朝鲜为何突然禁播部分中国影视作品

东方不败然多多
2026-03-26 05:21:44
2026-03-26 18:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
房产
公开课
军事航空

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版