网易首页 > 网易号 > 正文 申请入驻

具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了

0
分享至

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

WAIC 2025大模型论坛上,商汤科技正式发布了「悟能」具身智能平台,官宣入局具身智能。

以此为出发点,商汤科技在具身智能领域的布局也开始浮出水面。



站在这个具身智能的风口之上,商汤选择此时入局,体现了怎样的思考,其背后又有着怎样的积淀?

吸引AI头部企业、初创公司和投资者们纷纷踏足,具身智能又究竟发展到了哪一步?

在这场论坛上,这些问题的答案被一一揭开。

新型多模态模型亮相WAIC

先来看商汤发布的日日新V6.5多模态推理大模型

日日新6.5独创了图文交错思维链,跨模态推理精度显著提升。

传统的多模态推理模型,在推理之前会将图像转变成文本解读,后续的推理过程就变成了纯文本。

而在图文交错思维链当中,图像会以本体的形式参与到整个推理过程。



在这种图文混合的思考模式下,日日新6.5的多媒体推理能力在多个数据集上都超越了Gemini 2.5 Pro。



同时依托轻量Vision Encoder +和纵深LLM架构,日日新6.5相比6.0表现提升了6.99%,但推理成本只有日日新6.0的30%,综合算下来性价比提升了5倍。



随着模型能力提升,商汤在大模型落地上,就不止做“卖软件”的生意,还做“卖大脑”的生意。

从多模态模型到具身智能大脑

其实,商汤能够高调切入具身智能,是其从感知视觉、多模态,走向物理世界交互的必然结果。

商汤科技联合创始人、执行董事、首席科学家林达华认为,多模态是迈向AGI的必经之路。因此,只有能够同时“读文本、看世界、动手脚”,AI才可能真正理解并改造物理环境。

而且超过十年的行业落地经验,包括在自动驾驶领域的成功实践,也让商汤在感知、定位、轨迹规划和安全冗余等方面累积了大量真实数据与世界模型经验。

这些能力迁移到机器人等具身形态——相当于先在“会开车的大机器人”身上练兵,再扩展到泛化的移动与操作场景。

因此,商汤继「开悟」世界模型之后,发布全新「悟能」具身智能平台。一端承接日日新多模态大模型的通用能力,一端拥有打造和使用世界模型进行训练的经验,进而打造生态体系。



「开悟」世界模型背后包括商汤积累的10万3D资产,支持多视角视频生成,最多可以同时生成11个摄像头角度视频,并在长达150s的时间保持时空一致。

空间上,它可以理解遮挡、前后层级,让同一物体在不同视角下呈现一致外观。

时间上,它能够理解时序和运动规律,让物体在时间推移中保持自然连贯的变化。



并且支持参数化编辑,天气、光照、道路,以及路上的车辆,都支持一键变换。



在具身智能场景中,还可以同时处理人、物、场,构建4D的真实世界。



并且这种世界同时包含了第一和第三视角。



这样做的目的,是同时满足“机器人自己看到什么”与“人类示范动作长什么样”这两类信息的互补需求。

第一视角是机器人在真实运行时唯一能获取的感知流,它决定了模型推理时的输入分布;第三视角则能完整捕捉人类或机器人全身的姿态骨骼和环境关系,为动作意图、路径规划提供清晰标签。

将两种视角对齐训练,可以让模型学会把外部示范映射成自身可用的感觉‑动作对,一方面显著减少昂贵的遥操作数据量,另一方面提高跨机器人、跨场景的泛化能力,使同一个“大脑”既能看懂人类演示,也能在自己的相机视角下执行,从而加速具身智能落地。

基于「开悟」世界模型,商汤科技推出了「悟能」具身智能平台架构,包含感知、决策与行动等多个层次:

  • 感知层:视觉/语音/触觉多传感输入;
  • 决策层:LLM+世界模型协同规划;
  • 行动层:VLA端到端控制机械臂、移动底盘。

这一大脑,能够支持自动驾驶、机器人、机器狗等具身场景中的感知、导航、交互等功能。





在具身智能落地上,商汤选择“软硬协同”路线。目前已与众多人形机器人、物流搬运底盘厂商、家用陪伴平台等伙伴达成合作,将T模型预装进不同形态的机器人,让硬件天然具备多模态感知和推理能力。

未来,随着硬件越卖越多,回流的视觉、语音和操作数据也越丰富,进一步反哺模型迭代,形成正向的数据飞轮。

破解具身智能行业难题

除了发布新产品,商汤还在这次论坛上组织具身智能行业从业者以及学术界人士,一起探讨了具身世界模型发展的关键问题。



圆桌讨论首先聚焦的问题,依然是数据稀缺——一个具身智能从业者面临的共同痛点。

北京大学助理教授、智源学者、银河通用创始人兼CTO王鹤介绍了他的解决方案——先在虚拟环境把pick‑and‑place做到几乎与现实一致,再用少量真机样本校正长尾场景

而商汤“开悟”世界模型恰好承接了“99%”的合成任务,能够批量生成长时多摄像一致的视频。

商汤与傅利叶等伙伴合作推出的超千万数量级的机器人,则源源不断回流那关键“1%”的真实视觉、语音和操作日志,二者形成互补闭环,解决了数据从量到质的难题。

当然,数据只有“量”还远远不够,商汤联合创始人、执行董事、CTO王晓刚认为,仅有机器人本身摄像头的第一视角并不够,上帝俯瞰的第三视角能补全肢体骨骼与全局语义;只有把两种视角对齐,端到端训练才能兼顾感知与动作。

澳大利亚科学院院士、南洋理工大学教授陶大程进一步指出,第一视角不仅要看图像,还要叠加深度、惯性、力觉等多传感器流,才能完整地捕捉“感知—意图—行动”闭环

为此,商汤在世界模型中同步生成并标定第一和第三视角数据,确保时空一致,再映射回端侧传感器,让机器人既“看自己”也“学别人”,从而缩短仿真与现实之间的落差。

这一做法也契合圆桌嘉宾关于“视角一致性决定迁移效果”形成的共识。

关于模型路线的取舍,同样引发了热议。

上海交通大学人工智能学院副院长、上海穹彻智能科技创始人卢策吾认为,必须兼顾通用与场景闭环

上海市信息投资股份有限公司副总裁、库帕斯科技董事长山栋明则从投资与供应链角度呼应这一观点。他认为当下只要能把设备铺出去,真实数据自然会涌回

商汤正在验证这条“双轮”路径——多模态大模型日日新V6.5提供跨领域能力,垂直应用不断把真实反馈注入基座,驱动模型滚动升级。

综合来看,商汤通过世界模型的大规模仿真、合作硬件的真实数据回流、第一与第三视角的融合标注,以及“通用大脑 + 场景闭环”的协同演进,把数据、算法与硬件生态织成了一条自循环链。

商汤的数据飞轮已起步,正全速领跑未来赛道,将通过多模态与硬件协同,共筑具身智能护城河。

从工业到家庭,千万数量级机器人将承载这颗具身大脑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果官宣,新 Apple Store 来了!

苹果官宣,新 Apple Store 来了!

花果科技
2025-11-17 22:06:02
遭绝杀!利物浦1.3亿双星哭成泪人 已无缘世界杯40年 比国足还惨

遭绝杀!利物浦1.3亿双星哭成泪人 已无缘世界杯40年 比国足还惨

我爱英超
2025-11-17 07:45:51
国防部:已向美方提出严正交涉!

国防部:已向美方提出严正交涉!

新京报
2025-11-17 21:45:58
突传消息!知名男演员表演时突然倒地,抢救无效去世

突传消息!知名男演员表演时突然倒地,抢救无效去世

福建卫生报
2025-11-16 18:31:23
印军官:当中国武力解放台湾,印度不仅要夺取西藏,还要吞噬新疆

印军官:当中国武力解放台湾,印度不仅要夺取西藏,还要吞噬新疆

近史博览
2025-09-22 15:47:35
南昌籍演员邓超,冲上热搜!

南昌籍演员邓超,冲上热搜!

动物奇奇怪怪
2025-11-17 00:30:11
白天陪玩晚上陪睡?明码标价8000一次!高端伴游沦为色情交易温床

白天陪玩晚上陪睡?明码标价8000一次!高端伴游沦为色情交易温床

阿纂看事
2025-08-29 15:46:57
2000年到2043年大学毕业人数天梯

2000年到2043年大学毕业人数天梯

微微热评
2025-11-13 09:58:24
山西长治反杀案新细节曝光:法院公布当晚视频,刀上DNA曝玄机,消失的剪刀成谜

山西长治反杀案新细节曝光:法院公布当晚视频,刀上DNA曝玄机,消失的剪刀成谜

冬天来旅游
2025-11-16 14:01:38
Shams:莫兰特右小腿一级拉伤,两周后再做评估

Shams:莫兰特右小腿一级拉伤,两周后再做评估

懂球帝
2025-11-18 02:45:06
2025年国内艾滋病数据三大指标报警,男同交友软件Blued全线下架

2025年国内艾滋病数据三大指标报警,男同交友软件Blued全线下架

道术意义
2025-11-16 07:33:56
中央定调未来5年,2026年养老金或将继续调整,企退能涨80元吗?

中央定调未来5年,2026年养老金或将继续调整,企退能涨80元吗?

甜柠聊史
2025-11-17 16:11:50
俄媒:一旦中美在台海开战,中方要是不能调动民间力量,将必败无疑!

俄媒:一旦中美在台海开战,中方要是不能调动民间力量,将必败无疑!

荷兰豆爱健康
2025-11-14 14:58:41
金一南曾发表观点:如果战争来了,一大批“办公室将军”将被淘汰

金一南曾发表观点:如果战争来了,一大批“办公室将军”将被淘汰

文史旺旺旺
2025-11-13 21:42:07
闻泰科技,扭转乾坤!

闻泰科技,扭转乾坤!

飞鲸投研
2025-11-11 18:52:27
一旦开启武统,大陆和台湾谁先垮?柯文哲:大陆恐怕撑不过两周。

一旦开启武统,大陆和台湾谁先垮?柯文哲:大陆恐怕撑不过两周。

明月文史
2025-10-10 12:23:09
为啥礼让行人变成必须让了?网友:礼让是宣传,必须让是法律规定

为啥礼让行人变成必须让了?网友:礼让是宣传,必须让是法律规定

解读热点事件
2025-10-25 00:20:03
葛曼棋退赛,陈妤颉11秒10夺金,创亚洲青年纪录,吃惊全场

葛曼棋退赛,陈妤颉11秒10夺金,创亚洲青年纪录,吃惊全场

犟种美食
2025-11-18 00:40:17
中年人失业后:你绝对想不到的真实现状!

中年人失业后:你绝对想不到的真实现状!

特约前排观众
2025-11-17 00:10:03
中国6G突传捷报!外媒感叹步步领先,全球试验网首次实现通智融合

中国6G突传捷报!外媒感叹步步领先,全球试验网首次实现通智融合

南宗历史
2025-11-17 08:43:13
2025-11-18 03:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
11691文章数 176331关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

该聊聊琉球问题了 日本国内集体破大防

头条要闻

该聊聊琉球问题了 日本国内集体破大防

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

教育
本地
旅游
数码
军事航空

教育要闻

课后延时服务引发诸多矛盾,该考虑取消了!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

旅游要闻

三亚发布“四张清单” 全场景守护旅游旺季玩海安全

数码要闻

铭瑄AMD B850 / X870主板新品确认对未来处理器支持

军事要闻

韩国提议举行朝韩军事会谈

无障碍浏览 进入关怀版