网易首页 > 网易号 > 正文 申请入驻

腾讯机器人 X × 混元视觉联合发布:HY-Embodied-0.5 开源,2B 模型刷新 22 项具身智能 SOTA

0
分享至


腾讯机器人 X × 混元视觉联合发布:HY-Embodied-0.5 开源,2B 模型刷新 22 项具身智能 SOTA 导语(The Hook)

当大多数视觉-语言模型还在「看懂图片」这件事上内卷时,腾讯已经让 AI 开始「动手干活」了。

HY-Embodied-0.5 是 Tencent Robotics X 与 HY Vision Team 联合发布的一套具身智能基础模型家族。它用 2B 参数的「小身板」,在 22 项具身相关基准测试中拿下了 16 项同规模 SOTA;用策略蒸馏技术,把 32B 大模型的多步推理能力压缩进边缘设备。更关键的是,它已经接入了真实的机器人控制链路——在 реальные physical 评估中展现出惊人的任务成功率。

这不只是一篇论文,而是一套可以直接跑起来的机器人「大脑」。

硬核科普(Tech Wiki) 什么是具身智能(Embodied AI)?

一句话定义:具身智能是指 AI 不仅能「看」和「理解」世界,还能通过物理实体(机器人)与世界交互和执行任务。

类比说明:就像一个普通人 vs. 一个会做饭的厨师——普通 AI 是能看懂菜谱的「观众」,具身智能 AI 是能拿起锅铲的「厨师」。

机器人场景:在机器人领域,这意味着 AI 需要理解 3D 空间关系、预测物体交互结果、规划多步骤动作序列,并最终控制机械臂/灵巧手完成精细操作(如插 USB、叠杯子、挂杯子)。

什么是 VLA(视觉-语言-动作)模型?

一句话定义:VLA 是将视觉感知、语言理解与机器人动作控制统一到一个模型中的架构范式。

类比说明:就像人类大脑处理「看到苹果 → 想说"这是个苹果" → 伸手去拿」的过程——VLA 模型把「看」「想」「做」三个环节串联起来。

机器人场景:传统的机器人控制依赖独立的感知模块、规划模块、执行模块,VLA 架构则用一个统一模型实现「端到端」控制,大幅简化系统复杂度。

什么是 MoT(混合专家 Transformer)架构?

一句话定义:MoT 是一种「分工协作」的 Transformer 变体,不同模态(视觉/语言)使用专门的计算路径,避免「一刀切」处理带来的效率损失。

类比说明:就像一个公司里,财务部和工程部使用不同的工具和方法处理各自的专业任务——MoT 让视觉 token 和文本 token 走「专属通道」,而不是都用同一套流程。

机器人场景:在机器人场景中,MoT 架构让模型在保持高视觉感知精度的同时,推理速度相当于传统 2B 密集模型,而实际激活参数更少、效率更高。

核心突破:HY-Embodied-0.5 深度拆解 痛点:为什么通用 VLM 搞不定机器人任务?

通用视觉-语言模型(VLM)虽然强大,但面对具身场景时有三座大山难以逾越:

关键瓶颈:

空间感知精度不足:通用 VLM 的视觉编码器在 2D 图像理解上很强,但缺乏 3D 空间推理能力(如判断物体远近、相对位置、朝向)。这对机器人抓取、放置等任务是致命的。

缺乏具身预训练:机器人在真实世界中需要理解物理交互(碰撞、可承受力、运动惯性),通用数据中很少覆盖这类场景。

推理与效率的两难:大模型推理能力强但太慢,小模型快但能力不足,很难在边缘设备上同时满足实时性和复杂推理的需求。

方案:HY-Embodied-0.5 是如何设计的?

架构创新:

MoT(混合专家 Transformer)架构

核心思路:视觉 token 和文本 token 使用不同的 QKV(查询-键-值)和 FFN(前馈网络)层

视觉路径强调细粒度感知,使用潜在视觉标记(Visual Latent Tokens)增强表示

推理时仅激活 22B 参数(总参数量 40B),推理速度相当于传统 20B 密集模型

双模型矩阵

MoT-2B:高效版,适合边缘部署(移动机器人、嵌入式设备)

MoT-32B:强力版,面向复杂推理任务,可与 Gemini 3.0 Pro 掰手腕

训练策略:

大规模具身预训练

使用超过 1 亿条具身和空间专用数据

语料库规模超过 2000 亿个 token

覆盖 3D 空间理解、物体交互、物理动态等领域

迭代自进化后训练 + 策略蒸馏

引入自进化后训练流水线,通过强化学习持续优化复杂推理能力

奖励函数覆盖四类任务:定位类(Grounding-Based)、回归类(Regression-Based)、轨迹类(Trajectory-Based)、语义推理类(Textual-Based)

通过策略蒸馏(On-policy Distillation)将 32B 模型的多步推理、规划能力迁移到 2B 小模型


Figure 2:HY-Embodied-0.5 MoT 架构图

图 2:MoT 架构核心设计——视觉 token 与文本 token 走不同的「专属通道」,通过潜在标记增强跨模态关联。


Figure 5:训练流水线

图 5:三阶段训练流水线——大规模预训练建立多模态基础表示 → 具身后训练增强复杂推理 → 策略蒸馏将大模型能力迁移到小模型。

效果:实验证明了什么?

关键指标(MoT-2B vs 同规模最佳模型):


点击图片可查看完整电子表格

注:所有测试均在思考模式(Thinking Mode)下进行

一句话总结:在同规模模型中,HY-Embodied MoT-2B 是当之无愧的「六边形战士」——视觉感知、空间推理、具身理解三项全能。


Figure 1:性能总览

图 1:HY-Embodied-0.5 MoT-2B 在空间/具身基准及下游机器人控制任务上的表现——刷新同规模 SOTA,并展现出优秀的下游泛化能力。

实验表现与真实机器人演示 基准测试亮点

空间推理能力

SAT(空间感知)基准:76.7 vs 竞品 45.3,提升 69.3%

Where2Place(物体放置位置判断):68.0 vs 45.0,提升 51.1%

具身理解能力

RoboBench-Planning(机器人任务规划):54.2 vs 36.2,提升 49.7%

EmbSpatial-Bench:82.8 vs 75.9

泛化到通用视觉任务: 尽管专精于具身场景,HY-Embodied-0.5 在通用视觉理解任务上也保持竞争力,说明其没有「偏科」。

真实机器人控制实验

实验平台

双臂 Xtrainer 机器人

头戴式 + 腕戴式双相机配置

每个任务 20 次真实物理评估

测试任务

精密插件包装(Precision Plug-in Packing):需要将 USB/排针精确插入目标孔位

餐具叠放(Tableware Stacking):需要精准放置碗、盘等餐具

杯子悬挂(Mug Hanging):需要将杯子挂在钩子上,涉及精细位姿控制


Figure 13:机器人实验设置与成功率

图 13:真实机器人实验平台与任务评估结果。三个任务均使用 20 次独立试验评估成功率。

推理效率对比

为什么 MoT 架构更快?


Figure 11:训练收敛与推理效率对比

图 11:(a) MoT 架构训练收敛更快;(b) 推理效率对比——MoT 在保持相近推理速度的同时,理论计算量更低。

MoT 架构训练收敛速度优于标准 Transformer

推理速度与 20B 密集模型相当

激活参数更少,边缘部署友好

思维链可视化

Figure 10:Chain-of-Thought 推理过程

图 10:模型面对复杂具身任务时的「思考过程」——先分析空间关系,再评估物体可供性(affordance),最后规划动作序列,展现出自我反思和纠错能力。

技术溯源与关联工作 团队脉络

Tencent Robotics X 是腾讯旗下的机器人研究旗舰团队,HY Vision Team 是混元视觉团队。两者的联合发布标志着腾讯在具身智能领域的全面布局。

相关技术演进


点击图片可查看完整电子表格

技术创新点总结

HY-Embodied-0.5 的三大杀手锏:

MoT 架构:首次将混合专家机制引入具身 VLM,实现视觉/语言路径的差异化计算

自进化后训练:通过强化学习 + 多类型奖励函数,系统性提升复杂推理能力

策略蒸馏:首次在具身场景实现大模型→小模型的高效能力迁移

资源直达

点击图片可查看完整电子表格

快速上手

git clone https://github.com/Tencent-Hunyuan/HY-Embodied
cd HY-Embodied/
pip install -r requirements.txt
python inference.py
结语

HY-Embodied-0.5 的发布,是腾讯在具身智能领域的一次重要亮相。MoT 架构、自进化后训练、策略蒸馏三项创新,让 2B 小模型也能拥有大模型的推理能力,并且已经在真实机器人上验证了可行性。

如果你是机器人研究者,它可能是你下一个项目的「最强外挂」;如果你是 AI 爱好者,它预示着 AI 从「看懂世界」到「动手改变世界」的又一步跨越。

项目已开源,欢迎 Star & 贡献!

关注本公众号,第一时间追踪机器人与具身智能前沿干货。

如果觉得有帮助,欢迎转发给需要的朋友!

Mbot具身智能实验室

让尖端科技触手可及,人人皆可探索未来


Mbot基础交流群等你加入,下方扫码联系

具身-杰西

Mbot具身-小助手

Mbot-视频号

Mbot-公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
产能排到2028!光模块海外加速扩产  8大唯一性设备龙头量价齐升

产能排到2028!光模块海外加速扩产 8大唯一性设备龙头量价齐升

元芳说投资
2026-04-16 06:30:16
中东突发!刚刚,直线拉升!

中东突发!刚刚,直线拉升!

中国基金报
2026-04-16 22:55:11
被折服!郑丽文访陆费用由民基会报销引非议 张亚中霸气喊买单

被折服!郑丽文访陆费用由民基会报销引非议 张亚中霸气喊买单

天气观察站
2026-04-16 16:53:57
A股涨到4055点,尾盘很明显,不出意外,明天周五,很可能这样走

A股涨到4055点,尾盘很明显,不出意外,明天周五,很可能这样走

另子维爱读史
2026-04-16 16:40:29
捷豹路虎中国宣布26年款揽胜正式上市

捷豹路虎中国宣布26年款揽胜正式上市

界面新闻
2026-04-16 21:09:39
人均300块的朝鲜餐厅,成了江浙沪过生日顶配

人均300块的朝鲜餐厅,成了江浙沪过生日顶配

九行Travel
2026-04-16 16:37:52
真狠!连跌3年又横盘7年从14跌到2,张素芬却从1200万加仓1700万

真狠!连跌3年又横盘7年从14跌到2,张素芬却从1200万加仓1700万

长风价值掘金
2026-04-16 15:20:38
闹成一团!委内瑞拉爆发大示威,抗议人士:我们已经忍了四年

闹成一团!委内瑞拉爆发大示威,抗议人士:我们已经忍了四年

归史
2026-04-15 19:10:50
《妻子的浪漫旅行2026》这俩老公:太强势、敷衍,看得人真难受!

《妻子的浪漫旅行2026》这俩老公:太强势、敷衍,看得人真难受!

林轻吟
2026-04-16 19:43:50
后续!孕妇200买水果被老公骂:已去医院终止妊娠 老公发怒砸东西

后续!孕妇200买水果被老公骂:已去医院终止妊娠 老公发怒砸东西

小鋭有话说
2026-04-14 08:37:44
1898 年,谭嗣同就义,他永远不知,自己的后人有多让人心疼

1898 年,谭嗣同就义,他永远不知,自己的后人有多让人心疼

小燕聊剧
2026-04-14 19:53:58
3千万毕业生天崩开局

3千万毕业生天崩开局

经济学教授V
2026-04-15 18:23:37
已公布MVP票数:亚历山大14张第一选票161分 大幅领先约基奇文班

已公布MVP票数:亚历山大14张第一选票161分 大幅领先约基奇文班

醉卧浮生
2026-04-16 22:01:32
牛牛 影视 回归,最新激活码:WKSP-666666-2026-0415,iOS国区全新上架,速收!

牛牛 影视 回归,最新激活码:WKSP-666666-2026-0415,iOS国区全新上架,速收!

新浪财经
2026-04-15 11:39:11
北京电影节开幕式红毯:高圆圆舒淇好美,高叶造型亮眼,尹正瘦了

北京电影节开幕式红毯:高圆圆舒淇好美,高叶造型亮眼,尹正瘦了

八卦先生
2026-04-16 23:19:54
网坛名将正式退役!最高排名世界第1位,曾7夺大满贯冠军

网坛名将正式退役!最高排名世界第1位,曾7夺大满贯冠军

全景体育V
2026-04-16 07:56:45
云南白药在国内配方保密,却在美国公布成分,被规定为宠物用药

云南白药在国内配方保密,却在美国公布成分,被规定为宠物用药

深度报
2026-04-16 22:55:43
细思极恐!人类连太阳系都飞不出去,凭什么画出银河系的形状?

细思极恐!人类连太阳系都飞不出去,凭什么画出银河系的形状?

观察宇宙
2026-04-15 22:13:42
湾湾知名主播建国分析汪小菲马筱梅现状——离婚的号角或已吹响了

湾湾知名主播建国分析汪小菲马筱梅现状——离婚的号角或已吹响了

小椰的奶奶
2026-04-16 20:33:22
3年前就戳穿西贝预制菜没人信,如今被实锤!这个探店博主藏得太深了

3年前就戳穿西贝预制菜没人信,如今被实锤!这个探店博主藏得太深了

马蹄烫嘴说美食
2026-04-15 18:29:48
2026-04-16 23:59:00
杰西讲具身 incentive-icons
杰西讲具身
一名分享AI前沿的分享官,专注具身智能前沿知识
29文章数 1关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰生意迷雾

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

艺术
健康
时尚
房产
亲子

艺术要闻

张大千『 花菓荟萃册』

干细胞抗衰4大误区,90%的人都中招

爆火的前额叶梗,让多少年轻人主动确诊「脑残」?

房产要闻

人人人人!封关后首届消博会,挤爆了!

亲子要闻

有两娃的家庭每天都有断不完的官司

无障碍浏览 进入关怀版