首个实时端侧部署世界模型，20万小时人类视频，BeingBeyond实现「两级跃迁」|隐式|模态|预训练|新论文|真实世界

分享至

当世界模型首次在端侧实现实时运行，具身智能由此真正迈入可规模化复制的阶段。

在具身智能浪潮回涌的这两年，仿真、真机与人类视频，始终构成数据来源的“铁三角”。从早期研究对仿真数据的高度依赖，到去年各地真机数采中心的集中爆发，再到今年，人类视频正逐渐走向舞台中央，成为驱动模型能力跃迁的关键变量。

4月14日，BeingBeyond（智在无界）发布最新具身世界模型Being-H0.7。在将人类视频规模扩展至 20 万小时的基础上，该模型首次将人类视频学习建立在“隐式推理”的世界模型范式上，并在 6 项国际权威评测中取得综合第一的成绩，进一步展示了其在连续动态场景、流体、柔性物体及复杂物理交互中的能力边界。

主页链接:

https://research.beingbeyond.com/being-h07

论文链接:

https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

从1000到 20 万小时，

人类视频路线开创者的长期主义

时间回到 2025 年，整个行业仍沉浸在 Physical Intelligence（PI）系列所带来的突破之中。沿着这一范式，各大厂商开始大规模建设真机数据采集体系，试图以“更多真实数据”驱动模型能力提升。

但在彼时，智在无界基于长期多模态预训练的经验，已率先意识到这一路径的内在瓶颈：数据工厂所产生的样本，在背景、任务、物体乃至操作轨迹上高度同质，容易让模型过拟合于封闭环境，难以泛化到真实世界的复杂场景。

几乎同期，NVIDIA 在 GR00T 中提出“数据金字塔”框架，将数据划分为塔尖（真实数据）、塔身（合成数据）与塔底（人类视频）。当行业仍在加码“塔尖”时，智在无界则将目光投向塔底——人类视频所蕴含的规模与多样性。

正如其创始人、北京大学卢宗青教授所判断：

“人类视频天然与真实世界对齐，其分布式采集带来的多样性，是集中式真机数采难以替代的。它更有潜力成为具身模型的核心燃料。”

基于这一判断，卢宗青与其团队于2025年 7 月发布了 Being-H0——全球首个以大规模人类视频为核心预训练数据，并成功部署到机器人系统中的具身模型。将数据规模首次提升至 1000 小时，H0标志着“人类视频驱动具身学习”路线的正式确立。

作为这一技术路线的开创者，智在无界并未止步。仅隔数月，团队于今年 1 月推出 Being-H0.5，将规模扩展至 1.5 万小时，成为全球首个迈入“万小时级”人类视频预训练的玩家。这一进展显著早于 NVIDIA 的 DreamDojo、EgoScale 及 Generalist AI 的 GEN-1 等后续工作，体现出团队在该方向上的前瞻布局。借助人类结构作为通用操作模板，H0.5 已展现出显著的跨本体、跨场景泛化能力。

4月14日，在Generalist AI推出GEN1不到两周之时，智在无界推出的Being-H0.7进一步将这一路线推向极致——人类视频总量提升至 20 万小时，全世界仅有GEN-1达到这一规模。

相比前代H0.5，Being-H0.7 最重要的突破是提出了一种世界模型新范式：基于海量人类视频，以隐式推理的方式进行训练。

以 NVIDIA 的 Cosmos Policy、DreamZero 等为代表的视频生成式世界模型路线，通过“生成未来画面”的方式来辅助动作生成。这类方法能得到不错的可视化结果，但却存在两大局限：其一是计算开销极高，无法实时端侧部署；其二是2D图像的生成无法精确对真实物理空间进行动力学建模（如流体，柔性物体等），容易停留在“视觉合理”而非“物理正确”。

作为世界模型，Being-H0.7舍弃了这种低效的动力学建模，其设计更贴近人类的行为方式：

在高速运动中，人类并不会逐帧预测未来画面，而是依赖一种长期经验积累形成的“物理直觉”——对运动趋势、受力结果及操作后果的快速判断。比如看到迎面而来的乒乓球时，运动员不会在脑海中想象下一秒的所有细节，而是会下意识地调动手臂准确挥动球拍。

为了让模型具有类似“非想象式”的快速判断能力，Being-H0.7通过在模型内部引入一块“思考空间”用于潜空间推理，将当前观察、任务目标以及对未来的判断压缩到这一中间表示中，再由它统一指导未来的动作生成。

如果说隐式推理为模型提供了理解世界的机制，那么海量人类视频则提供了能力的“来源”。

人类的物理直觉不仅来自个体经验，也源于物种长期演化积累的运动经验。对于模型而言，只有在足够规模与多样性的行为数据中，才能内化类似的规律。

基于此，智在无界构建了超过 20 万小时的人类操作视频数据。通过对海量真实行为的学习，模型能够在潜移默化中捕捉物体运动规律、交互模式及失败边界，从而形成更稳定的泛化能力。

在实验结果上，Being-H0.7 在 6 项世界权威具身评测中取得综合第一（其中 4 项登顶全球榜首）。更关键的是，H0.7的世界理解与交互能力已经体现在真实环境中：它可以在高速传送带上完成动态分拣与上架；跟随移动容器进行精确倾倒；预测滑动物体轨迹并完成接取；也能在狭小空间内完成插入、定量倒液，甚至处理柔性物体等任务。

全球首个端侧实时部署

率先突破世界模型商业瓶颈

作为具身模型赛道的领头羊，除了在人类视频学习这一技术路线上的持续引领，以及在数据规模与模型能力上的长期领先，智在无界在模型商业化部署层面，同样处于全球第一梯队。

早在今年 1 月发布 Being-H0.5-2B 时，智在无界便率先实现了模型在 NVIDIA Jetson Orin NX 端侧算力上的实时部署，并顺利通过长时间运行的稳定性验证。即便在今天，依然鲜有国内具身模型公司拥有此项能力。

这一工程能力的背后，是团队长期积累的大规模多模态预训练与系统落地经验。围绕实际部署需求，智在无界自研了一整套推理优化体系，覆盖模型量化、压缩蒸馏、CUDA 算子编译以及异步推理调度等关键环节，实现了从训练到部署的全链路打通。

在具身智能赛道上，智在无界始终坚持“两条曲线”并行推进：一条是以人类视频为核心的数据 Scaling Law，不断抬升模型理解世界的能力上限；另一条则是推理成本与延迟曲线，持续压缩模型在真实机器人系统中的部署成本与响应时延。

在这一理念下，Being-H0.7 的部署被进一步优化至极致：其平均推理延迟低至3.61 ms/step，推理速度相比业内以效率著称的模型（如 Fast-WAM）提升超过10 倍，显存占用仅为同类方案的约 50%。与 Cosmos-policy、DreamZero 等视频生成式世界模型相比，其推理效率更是实现了50 倍以上的提升。

更具标志性的是，智在无界首次在端侧计算平台Orin NX（约 75 TOPS）上，实现了 Being-H0.7 的实时部署。这意味着，其已成为业内首个在同等算力芯片上完成世界模型实时运行的团队。

端侧算力、世界模型、实时运行——这三者长期以来被认为难以兼顾，而智在无界在同一系统中同时实现，意味着其在推理成本、模型能力与系统效率这三个关键维度上，均已达到当前行业的最先进水平。

人类视频预训练+数采闭环

驱动通用能力与专家能力的“两级跃迁”

从 H0 到 H0.5，再到如今的 Being-H0.7，作为人类视频路线的开创者，智在无界在不到一年的时间内，实现了模型能力与数据规模的三次迭代。目前，团队已构建起超过 20 万小时的人类视频数据体系，并预计在今年底进一步扩展至 100 万小时量级。

这一前所未有的数据规模，为 Being-H 系列模型带来了高度多样化的真实世界分布，显著提升了跨场景泛化能力，推动模型实现“通用能力”的关键跃迁。相比之下，依赖封闭环境与集中式采集的数据工厂，尽管在规模与可控性上具备优势，但在分布多样性与真实复杂性方面存在天然瓶颈，难以支撑模型真正走向开放世界。

如果说大规模人类视频数据奠定了“通用能力”的基础，那么第一视角人类数据的采集体系，则成为模型迈向“专家能力”的关键支点。然而在当前行业中，数据采集与模型训练普遍割裂，导致大量高成本数据难以被有效利用。“过去一年我们收集了大量外部数据，也经历过一次性丢弃数千小时数据的情况，”卢宗青指出，“当前数采体系仍处于早期阶段，与大模型领域成熟的数据管线相比，仍存在明显差距。”

对于具身领域来说，要弥合这一割裂，就必须同时具备大规模预训练和高质量数据采集的能力：只有深度参与大规模预训练，才能建立对数据的敏感度，从而设计出合理的数据格式、配比与数采硬件；高质量的数据采集体系，则如同为模型提供精准的“营养配方”，决定其能力上限。基于这一认知，智在无界率先打通了“大规模预训练—数据采集”的闭环，成为业内少数具备全链路能力的团队。

这一闭环优势的集中体现之一，是智在无界团队不久前发布的BeingBeyond U1，作为全球首款 Real DexUMI 设备，U1，实现了“无本体、低成本、真实场景”的规模化数据采集，可同步获取视觉、动作与触觉等多模态信号，并将人手精细操作高保真映射至机器人灵巧手。相比传统真机采集，U1 的数据获取效率提升超过 10 倍，同时实现“所采即所得”，无需重定向即可直接用于训练，显著降低了数据使用门槛与精度损耗。

这一能力有效弥补了现有数采方案在工业流水线等高精度场景中的关键短板，使模型能够快速掌握复杂装配、柔性交互等专家级技能，在实际任务中将成功率提升至 90% 以上。随着 U1 进入真实的工业流水线等专业场景，Being-H0.7 进一步完成了从“通用”到“专家”的能力跃迁：一方面依托大规模人类视频与世界模型架构，实现对复杂物理环境的理解与泛化；另一方面借助高质量场景化数据，深入垂直领域，获得高精度、可落地的专家能力。

这也揭示了具身智能商业化的核心路径：通用能力解决“能用”，而专家能力决定“好用”。以通用能力为底座，以场景化数据为抓手，逐步向垂直领域深化，正是具身智能走向规模化落地的“最后一公里”。

尾声H0.7首个世界模型商业化部署

智在无界重塑具身模型赛道

从“能理解”到“能行动”，从“实验室指标”到“真实世界生产力”，Being-H0.7 的意义，已经不止于一次模型性能的跃升，而是对具身智能落地路径的一次关键重构。当世界模型首次在端侧实现实时运行，长期被视为“不可能三角”的能力、成本与效率，开始在同一系统中收敛，具身智能也由此真正迈入可规模化复制的阶段。

更深层次来看，这一突破并非孤立发生：其背后是人类视频预训练所支撑的通用能力底座，是“隐式推理”所带来的世界理解范式跃迁，也是数据闭环体系驱动的专家能力持续进化。三者叠加，使得模型不再只是“会做任务”，而是逐渐具备在开放环境中稳定工作的能力。

当行业仍在不同路径之间反复试探时，智在无界通过 H0.7 给出了一条更具确定性的答案——以人类视频为核心燃料，以世界模型为认知与行动中枢，以端侧部署为落地形态，打通从数据到模型、从理解到执行的完整链路。这不仅是一次模型发布，更像是具身智能从“技术竞赛”走向“产业基础设施”的分水岭时刻。随着 H0.7 的落地，具身模型的竞争逻辑，正在被重新定义。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.