跨维智能贾奎：下一个十年是物理世界的 AGI|机器人|agi|新论文

分享至

2016 年，贾奎结束海外学业回国，投身计算机视觉研究。彼时大量人才涌入人脸识别与图像理解赛道，他却转身选择了一条几乎无人涉足的方向。

接下来的五年里，他反复追问两个看似简单的问题：3D 数据的本质是什么？Physical AGI 的定义又是什么？在他看来，这些围绕三维世界展开的探索才是核心命题。

选择冷门方向也意味着要付出长期「坐冷板凳」的代价。

在那些等待的日子里，他一遍遍推演模型、反复验证假设，也不断重构自己对世界的理解，但几乎从未动摇过。「如果你做的就是你喜欢的事情，那为什么要换呢？」这是他判断一个人是否幸运的标准，简单得近乎朴素。

他对世界模型的理解同样带着一种近乎直觉的准确。

他认为 Physical AGI 之所以被称为物理通用人工智能，关键在于它必须真正进入物理世界，并最终落到一个具体的智能终端上。

人从不同的视角观察世界，看到的往往只是现实的一个个镜像。当无数片面、零散的信息叠加在一起，世界便显得极为复杂。但在贾奎眼里，物理世界是简洁的。如果能触达其中的真实机理，它会像爱因斯坦的 E=mc² 一样轻盈。只有找到这种本质规律，才可能构建出真正科学的世界模型。

2025 年底，跨维智能开源了核心技术 EmbodiChain——一条在线数据流与模型生产线，实现了完全基于 100% 生成式合成数据训练的虚拟物理模型。在这个世界里，让 AI 去学习物理世界的本质规律，环境、对象、机器人本体都可以持续演进。

通往终点的路径不止一条。跨维选择的是一条更长远的路：先创造「世界」，再让 AI 深入物理世界的每一个角落，最终构建出通往 Physical AGI 的可持续之路。

通往 Physical AGI

Q：请先介绍下自己以及跨维现在在做的事。

贾奎：从 2021 年创立至今，跨维智能一直致力于解决 AI 与三维物理世界的交互问题。

2001 年，我就开始研究计算机视觉。从 2016 年起，我开始探索如何利用 AI 进行 3D 建模与生成，以及如何通过合成数据训练模型，驱动机器人完成灵巧作业。

一个重要的技术节点是在 2019 年，我们发表了一个端到端模型，它能够完全依靠混合数据训练，实现对未知物体的精准抓取。这些技术积淀为我们 2020 年筹备创立公司打下了基础，当时真格也作为天使投资方加入。

这几年，随着 Physical AI 的兴起和大模型的加持，跨维智能的底层技术、产品与业务也经历了一个从稳健到加速发展的周期。如今，我们逐步形成了一套多维协同的产品矩阵：以 DexVerse™ 引擎为技术底座，配合 KINGFISHER 视觉传感器、Dexforce W1 人形机器人本体，以及 PickWiz 机器人大脑软件。

回到跨维智能的核心信仰：Develop a sustainable road towards Physical AGI（构建一条通往 Physical AGI 的可持续道路）。我们希望走出一条可持续的路径，以持续的原创技术推动 AI 深入物理世界的每一个角落，在不同行业中创造真正的价值。

Q：你目前怎么理解 Physical AI？在创业过程中有什么变化？

贾奎：我始终认为 Physical AI 是一件需要在实践中推进的事情。只有不断做技术、做产品，才能真正走近它。人是一个典型的高级生物智能体。人的认知智能与身体形态的关系正对应着今天大语言模型与 Physical AGI 的关系。

从技术来看，目前我们仍遵循由海量数据、大模型和强算力支撑的 AI 范式。这种范式受惠于 90 年代以来互联网所累积的文本、图像和视频，因此大语言模型和多模态在 2022-25 年间实现了快速积累。

但 Physical AGI 是下一个十年，甚至更长周期的命题。它对数据的要求不仅是数量的增加，更是数据产生范式的一次根本性变化。

实现 Physical AGI 的基本数据要素可能来自于真实机器人的数据采集，也可能借由视频生成，或者是我们团队非常擅长的 3D 生成式技术以及生成式仿真（Generative Simulation）等前沿范式。

另一方面，Physical AI 必须落地在实际的智能体上，在家庭、工厂等真实应用场景中运行。这又对终端智能体的功能提出了不同诉求。

无论是从技术还是应用角度，Physical AGI 都比目前大家看到的大模型和 AI Agent 应用更难。但它的天花板更高，想象空间更大，对整个社会经济和人类行为的牵引作用也更大。

正在洗牌的跨维机器人

Q：你在设计跨维智能人形机器人的本体构型时有哪些考量？

贾奎：Physical AGI 之所以被称为物理通用人工智能，核心在于它必须进入物理世界，并最终落到一个具体的智能终端上。

这个终端的形态则取决于它应用场景的第一性原理。如果是应用在工厂里的机器人，它不一定非要具备人形，它的核心诉求是能否稳定、高精度地完成既定作业任务。

在一些商业服务场景，机器人的演进路径会变得更像人类。在社会生活或商业服务中，人是在打造自己的 IP 和人设，因为你卖的不仅仅是功能，还有品牌价值。如果我们将眼光跳出数字人，去观察物理世界真实存在的人，就会发现营造机器人 IP，让它本身产生衍生价值，是一件非常重要的事情。

至于家庭场景，大家对机器人有多维度的诉求。首先是解决实际的家务问题，比如我们希望在下班后，它能把鞋柜整理好；或者在家里有小朋友的情况下，能把散落一地的玩具收拾妥当。这是对它工具属性的需求。

但如果机器人具备了人形形态，人们会有更高的陪伴诉求。这种陪伴涵盖了语言的交流、情感的互通，甚至包括外形是否可爱、是否有温度。这就是为什么目前有人专门研究「有温度」的机器人，或者在外观设计上追求极致美感。

如果你想要打造一个既能解决实际问题，又能与人产生良性互动的深度产品，兼顾外形设计与交互逻辑至关重要。

实现世界模型

Q：你怎么看现在几种不同的数据采集方式？

贾奎：行业普遍期待，大语言模型中观察到的 Scaling Law 也能在 Physical AI 上出现。但这里有一个前提：如果没有足够量级的数据支撑，单纯增加模型规模或算力意义不大。

因此，具身智能当下面临的首要问题，是如何提升数据产生的效率。

在 2024-25 年间，行业逐渐形成了一种共识：通过搭建数采场、利用真机遥操来获取训练数据。但这种方式的效率依然有限。后来也出现了像 UMI（Universal Manipulation Interface，通用操作接口）这样更高效的本体采集方案，不过这种路径究竟能训练出多强的模型还有待验证。

另一条被寄予厚望的路径是视频生成。像 Sora 这样的模型在内容创作领域已经展现出强大的能力，但视频生成的本质是二维结果。从技术范式来看，基于扩散模型的视频生成本质还是在 RGB 像素空间中建模，缺乏明确的物理因果结构。这意味着它在精度、稳定性和物理一致性上，很难达到严格的工程标准。

我们的目标是一方面充分利用模型与算力带来的生成效率，另一方面又保证生成内容具备严格的三维物理真实性。围绕这一点，我们也做了严谨的原理性验证。结果证明，完全基于 100% 生成式合成数据训练出来的模型，在真实应用中确实可以跑通。

我们真正应该关注的不是某一种数据获取方式本身的优劣，而是哪一种数据范式，能够让 AI 大模型的 Scaling Law 真正运转起来。

Q：当时 Sora 发布的时候，你有什么感受？

贾奎：Sora 发布时一个很重要的传播理念就是世界模型。

但世界模型这一概念早在 2018 年就在强化学习领域被提出了。它的核心逻辑是，如果要进行高效的强化学习，系统必须具备一个内在的模型来模拟世界，从而学习并产生优秀的策略。尽管这一理念在学术界早已存在，但此前一直没有大众化。

Sora 的惊艳之处在于它生成的视频在外观、动态和场景表现力上远超以往，但它依然是在 RGB 像素空间内进行扩散模型的学习。OpenAI 试图说明，如果我们的模型不是世界模型的话，为何能产生如此逼真的视频结果？

Physical AI 所需模型的服务对象不是人类的眼睛，而是具体的任务执行，比如机器人要如何精准地拿起一杯咖啡并递到你手上。

这与单纯的二维视觉观感完全不同。具备基础机器学习或工程知识的人都明白，二维图像只是三维世界在特定视角下的投影，这意味着信息在投影过程中必然发生缺失。生成的视频看起来很精美，但一旦切换视角，往往会暴露出大量的失真。

目前的视频生成视觉模型从根本上无法解决生成结果在 3D 形状准确性、物理准确性以及动态因果准确性上的问题。

Q：目前世界模型处在一个怎样的进程？

贾奎：这是一个大家都想要实现的目标。但究竟该如何实现，我认为首先要把问题想清楚。目前业界对于「什么是世界模型」依然缺乏一个公认且精确的定义。

在定义尚未统一时，人们只能用结果来评价一个模型是否真正具备世界模型的能力。如果你的模型是世界模型，它在无人驾驶场景中就应该始终能够准确避障、规划路径；在机器人作业中，也应该精准且稳定地完成抓取与操作。

Q：跨维实现世界模型的优势是什么？

贾奎：我们的世界模型从 AI 架构建模方式的底层逻辑上就确保了绝对的三维稳定性。如果从统计学或数学的角度来看，这个物理世界非常简洁。

为什么大家却觉得它复杂？因为我们在通过不同的视角观察世界，包括人的眼睛和各种感知传感器，而这些观测结果都只是真实世界的镜像。这些镜像提供的往往是片面的信息，当无数片面且琐碎的信息交织在一起时，就会让人产生世界极其复杂的错觉。

但实际上，如果你能触达世界内蕴的真实机理，它就像爱因斯坦的 E=mc^2 一样简洁明了。只有找到了这种真正正确、简洁的本质规律，你才能构建出真正科学的世界观。

我们的核心逻辑正是通过 AI 去学习这种本质规律，而不是粗暴地利用海量视频进行堆砌训练。因为大量的视频本质上只是不同视角下的景象叠加，学习效率低下，也无法从根本上保障三维物理的准确性。

其实别的团队也不是不能做，行业内几乎所有的团队都会强调三维物理的重要性，也都在尝试往这个方向努力。而我们团队的优势在于，在神经三维建模（Neural 3D Modeling）和神经三维生成（Neural 3D Generation）领域，即利用 AI 进行三维物理建模与生成的技术路线上，我们始终处于行业领先地位。

Q：您能简单地讲一下跨维最近的开源工作吗？

贾奎：我们开源的 EmbodiChain 数据生成管线正面回应了为什么数据产生效率如此重要。

在《GS-World》中，我们开篇提出了效率定律（Efficiency Law），它是规模定律（Scaling Law）的前提。只有当数据产生效率满足特定条件时，模型性能才方能持续提升。

它接着讲如何用生成式的方式，严谨地构建出一个符合物理规律的三维虚拟世界。在这个世界里，我们可以高效地生成环境、操作对象乃至机器人本体。机器人可以在这个可控的虚拟空间中通过作业产生数据，进而形成模型，甚至实现本体的进化。

这不仅是一项具体的学术成果，也是我们的一份技术路线图。

EmbodiChain 示意图

基于此，我们设计了一套能够实现效率定律的架构。这首先是一个从模拟到现实的过程。无论是通过真机遥操、UMI 这种方式，还是直接记录人类操作的视频，我们都能从中提取出三维逻辑动作，并将其投射到虚拟世界。随后，我们在虚拟世界中进行高效的数据扩增和强化学习。这种范式既能生成精准的三维物理模型，也能生成动作策略。

我们也在开源的 Motion 数据集上进行了严格的对比测试。结果显示，这种范式在效率和成功率上明显优于英伟达的 GR00T、RDT 等主流模型。正如我们所发布的，跨维智能确实实现了完全使用 100% 生成的合成数据训练出的 VLA 模型。这在全球范围内都是绝无仅有的。

我们认为正确的逻辑是你必须首先送进去一个有价值的机器人，让它运行起来服务客户、产生价值。

我们效仿无人驾驶领域开启「影子模式」，让数据回流。在这种模式下回流的是高质量、带标注、剔除异常数据、能直接提升模型性能的数据。此时，机器人已经在真实环境中工作并产生了收益，获取数据只是顺道完成的过程。这才是产品和服务高效演进的数据飞轮范式。

经历「冷板凳时期」

Q：当时是什么契机开始关注到世界模型？

贾奎：当时关注到这个领域，是因为我关注的是 AI 信号的本质。

回看 2015 年，当时太多的人涌入人脸识别和图像理解领域，但我会去思考 3D 数据的本质是什么？信号的本质又是什么？作为一个做创新研究的人，最基本的要素就是绝对不能跟风。如果一件事情已经有很多人在做了，那么它就不应该是你的首选。研究者必须遵从第一性原理，而不是人云亦云。

在那个没有人涉足的阶段，这些关于 3D 维度的探索才是 AI 领域中更本质、更重要的问题，是我认为真正有价值的创新。这种独立研究的能力，其实是每一个成熟的博士在职业训练阶段就应该具备的基本要素。

当然，这种坚持是有代价的。研究的源头固然可以基于好奇心，但在好奇心之上，还需要带一点「功利」的思考，这种好奇心最终能否产生价值？无论是短线、中期还是长线的价值，你必须去推演它。

选择非热门方向的代价就是你可能需要长期「坐冷板凳」。我们观察 AI 的发展史，从 1950 年代至今经历了几轮波峰波谷，即便像 AI 教父辛顿（Geoffrey Hinton）也经历过极长周期的冷板凳时期。

人要有自己的坚持。

Q：你什么时候有过这种「坐冷板凳」的感觉？

贾奎：在 2016 年到 2021 年这段时间里，坦白说，我获得的成就感远比那些做图像理解的人要少得多。

在学术界，你的论文引用量很大程度上取决于研究该问题的基数。如果全球范围内关注某个 3D 任务的人只有 1000 个，而研究图像理解的有 100 万人，那么无论研究做得多好，在绝对影响力指标上也无法与热门方向相比。在长达五年的时间里，这种差距是客观存在的。

但即便是在那段时间里，我也没有想过要更换方向。我觉得判断一个人是否幸运的标准在于，他是不是在做自己真正喜欢的事情。如果你做的就是你喜欢的事情，那为什么要换呢？

在当时，我依然坚信自己所做的研究具有更大的价值，这与我如今对 Physical AGI 的判断逻辑是一致的。

从企业成长和创业逻辑来看，Physical AGI 的天花板比现在的大模型厂商的天花板还要高。

Q：科研和创业有什么不同？

贾奎：科研创新与创业是不同形式的价值创造与实现。从科研创新的角度来看，你潜心钻研，期待逻辑上成立的研究最终会产生价值，但成果还是往往停留在纸面上，这种互动相对内敛且间接。

相比之下，创业则是实打实地从商业价值出发进行反向推导。为了实现真正的价值，我们需要什么样的产品或服务？哪些技术需要突破且具备条件？突破的周期是多久？在这种逻辑下，我们还需要思考团队的核心优势、差异化特色以及能否在目标商业场景中真正产生价值。

这种思维方式的转变，能让我们在创新的过程中摆脱一些科研惯性。我们不会为了发表论文而去做事，也不会去做那些看似有价值、实则无法在商业上产生实际贡献的研究。

当你的产品在真实的场景中被使用起来，那种成就感与单纯追求论文引用量是完全不同的。这种价值创造更加直接，能够真实地在社会的各个层面反映出来，无论影响是大是小。

回归劳动力本质

Q：有没有什么具体的合作案例可以分享？

贾奎：我们在工业、物流等相对半结构化的场景中已经积累了大量经验，部分项目的运行时间已超过两年。我们不是单纯在推广跨维这个机器人品牌，而是要将机器人深度嵌入加盟店、品牌方和购物中心的业务流程里。

让别人生意做得更好才是这台人形机器人真正的价值。

一个案例是我们和「维小饭」的合作。维小饭是一家在深圳和香港的健康饮食品牌，每份盒饭都会标注卡路里。我们的机器人部署在维小饭的门店内，承担售卖引导等工作。这种「健康饮食 + 前沿科技」的组合既是一个极具吸引力的商业噱头，也是机器人在真实商业环境中去创造价值的实践。

跨维在「维小饭」门店部署的机器人

Q：跨维产品的差异化特色在哪里？

贾奎：核心不在于单纯的技术高低，而在于谁能真正跑通技术到细分商业场景的闭环。就像人脸识别技术，现在几乎任何一家公司都能拥有成功率足够高的技术，但最终胜出的是那些已经形成了品牌认知、并占据了市场的企业。当然，如果未来机器人的需求量变得极大，它的功能性价值和附加价值的主次地位可能会发生变化。

Q：跨维的下一步会是什么？

贾奎：我们的商业理念可以用一句话概括：DexBot Inside。

这个词借用了当年英特尔著名的「Intel Inside」广告语。作为一个人形机器人，即便在商业服务场景中具备引流作用和 IP 属性，它最终也必须回归到劳动力本质。

人与人之间交往，最初的新鲜感都可能在两周内消退，机器人更是如此。如果机器人不能产生真正的劳动价值，它的 IP 和可爱外形就无法支撑其长久的商业存在。在门店等实际场景中，它最终会从一个新鲜事退化到一个劳动者的本质。

文｜Nuohan

编辑｜Cindy

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.