网易首页 > 网易号 > 正文 申请入驻

跨维智能贾奎:下一个十年是物理世界的 AGI

0
分享至

2016 年,贾奎结束海外学业回国,投身计算机视觉研究。彼时大量人才涌入人脸识别与图像理解赛道,他却转身选择了一条几乎无人涉足的方向。

接下来的五年里,他反复追问两个看似简单的问题:3D 数据的本质是什么?Physical AGI 的定义又是什么?在他看来,这些围绕三维世界展开的探索才是核心命题。

选择冷门方向也意味着要付出长期「坐冷板凳」的代价。

在那些等待的日子里,他一遍遍推演模型、反复验证假设,也不断重构自己对世界的理解,但几乎从未动摇过。「如果你做的就是你喜欢的事情,那为什么要换呢?」这是他判断一个人是否幸运的标准,简单得近乎朴素。

他对世界模型的理解同样带着一种近乎直觉的准确。

他认为 Physical AGI 之所以被称为物理通用人工智能,关键在于它必须真正进入物理世界,并最终落到一个具体的智能终端上。

人从不同的视角观察世界,看到的往往只是现实的一个个镜像。当无数片面、零散的信息叠加在一起,世界便显得极为复杂。但在贾奎眼里,物理世界是简洁的。如果能触达其中的真实机理,它会像爱因斯坦的 E=mc² 一样轻盈。只有找到这种本质规律,才可能构建出真正科学的世界模型。

2025 年底,跨维智能开源了核心技术 EmbodiChain——一条在线数据流与模型生产线,实现了完全基于 100% 生成式合成数据训练的虚拟物理模型。在这个世界里,让 AI 去学习物理世界的本质规律,环境、对象、机器人本体都可以持续演进。

通往终点的路径不止一条。跨维选择的是一条更长远的路:先创造「世界」,再让 AI 深入物理世界的每一个角落,最终构建出通往 Physical AGI 的可持续之路。


通往 Physical AGI

Q:请先介绍下自己以及跨维现在在做的事。

贾奎:从 2021 年创立至今,跨维智能一直致力于解决 AI 与三维物理世界的交互问题。

2001 年,我就开始研究计算机视觉。从 2016 年起,我开始探索如何利用 AI 进行 3D 建模与生成,以及如何通过合成数据训练模型,驱动机器人完成灵巧作业。

一个重要的技术节点是在 2019 年,我们发表了一个端到端模型,它能够完全依靠混合数据训练,实现对未知物体的精准抓取。这些技术积淀为我们 2020 年筹备创立公司打下了基础,当时真格也作为天使投资方加入。

这几年,随着 Physical AI 的兴起和大模型的加持,跨维智能的底层技术、产品与业务也经历了一个从稳健到加速发展的周期。如今,我们逐步形成了一套多维协同的产品矩阵:以 DexVerse™ 引擎为技术底座,配合 KINGFISHER 视觉传感器、Dexforce W1 人形机器人本体,以及 PickWiz 机器人大脑软件。

回到跨维智能的核心信仰:Develop a sustainable road towards Physical AGI(构建一条通往 Physical AGI 的可持续道路)。我们希望走出一条可持续的路径,以持续的原创技术推动 AI 深入物理世界的每一个角落,在不同行业中创造真正的价值。

Q:你目前怎么理解 Physical AI?在创业过程中有什么变化?

贾奎:我始终认为 Physical AI 是一件需要在实践中推进的事情。只有不断做技术、做产品,才能真正走近它。人是一个典型的高级生物智能体。人的认知智能与身体形态的关系正对应着今天大语言模型与 Physical AGI 的关系。

从技术来看,目前我们仍遵循由海量数据、大模型和强算力支撑的 AI 范式。这种范式受惠于 90 年代以来互联网所累积的文本、图像和视频,因此大语言模型和多模态在 2022-25 年间实现了快速积累。

但 Physical AGI 是下一个十年,甚至更长周期的命题。它对数据的要求不仅是数量的增加,更是数据产生范式的一次根本性变化。

实现 Physical AGI 的基本数据要素可能来自于真实机器人的数据采集,也可能借由视频生成,或者是我们团队非常擅长的 3D 生成式技术以及生成式仿真(Generative Simulation)等前沿范式。

另一方面,Physical AI 必须落地在实际的智能体上,在家庭、工厂等真实应用场景中运行。这又对终端智能体的功能提出了不同诉求。

无论是从技术还是应用角度,Physical AGI 都比目前大家看到的大模型和 AI Agent 应用更难。但它的天花板更高,想象空间更大,对整个社会经济和人类行为的牵引作用也更大。


正在洗牌的跨维机器人

Q:你在设计跨维智能人形机器人的本体构型时有哪些考量?

贾奎:Physical AGI 之所以被称为物理通用人工智能,核心在于它必须进入物理世界,并最终落到一个具体的智能终端上。

这个终端的形态则取决于它应用场景的第一性原理。如果是应用在工厂里的机器人,它不一定非要具备人形,它的核心诉求是能否稳定、高精度地完成既定作业任务。

在一些商业服务场景,机器人的演进路径会变得更像人类。在社会生活或商业服务中,人是在打造自己的 IP 和人设,因为你卖的不仅仅是功能,还有品牌价值。如果我们将眼光跳出数字人,去观察物理世界真实存在的人,就会发现营造机器人 IP,让它本身产生衍生价值,是一件非常重要的事情。

至于家庭场景,大家对机器人有多维度的诉求。首先是解决实际的家务问题,比如我们希望在下班后,它能把鞋柜整理好;或者在家里有小朋友的情况下,能把散落一地的玩具收拾妥当。这是对它工具属性的需求。

但如果机器人具备了人形形态,人们会有更高的陪伴诉求。这种陪伴涵盖了语言的交流、情感的互通,甚至包括外形是否可爱、是否有温度。这就是为什么目前有人专门研究「有温度」的机器人,或者在外观设计上追求极致美感。

如果你想要打造一个既能解决实际问题,又能与人产生良性互动的深度产品,兼顾外形设计与交互逻辑至关重要。


实现世界模型

Q:你怎么看现在几种不同的数据采集方式?

贾奎:行业普遍期待,大语言模型中观察到的 Scaling Law 也能在 Physical AI 上出现。但这里有一个前提:如果没有足够量级的数据支撑,单纯增加模型规模或算力意义不大。

因此,具身智能当下面临的首要问题,是如何提升数据产生的效率。

在 2024-25 年间,行业逐渐形成了一种共识:通过搭建数采场、利用真机遥操来获取训练数据。但这种方式的效率依然有限。后来也出现了像 UMI(Universal Manipulation Interface,通用操作接口)这样更高效的本体采集方案,不过这种路径究竟能训练出多强的模型还有待验证。

另一条被寄予厚望的路径是视频生成。像 Sora 这样的模型在内容创作领域已经展现出强大的能力,但视频生成的本质是二维结果。从技术范式来看,基于扩散模型的视频生成本质还是在 RGB 像素空间中建模,缺乏明确的物理因果结构。这意味着它在精度、稳定性和物理一致性上,很难达到严格的工程标准。

我们的目标是一方面充分利用模型与算力带来的生成效率,另一方面又保证生成内容具备严格的三维物理真实性。围绕这一点,我们也做了严谨的原理性验证。结果证明,完全基于 100% 生成式合成数据训练出来的模型,在真实应用中确实可以跑通。

我们真正应该关注的不是某一种数据获取方式本身的优劣,而是哪一种数据范式,能够让 AI 大模型的 Scaling Law 真正运转起来。

Q:当时 Sora 发布的时候,你有什么感受?

贾奎:Sora 发布时一个很重要的传播理念就是世界模型。

但世界模型这一概念早在 2018 年就在强化学习领域被提出了。它的核心逻辑是,如果要进行高效的强化学习,系统必须具备一个内在的模型来模拟世界,从而学习并产生优秀的策略。尽管这一理念在学术界早已存在,但此前一直没有大众化。

Sora 的惊艳之处在于它生成的视频在外观、动态和场景表现力上远超以往,但它依然是在 RGB 像素空间内进行扩散模型的学习。OpenAI 试图说明,如果我们的模型不是世界模型的话,为何能产生如此逼真的视频结果?

Physical AI 所需模型的服务对象不是人类的眼睛,而是具体的任务执行,比如机器人要如何精准地拿起一杯咖啡并递到你手上。

这与单纯的二维视觉观感完全不同。具备基础机器学习或工程知识的人都明白,二维图像只是三维世界在特定视角下的投影,这意味着信息在投影过程中必然发生缺失。生成的视频看起来很精美,但一旦切换视角,往往会暴露出大量的失真。

目前的视频生成视觉模型从根本上无法解决生成结果在 3D 形状准确性、物理准确性以及动态因果准确性上的问题。

Q:目前世界模型处在一个怎样的进程?

贾奎:这是一个大家都想要实现的目标。但究竟该如何实现,我认为首先要把问题想清楚。目前业界对于「什么是世界模型」依然缺乏一个公认且精确的定义。

在定义尚未统一时,人们只能用结果来评价一个模型是否真正具备世界模型的能力。如果你的模型是世界模型,它在无人驾驶场景中就应该始终能够准确避障、规划路径;在机器人作业中,也应该精准且稳定地完成抓取与操作。

Q:跨维实现世界模型的优势是什么?

贾奎:我们的世界模型从 AI 架构建模方式的底层逻辑上就确保了绝对的三维稳定性。如果从统计学或数学的角度来看,这个物理世界非常简洁。

为什么大家却觉得它复杂?因为我们在通过不同的视角观察世界,包括人的眼睛和各种感知传感器,而这些观测结果都只是真实世界的镜像。这些镜像提供的往往是片面的信息,当无数片面且琐碎的信息交织在一起时,就会让人产生世界极其复杂的错觉。

但实际上,如果你能触达世界内蕴的真实机理,它就像爱因斯坦的 E=mc^2 一样简洁明了。只有找到了这种真正正确、简洁的本质规律,你才能构建出真正科学的世界观。

我们的核心逻辑正是通过 AI 去学习这种本质规律,而不是粗暴地利用海量视频进行堆砌训练。因为大量的视频本质上只是不同视角下的景象叠加,学习效率低下,也无法从根本上保障三维物理的准确性。

其实别的团队也不是不能做,行业内几乎所有的团队都会强调三维物理的重要性,也都在尝试往这个方向努力。而我们团队的优势在于,在神经三维建模(Neural 3D Modeling)和神经三维生成(Neural 3D Generation)领域,即利用 AI 进行三维物理建模与生成的技术路线上,我们始终处于行业领先地位。

Q:您能简单地讲一下跨维最近的开源工作吗?

贾奎:我们开源的 EmbodiChain 数据生成管线正面回应了为什么数据产生效率如此重要。

在《GS-World》中,我们开篇提出了效率定律(Efficiency Law),它是规模定律(Scaling Law)的前提。只有当数据产生效率满足特定条件时,模型性能才方能持续提升。

它接着讲如何用生成式的方式,严谨地构建出一个符合物理规律的三维虚拟世界。在这个世界里,我们可以高效地生成环境、操作对象乃至机器人本体。机器人可以在这个可控的虚拟空间中通过作业产生数据,进而形成模型,甚至实现本体的进化。

这不仅是一项具体的学术成果,也是我们的一份技术路线图。


EmbodiChain 示意图

基于此,我们设计了一套能够实现效率定律的架构。这首先是一个从模拟到现实的过程。无论是通过真机遥操、UMI 这种方式,还是直接记录人类操作的视频,我们都能从中提取出三维逻辑动作,并将其投射到虚拟世界。随后,我们在虚拟世界中进行高效的数据扩增和强化学习。这种范式既能生成精准的三维物理模型,也能生成动作策略。

我们也在开源的 Motion 数据集上进行了严格的对比测试。结果显示,这种范式在效率和成功率上明显优于英伟达的 GR00T、RDT 等主流模型。正如我们所发布的,跨维智能确实实现了完全使用 100% 生成的合成数据训练出的 VLA 模型。这在全球范围内都是绝无仅有的。

我们认为正确的逻辑是你必须首先送进去一个有价值的机器人,让它运行起来服务客户、产生价值。

我们效仿无人驾驶领域开启「影子模式」,让数据回流。在这种模式下回流的是高质量、带标注、剔除异常数据、能直接提升模型性能的数据。此时,机器人已经在真实环境中工作并产生了收益,获取数据只是顺道完成的过程。这才是产品和服务高效演进的数据飞轮范式。


经历「冷板凳时期」

Q:当时是什么契机开始关注到世界模型?

贾奎:当时关注到这个领域,是因为我关注的是 AI 信号的本质。

回看 2015 年,当时太多的人涌入人脸识别和图像理解领域,但我会去思考 3D 数据的本质是什么?信号的本质又是什么?作为一个做创新研究的人,最基本的要素就是绝对不能跟风。如果一件事情已经有很多人在做了,那么它就不应该是你的首选。研究者必须遵从第一性原理,而不是人云亦云。

在那个没有人涉足的阶段,这些关于 3D 维度的探索才是 AI 领域中更本质、更重要的问题,是我认为真正有价值的创新。这种独立研究的能力,其实是每一个成熟的博士在职业训练阶段就应该具备的基本要素。

当然,这种坚持是有代价的。研究的源头固然可以基于好奇心,但在好奇心之上,还需要带一点「功利」的思考,这种好奇心最终能否产生价值?无论是短线、中期还是长线的价值,你必须去推演它。

选择非热门方向的代价就是你可能需要长期「坐冷板凳」。我们观察 AI 的发展史,从 1950 年代至今经历了几轮波峰波谷,即便像 AI 教父辛顿(Geoffrey Hinton)也经历过极长周期的冷板凳时期。

人要有自己的坚持。

Q:你什么时候有过这种「坐冷板凳」的感觉?

贾奎:在 2016 年到 2021 年这段时间里,坦白说,我获得的成就感远比那些做图像理解的人要少得多。

在学术界,你的论文引用量很大程度上取决于研究该问题的基数。如果全球范围内关注某个 3D 任务的人只有 1000 个,而研究图像理解的有 100 万人,那么无论研究做得多好,在绝对影响力指标上也无法与热门方向相比。在长达五年的时间里,这种差距是客观存在的。

但即便是在那段时间里,我也没有想过要更换方向。我觉得判断一个人是否幸运的标准在于,他是不是在做自己真正喜欢的事情。如果你做的就是你喜欢的事情,那为什么要换呢?

在当时,我依然坚信自己所做的研究具有更大的价值,这与我如今对 Physical AGI 的判断逻辑是一致的。

从企业成长和创业逻辑来看,Physical AGI 的天花板比现在的大模型厂商的天花板还要高。

Q:科研和创业有什么不同?

贾奎:科研创新与创业是不同形式的价值创造与实现。从科研创新的角度来看,你潜心钻研,期待逻辑上成立的研究最终会产生价值,但成果还是往往停留在纸面上,这种互动相对内敛且间接。

相比之下,创业则是实打实地从商业价值出发进行反向推导。为了实现真正的价值,我们需要什么样的产品或服务?哪些技术需要突破且具备条件?突破的周期是多久?在这种逻辑下,我们还需要思考团队的核心优势、差异化特色以及能否在目标商业场景中真正产生价值。

这种思维方式的转变,能让我们在创新的过程中摆脱一些科研惯性。我们不会为了发表论文而去做事,也不会去做那些看似有价值、实则无法在商业上产生实际贡献的研究。

当你的产品在真实的场景中被使用起来,那种成就感与单纯追求论文引用量是完全不同的。这种价值创造更加直接,能够真实地在社会的各个层面反映出来,无论影响是大是小。


回归劳动力本质

Q:有没有什么具体的合作案例可以分享?

贾奎:我们在工业、物流等相对半结构化的场景中已经积累了大量经验,部分项目的运行时间已超过两年。我们不是单纯在推广跨维这个机器人品牌,而是要将机器人深度嵌入加盟店、品牌方和购物中心的业务流程里。

让别人生意做得更好才是这台人形机器人真正的价值。

一个案例是我们和「维小饭」的合作。维小饭是一家在深圳和香港的健康饮食品牌,每份盒饭都会标注卡路里。我们的机器人部署在维小饭的门店内,承担售卖引导等工作。这种「健康饮食 + 前沿科技」的组合既是一个极具吸引力的商业噱头,也是机器人在真实商业环境中去创造价值的实践。


跨维在「维小饭」门店部署的机器人

Q:跨维产品的差异化特色在哪里?

贾奎:核心不在于单纯的技术高低,而在于谁能真正跑通技术到细分商业场景的闭环。就像人脸识别技术,现在几乎任何一家公司都能拥有成功率足够高的技术,但最终胜出的是那些已经形成了品牌认知、并占据了市场的企业。当然,如果未来机器人的需求量变得极大,它的功能性价值和附加价值的主次地位可能会发生变化。

Q:跨维的下一步会是什么?

贾奎:我们的商业理念可以用一句话概括:DexBot Inside。

这个词借用了当年英特尔著名的「Intel Inside」广告语。作为一个人形机器人,即便在商业服务场景中具备引流作用和 IP 属性,它最终也必须回归到劳动力本质。

人与人之间交往,最初的新鲜感都可能在两周内消退,机器人更是如此。如果机器人不能产生真正的劳动价值,它的 IP 和可爱外形就无法支撑其长久的商业存在。在门店等实际场景中,它最终会从一个新鲜事退化到一个劳动者的本质。


文|Nuohan

编辑|Cindy



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
痤疮新药上市,无抗复方外用药可实现最快一周内见效

痤疮新药上市,无抗复方外用药可实现最快一周内见效

南方都市报
2026-03-28 21:54:11
外盘崩跌,A股坚强如铁?!

外盘崩跌,A股坚强如铁?!

鸿牛
2026-03-30 10:59:47
油价不用愁!3元新汽油来了,燃油车主笑开花

油价不用愁!3元新汽油来了,燃油车主笑开花

娱乐圈的笔娱君
2026-03-30 02:37:50
修旧如旧,网友为E3预警机定制修复方案

修旧如旧,网友为E3预警机定制修复方案

三叔的装备空间
2026-03-29 20:57:33
29岁太惊喜!周启豪携手陈幸同夺门票,刘国梁一语成谶?

29岁太惊喜!周启豪携手陈幸同夺门票,刘国梁一语成谶?

成吉思热
2026-03-30 10:11:02
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
马刺崛起!瓦塞尔自信摊牌:我们天赋满满,全联盟都要小心了!

马刺崛起!瓦塞尔自信摊牌:我们天赋满满,全联盟都要小心了!

仰卧撑FTUer
2026-03-30 09:44:04
卡位战,斯普利特:下轮对阵快船是本赛季最重要的一场比赛

卡位战,斯普利特:下轮对阵快船是本赛季最重要的一场比赛

懂球帝
2026-03-30 11:16:21
广西女画家齐丽丽被判死刑崩溃大哭,拒吃断头饭,临终作画

广西女画家齐丽丽被判死刑崩溃大哭,拒吃断头饭,临终作画

天梦见证
2025-04-06 21:50:09
44天!热刺8亿豪阵濒临降级,管理层“豪赌”失败,幕后真凶是谁

44天!热刺8亿豪阵濒临降级,管理层“豪赌”失败,幕后真凶是谁

落夜足球
2026-03-30 10:56:47
网传张雪峰公司“峰学蔚来”换帅了?他叫武亮,家长终于放心了

网传张雪峰公司“峰学蔚来”换帅了?他叫武亮,家长终于放心了

谈史论天地
2026-03-29 07:53:45
落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太心酸

落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太心酸

可乐谈情感
2026-03-28 17:07:21
教师大局已定:2026年全国教师队伍将迎来四大新变化

教师大局已定:2026年全国教师队伍将迎来四大新变化

户外阿毽
2026-03-27 12:30:20
内蒙古自治区第四医院院长郑兰兵接受审查调查

内蒙古自治区第四医院院长郑兰兵接受审查调查

界面新闻
2026-03-30 10:07:53
演员李现晒图直呼 “快折磨死我了”!不少人已中招,医生紧急提醒

演员李现晒图直呼 “快折磨死我了”!不少人已中招,医生紧急提醒

环球网资讯
2026-03-29 10:50:06
74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

鹤羽说个事
2026-03-27 22:49:42
“中国对不起!”“高市道歉!”

“中国对不起!”“高市道歉!”

都市快报橙柿互动
2026-03-29 14:44:39
心源性猝死来势汹汹!呼吁:每家备好6样东西,关键时刻能救命!

心源性猝死来势汹汹!呼吁:每家备好6样东西,关键时刻能救命!

阿兵科普
2026-03-28 20:08:11
乐山公交标语事件,我们需要的是最基本的逻辑

乐山公交标语事件,我们需要的是最基本的逻辑

二湘空间
2026-03-29 09:27:29
这次,特朗普可能真完了!

这次,特朗普可能真完了!

新浪财经
2026-03-30 07:37:56
2026-03-30 11:36:49
真格基金 incentive-icons
真格基金
创业,来真格的。
1532文章数 3653关注度
往期回顾 全部

科技要闻

DeepSeek“崩了”一夜,仍无法正常使用

头条要闻

单依纯发文道歉"我的错误与任何人无关" 李荣浩回应

头条要闻

单依纯发文道歉"我的错误与任何人无关" 李荣浩回应

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

亲子
数码
手机
艺术
家居

亲子要闻

好吃好喝供着,为啥孩子还是发育迟缓?可能是“吃错了”

数码要闻

戴尔推Dell Pro 5 Micro商用迷你主机,采英特尔"PTL"处理器

手机要闻

小米澎湃OS3密码App上新:首次登录自动抓取存储,支持跨设备同步

艺术要闻

600 年前的「产亡孤魂」,藏着中国女性最痛的记忆

家居要闻

东方法式美学 现代简约

无障碍浏览 进入关怀版