网易首页 > 网易号 > 正文 申请入驻

前苹果AI Platform技术负责人,回国加入具身大模型战场

0
分享至

界面新闻记者 | 陆柯言
界面新闻编辑 | 刘方远

具身智能厂商关于未来技术方向的争议,又有了一条新的思路。

6月末,具身智能公司RoboScience机器科学发布了通用具身大模型Visics,以及其技术架构VLOA(Vision-Language-Object-Action,视觉-语言-物体轨迹-行动)。在发布会现场,RoboScience机器科学展示了模型在多项真实场景的应用,包括最复杂的具身操作任务——家具拼装。

RoboScience机器科学成立于2024年末,由前苹果AI Platform技术负责人田野与新加坡国立大学助理教授邵林共同创立。公司迄今已完成多轮融资,包括今年5月刚刚结束的10亿元A轮融资,累计融资数十亿元,投资方包括零一创投、京东、招商局创投、商汤国香资本、普华资本、达晨财智等。

具身智能领域目前主要有两条技术路线。一条是VLA(Vision-Language-Action,视觉-语言-动作),即机器人通过大量人类示教数据来模仿学习动作,优点是能直接理解自然语言指令、训练流程相对成熟,但同时高度依赖与具体硬件绑定的真机,换一个物体往往需要重新训练。

另一条则是世界模型:先学习并预测环境与物体在物理世界中将如何变化,再据此推导出应执行的动作,相当于让机器人动手前先在大脑中预演后果。这种路线理论上泛化能力更强,但代价是训练成本更大,且存在不小的工程难度。

而RoboScience机器科学提出的VLOA架构,可理解为在Vision-Language和Action之间加入了一个"O"——Object Trajectory(物体轨迹)。

田野在接受界面新闻等媒体采访时表示,具身智能的复杂之处在于要同时覆盖三个维度的多样性:做各种不同的任务、操作各种属性不同的物体,以及适配各种构型不同的机器人。如果没有一个统一的格式把这三个维度都囊括进来,模型很难真正通用,类似于大语言模型中的Token(词元)。

在他看来,物体的动态轨迹就是具身智能领域的“Token”,它是被操作物体在三维空间中的位置和形态变化。不同于VLA天然与硬件绑定,这种路线从训练之初就与硬件解耦,只关注物体本身的变化,不受机器人本体、任务类型和环境的限制,天然具有更强的泛化能力。

Visics大模型由两个部分组成:一是具身世界模型,输入视觉画面和语言指令后,先进行物体移动的路线推演;二是通用操作模型,把推演结果转换成不同机器人能听懂的具体指令。两者之间用物体的连续3D点云轨迹进行连接。RoboScience机器科学的逻辑是,数据决定了模型能力的上限,而这套架构设计,决定的是模型到底能学到什么。

在具身智能真正大规模落地之前,几乎所有厂商都被同一个问题困扰:训练数据从哪里来。

RoboScience机器科学执行总裁汪涛算了一笔账:具身智能所需数据量不会低于语言大模型,但全球机器人真机数据积累量,比大语言模型训练数据量少了10的6次方~8次方倍。

许多具身智能厂商认为,只有依靠海量的真实物理交互数据,才能真正训出可落地的机器人。这也是为什么过去几年,几乎所有厂商都在重金投入真机数据采集,如素材工厂、动作捕捉设备采集等。

汪涛表示,行业现有真机数据采集方式的每条数据成本大致几块钱,每人每天最多采集几百条,全行业月产能仅在万条级别。尤其是到了后训练阶段,单任务的复杂操作演示需要上万条人工标注数据,人力与时间成本随任务数量线性累加。更重要的是,数据工厂环境采集的数据与真实应用场景存在分布差异,模型难以在实际落地中稳定泛化。

RoboScience机器科学选择了一条截然不同的路径。

由于预训练阶段需要的数据必须多样且海量,很难从真实环境中获得, RoboScience机器科学在预训练环节依靠互联网视频和自研仿真引擎RoboMirage生成数据,使其达到优秀水平后再进入真实场景。而真机数据则更多用于具体场景的后训练,提供模型在预训练阶段难以覆盖的高难度失败案例。

据汪涛测算,这套数据生产流程只与算力挂钩、不依赖人力,单条数据成本可做到几分钱,为传统方案的1/20到1/200,且理论上加GPU就能扩大产能、没有上限。

目前,RoboScience机器科学积累的视频数据已达数百万小时,仿真操作轨迹数据达十亿到百亿次级别,今年目标是视频数据超千万小时、仿真数据达万亿次级别。

在发布会现场,RoboScience机器科学演示了机器人自主读取宜家说明书完成家具拼装,过程中即便人为拆除已装配的部件,机器人也能自动恢复并接续完成。此外,机器人也能完成打领带、立硬币、开信封、抓取薯片和蛋壳等任务。据介绍,打领带这一任务就是基于仿真数据训练完成的。

行业的一种共识是,2026年不会是具身智能的“ChatGPT时刻”,越来越多的厂商不再急于追求全场景泛化,而是聚焦特定场景,先跑通商业模式,再逐步扩展泛化边界。某种程度上,RoboScience机器科学选择了相反的路径,先做相对通用的基座模型,再用场景去验证和反哺。

田野认为,基座模型迭代与场景落地这两件事并不完全冲突,但场景选择会决定未来的技术路线:选择狭窄场景容易导向小数据、小模型的过拟合方案,而选择泛化要求高的场景则会倒逼基座模型持续迭代。

在他看来,基座模型是很多场景落地的基础,因此RoboScience机器科学选择从一开始就由场景牵引训练模型,使其具备相对通用的泛化能力。同时,RoboScience机器科学也在自研机器人本体,以便本体与场景深度耦合。

无论基座模型如何迭代,最终还是要回到商业化落地上来。RoboScience机器科学目前主要有三种商业化路径:以License形式对外授权纯软件能力,已经产生一定收入,客户主要是机器人本体公司和已有机器人的场景方或集成商;二是提供搭载自研大模型的域控制器,服务于工业机械臂或协作臂;三是自有机器人本体,目的是把商业和数据链条彻底闭环。

汪涛表示,在具体落地场景上,RoboScience机器科学会从物流、商超、零售这类行业切入,它们最能体现公司技术相对传统非标自动化方案的优势,也能较早实现商业化。谈及具身智能企业的盈利时间,他认为需要从模型和硬件两个层面一起降本,规模做大后才更有机会实现大规模盈利。

RoboScience机器科学留给自己的下一个考题,是8月即将发布的自研机器人本体。届时,VLOA架构能否在真实场景中跑出预期中的泛化能力,将是检验这套技术路线成色的第一道关口。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A·史密斯痛批湖人队由3白人组成的新三巨头:这又不是打高尔夫

A·史密斯痛批湖人队由3白人组成的新三巨头:这又不是打高尔夫

好火子
2026-07-02 05:47:02
永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

永州文旅沦陷!两个女游客遭强制猥亵,丈夫还被打骨折,当地立案

小鋭有话说
2026-07-01 13:25:56
Shams:马刺与托拜厄斯-哈里斯签下2年3100万美元的合同

Shams:马刺与托拜厄斯-哈里斯签下2年3100万美元的合同

懂球帝
2026-07-02 05:13:11
当前中日关系面临什么情况?四个字!

当前中日关系面临什么情况?四个字!

新民周刊
2026-07-02 08:58:43
火爆欧洲的中国空调,曾被提醒“别贴Made in China”

火爆欧洲的中国空调,曾被提醒“别贴Made in China”

极目新闻
2026-07-02 08:46:13
悲情!塞内加尔全队痛哭:2-0被翻+吞点球绝杀 3个月前被剥夺冠军

悲情!塞内加尔全队痛哭:2-0被翻+吞点球绝杀 3个月前被剥夺冠军

风过乡
2026-07-02 07:13:03
“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

“有你这样的妈,真丢人”,毕业典礼母亲出洋相,儿子一脸无奈

熙熙说教
2026-07-01 19:29:52
大英唯一“皇阿玛”,凯恩赛后将队友聚集在一起举行“朝会”

大英唯一“皇阿玛”,凯恩赛后将队友聚集在一起举行“朝会”

懂球帝
2026-07-02 03:37:07
朱珠一家意大利被偶遇:最高级的老钱风,是活成了自己

朱珠一家意大利被偶遇:最高级的老钱风,是活成了自己

TVB的四小花
2026-07-02 09:13:51
“为冲动买单!”广东考生数学140,总分691无缘清北,后悔也晚了

“为冲动买单!”广东考生数学140,总分691无缘清北,后悔也晚了

呼呼历史论
2026-07-02 08:28:12
权威阿姨回应走个面儿:北京可没这句话,说娘们儿是在骂人

权威阿姨回应走个面儿:北京可没这句话,说娘们儿是在骂人

映射生活的身影
2026-07-01 22:20:00
Shams:米切尔-罗宾逊3年4740万美元签约凯尔特人

Shams:米切尔-罗宾逊3年4740万美元签约凯尔特人

懂球帝
2026-07-01 23:55:26
世界杯炸锅!18 岁亚马尔当众叫板法国:你们根本不如西班牙!

世界杯炸锅!18 岁亚马尔当众叫板法国:你们根本不如西班牙!

澜归序
2026-07-02 01:24:00
义乌9.42平方米商铺拍出1700万元,仅含使用权且只能经营饰品,商城:位置好人流量高

义乌9.42平方米商铺拍出1700万元,仅含使用权且只能经营饰品,商城:位置好人流量高

极目新闻
2026-07-01 18:30:15
有点尴尬!布朗两个月前吐槽恩比德假摔骗哨 如今两人竟成为队友

有点尴尬!布朗两个月前吐槽恩比德假摔骗哨 如今两人竟成为队友

罗说NBA
2026-07-02 07:06:29
第一批把性爱交给AI的人,出现了

第一批把性爱交给AI的人,出现了

大佬灼见
2026-07-01 15:45:38
日本太狠!要求30天离境,在日华商一夜破产,孩子被迫中断学业!

日本太狠!要求30天离境,在日华商一夜破产,孩子被迫中断学业!

共工之锚
2026-07-02 00:15:45
白嫖了30年!WinRAR官方:感谢大家的付费支持

白嫖了30年!WinRAR官方:感谢大家的付费支持

游民星空
2026-07-01 20:12:08
二手平台出售超高价玩具人偶,标有身高体重性格等,平台:不涉及儿童贩卖

二手平台出售超高价玩具人偶,标有身高体重性格等,平台:不涉及儿童贩卖

西游日记
2026-07-01 22:30:59
“穷尽其他送达方式后仍无法送达本通知”,清华大学一本科生被公告退学处理

“穷尽其他送达方式后仍无法送达本通知”,清华大学一本科生被公告退学处理

现代快报
2026-07-01 22:57:04
2026-07-02 10:39:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1119211文章数 1336546关注度
往期回顾 全部

科技要闻

可灵AI上市前夜,快手想给它融30亿美元

头条要闻

"狗咖"倒闭数十只哈士奇疑遭弃 女店主自称有400只狗

头条要闻

"狗咖"倒闭数十只哈士奇疑遭弃 女店主自称有400只狗

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

1.5T混动/综合续航约2000KM 全新一代红旗H7来了

态度原创

旅游
数码
教育
房产
军事航空

旅游要闻

青海乌兰: 炎夏湖迎客来 千年盐韵焕新彩

数码要闻

笔记本电脑全线涨价 商家预测7月还要涨20% 提前囤货商户已赚百万

教育要闻

教育部部署做好2026年中小学、幼儿园暑期安全工作

房产要闻

海南楼市新政:公积金最高可贷192万!

军事要闻

万斯:美伊间接会谈进展顺利

无障碍浏览 进入关怀版