网易首页 > 网易号 > 正文 申请入驻

产业丨谷歌发布本地VLA模型,具身智能正在进入“端侧时代”

0
分享至

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言

如果过去十年机器人领域的焦点先后经历了 [ 可见 ] 的视觉感知、 [ 可理解 ] 的语言理解,那么在 VLA模型出现之后,机器人开始进入 [ 动作精准 ] 的第三阶段。

目前, VLA模型已逐渐成为具身智能行业的共识,被视为连接感知、语言和行为的通用架构。

VLA模型是通往通用智能的关键基础,它使机器人能够从互联网等多源数据中学习,并将这些学习转化为具体行动。

作者| 方文三

图片来源 |网 络

本地VLA模型Gemini Robotics On-Device发布

近日,谷歌发布了Gemini Robotics On-Device,这一具身智能离线模型,实现了视觉-语言-动作(VLA)多模态大模型在具身机器人上的本地离线运行。

能够同步处理视觉输入、自然语言指令以及动作输出。即便在无网络环境下,该模型也能保持稳定运行。

这一系列复杂的处理过程,如今均能在机器人的内部计算单元中实现。

特别值得注意的是该模型的适应性和通用性。

谷歌指出,Gemini Robotics On-Device是首个向开发者开放微调功能的机器人VLA模型,开发者能够根据自己的特定需求和应用场景,对模型进行个性化训练。

研究显示,仅需50至100个新的任务演示(通常通过远程操作机器人完成),模型便能迅速学习并掌握新技能,展现出卓越的[快速任务适应]能力。

此外,谷歌还公开了相应的软件开发工具包(SDK),标志着具身智能技术向实用化迈出了新的一步。

Gemini Robotics是谷歌于三月份推出的VLA系列模型之一,其核心在于将多模态大模型的能力引入现实世界。

而Gemini Robotics On-Device,顾名思义,是专为机器人设备本地运行而优化的模型。旨在以最低限度的计算资源实现机器人的智能化。

本地模型的优势在于,即便在网络连接不稳定或完全无连接的情况下,也能确保具身机器人的性能稳定。

在多种测试场景中,Gemini Robotics On-Device展现了强大的视觉、语义和行为泛化能力,能够理解自然语言指令,并完成如解开袋子或折叠衣物等高度灵巧的任务。

由于该模型独立于数据网络运行,它特别适合对延迟敏感的应用,并确保在网络间歇性或零连接的环境中也能稳定工作。

评测数据显示,On-Device版本在泛化性能测试中表现突出。

尽管在视觉泛化、语义理解和行为泛化等多个维度上,与云端版本的Gemini Robotics相比略有差距,但已大幅超越了先前最佳的本地模型。

在处理分布外任务和复杂多步骤指令时,Gemini Robotics On-Device相较于先前的本地模型也展现出了显著的优势。

Gemini Robotics On-Device的推出,象征着具身智能从依赖云端计算能力向本地自主运行的关键转变。

具身智能的部署一直面临挑战

在此之前,包括谷歌在内的许多机器人系统,通常采用一种混合架构:在机器人上部署一个较小的模型以处理快速响应,同时将需要复杂推理和规划的任务交由云端强大的服务器处理。

尽管这种方法可行,但其对网络连接的稳定性和速度提出了极高的要求。

任何网络延迟或中断都可能导致机器人反应迟缓甚至停摆;

同时,将传感器数据(尤其是来自家庭或医疗等隐私敏感环境的视觉数据)上传至云端,也引发了持续的隐私和安全顾虑。

①对云计算资源的重度依赖,这限制了机器人在网络不稳定或无网络环境下的独立作业能力;

②模型体积庞大,难以在机器人有限的计算资源上高效运行。

目前大多数机器人需要经过成千上万次的训练,才能完成一个任务。

谷歌希望为机器人领域提供一个开放、通用且易于开发的平台,正如安卓系统对智能手机行业所做的那样。

过去受限于带宽和计算能力,许多机器人AI仅能进行示范。

具身智能技术的发展长期受到对云计算资源高度依赖的制约,这导致机器人在缺乏网络连接或网络不稳定的情况下难以独立完成任务。

此外,由于模型体积庞大,它们在机器人有限的计算资源上难以实现高效运行。

为机器人产业的实际应用开辟了新的道路,为机器人在更广泛场景中的应用提供了可能性。

例如,机器人在无网络连接的工厂中进行精确的零件装配、在灾区废墟中进行自主救援等应用场景,都依赖于机器人端侧模型的部署。

目前,由于各类机器人在本体结构、自由度以及传感器配置上的差异,实现统一的软件架构颇具挑战。

一旦硬件标准实现统一,类似于智能手机生态系统中USB接口、键盘、屏幕等通用组件所形成的规范,将显著促进算法标准化和本地部署的实现。

具身智能正在进入端侧时代

本地VLA模型将使机器人更适合家庭、医疗、教育等敏感场景,解决数据隐私、实时反应、安全稳定性等核心挑战。

在过去的几年中,大型语言模型的[端侧部署]已成为一个重要趋势。

从最初依赖大规模云端计算资源,到如今能够在手机、平板等边缘设备本地运行,模型的压缩优化、推理加速与硬件协同不断取得进展。

同样的演进路径,正在具身智能领域逐步展开。

VLA模型(视觉-语言-动作模型)作为具身智能的核心架构,本质上是赋予机器人从多模态信息中理解任务并作出相应行动的能力。

此次大模型版本的发布,也可能在业界引发连锁反应。随着AI算力和模型架构的持续演进,[边缘智能]正从传统的物联网走向以具身智能为代表的更高级阶段。

本地化VLA的引领,预示着具身智能发展的新阶段。

这一突破性技术标志着机器人AI从依赖云端计算向自主边缘智能的转变,为工业制造、医疗护理、家庭服务等领域带来了前所未有的可能性。

彻底摆脱对云端的依赖,机器人AI实现了[独立思考]。

传统机器人AI系统普遍依赖于云端计算资源,通过网络将传感器数据上传至远程服务器进行处理后再传回指令。

尽管这种架构的计算能力强大,但其固有的缺陷包括网络延迟、连接不稳定和隐私安全问题。

今年,诸如谷歌、微软、Figure AI等国际企业纷纷推出了各自的VLA模型,与此同时,国内的银河通用、智元机器人、自变量机器人等公司也已在这一领域展开了相应的战略部署。

今年6月1日,银河通用正式推出了自主研发的产品级端到端导航大模型TrackVLA。

该模型具备纯视觉环境感知、语言指令驱动、自主推理能力以及零样本泛化能力的具身大模型。

而在一周后的2025北京智源大会上,银河通用又发布了全球首个面向零售场景的端到端VLA大模型GroceryVLA。

尾:

从全球具身智能的发展趋势来看,Gemini Robotics On-Device的推出,代表了大模型技术在机器人领域的一次重大范式转变。

过去十年,机器人智能主要依赖于云端大模型的支持,而未来将转向边缘本地部署、大模型小型化以及高频自适应更新的新阶段。

这一趋势对谷歌、特斯拉等具身智能国际巨头至关重要,同时也对我国具身智能产业链提出了更高的要求。

部分资料参考:新智元:《谷歌让机器人[长脑子]了!首发离线具身VLA模型,断网精准操控》,量子位:《谷歌发布本地具身智能模型!全程无联网执行精细操作,从人形机器人到工业机器人全覆盖》,DeepTech深科技:《谷歌发布Gemini Robotics On-Device,首次实现机器人AI模型完全本地化运行》,蓝鯨TMT:《谷歌发布本地VLA模型,机器人界的[安卓系统]要来了?》,头部科技:《机器人[本地最强大脑]诞生,谷歌DeepMind推出新一代VLA模型,国内研究多维进击》,智维洞察:《谷歌发布Gemini本地模型,具身智能再提速》,机器觉醒时代: 《谷歌RT-1模型—— 具身智能VLA模型在早期的重要探索》

本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。

请务必注明:

「姓名 + 公司 + 合作需求」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
儿童绘本居然有床戏!尺度大胆细节露骨,儿童读物底线何在?

儿童绘本居然有床戏!尺度大胆细节露骨,儿童读物底线何在?

今朝牛马
2026-04-28 22:43:44
印度男子扛亡姐尸骸去银行取款,视频疯传:当事人扛着遗体在烈日下走约3公里,带到银行柜台,证明“她已经死了”;当地警方和政府介入

印度男子扛亡姐尸骸去银行取款,视频疯传:当事人扛着遗体在烈日下走约3公里,带到银行柜台,证明“她已经死了”;当地警方和政府介入

扬子晚报
2026-04-28 19:57:26
起底“性商教母”周媛

起底“性商教母”周媛

中国新闻周刊
2026-04-28 23:01:12
狂省3.2亿仍排东部第2!史蒂文斯当选年度最佳高管:三年两次获奖

狂省3.2亿仍排东部第2!史蒂文斯当选年度最佳高管:三年两次获奖

罗说NBA
2026-04-29 05:40:23
中科大少年班监控事件!同学爆出更多细节,没弑母已经很不错了!

中科大少年班监控事件!同学爆出更多细节,没弑母已经很不错了!

知晓科普
2026-04-29 07:00:24
刚下飞机就被抓!美国佬用抓孟晚舟的套路、逮捕了中国公民徐泽伟

刚下飞机就被抓!美国佬用抓孟晚舟的套路、逮捕了中国公民徐泽伟

吃货的分享
2026-04-29 04:49:05
中国女性单身情况:35岁后未婚不多,但离婚、丧偶增加

中国女性单身情况:35岁后未婚不多,但离婚、丧偶增加

六子吃凉粉
2026-04-29 08:48:30
尼克斯大胜老鹰3-2夺赛点:布伦森39+8创新高 唐斯16+14+6

尼克斯大胜老鹰3-2夺赛点:布伦森39+8创新高 唐斯16+14+6

醉卧浮生
2026-04-29 10:46:43
煞费苦心!墨菲使用一箩筐暗黑战术,特殊开球限制赵心童犀利进攻

煞费苦心!墨菲使用一箩筐暗黑战术,特殊开球限制赵心童犀利进攻

杨华评论
2026-04-29 08:17:28
76人逆转大胜绿军追到2-3:恩比德33+8爆发 塔图姆24+16

76人逆转大胜绿军追到2-3:恩比德33+8爆发 塔图姆24+16

醉卧浮生
2026-04-29 09:34:32
黑龙江一博主“打假”商家合成羊肉卷引热议,当地:溯源供货商抽检肉卷,结果均为羊肉

黑龙江一博主“打假”商家合成羊肉卷引热议,当地:溯源供货商抽检肉卷,结果均为羊肉

齐鲁壹点
2026-04-29 07:09:56
美国防长夫人被指穿“中国电商裙”赴宴,售价仅14美元,引发热议

美国防长夫人被指穿“中国电商裙”赴宴,售价仅14美元,引发热议

译言
2026-04-28 09:56:08
森林狼vs掘金伤病情况:爱德华兹至少伤停2周 戈登小腿严重拉伤

森林狼vs掘金伤病情况:爱德华兹至少伤停2周 戈登小腿严重拉伤

醉卧浮生
2026-04-29 10:04:15
NBA敲定反摆烂方案!命名3-2-1乐透规则 将于2027年选秀生效

NBA敲定反摆烂方案!命名3-2-1乐透规则 将于2027年选秀生效

罗说NBA
2026-04-29 06:06:03
湖人vs火箭G5伤病报告:东契奇杜兰特伤停 里夫斯出战成疑或复出

湖人vs火箭G5伤病报告:东契奇杜兰特伤停 里夫斯出战成疑或复出

醉卧浮生
2026-04-29 08:54:16
天价球员!8个选秀权+文班亚马!疯了吧你!

天价球员!8个选秀权+文班亚马!疯了吧你!

柚子说球
2026-04-28 14:08:37
特朗普也没想到,一场战争把中国电车送到了新高度。。。

特朗普也没想到,一场战争把中国电车送到了新高度。。。

差评XPIN
2026-04-29 00:03:13
周乐伟涉嫌严重违纪违法,主动投案!曾任格力集团董事长

周乐伟涉嫌严重违纪违法,主动投案!曾任格力集团董事长

每日经济新闻
2026-04-29 00:11:10
国安重磅披露:境外组织资助"躺平网红",批量生产"躺平即正义"

国安重磅披露:境外组织资助"躺平网红",批量生产"躺平即正义"

军武咖
2026-04-28 14:01:19
阿联酋油企通知客户下月在霍尔木兹海峡外提货

阿联酋油企通知客户下月在霍尔木兹海峡外提货

每日经济新闻
2026-04-28 21:20:34
2026-04-29 10:59:00
AI芯天下 incentive-icons
AI芯天下
从芯出发,用心服务
6691文章数 169关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

男子强奸大嫂又杀人被执行死刑 大哥:谈不上高兴难过

头条要闻

男子强奸大嫂又杀人被执行死刑 大哥:谈不上高兴难过

体育要闻

巴黎5-4拜仁夜:身价1.55亿的“足坛笑话”,成了最硬的底牌

娱乐要闻

单依纯演唱会再唱“区区三万天”宣战

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

艺术
数码
手机
教育
公开课

艺术要闻

华国锋、朱镕基聚焦千年学府,田英章到底是书法家还是写字匠?

数码要闻

华为WATCH FIT 5上市 首发腕上微运动 支持5ATM防水

手机要闻

苹果已修复天气应用服务异常,影响约3小时45分钟

教育要闻

“我的女儿,被这些东西毁掉了!”一盒廉价珠宝,让家长情绪失控

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版