网易首页 > 网易号 > 正文 申请入驻

数据:99%+1%,能实现“从0到10000”——银河通用王鹤:让机器人甩掉遥控器,“睁开眼”干活

0
分享至

  新华社北京9月15日电 9月15日,《新华每日电讯》发表题为《数据:99%+1%,能实现“从0到10000”——银河通用王鹤:让机器人甩掉遥控器,“睁开眼”干活》的报道。


  北京银河通用机器人有限公司创始人兼首席技术官王鹤。受访者供图

  8月,全球首个城市级常态化运营的人形机器人示范区落地北京。来自北京银河通用机器人有限公司的“银河太空舱”——由机器人经营的无人超市开张,具身智能真正走进大众日常生活。作为专注于研发人形机器人硬件和具身智能大模型的机器人企业,银河通用率先实现机器人在工业、零售等场景批量化落地,其自研机器人Galbot在机器人格斗赛等赛事上也斩获佳绩。

  每次有机器人火上热搜,评论区都有不少人强调一个现实:目前,绝大多数机器人离开人工和遥控,还是会“原形毕露”。

  而银河通用的机器人Galbot却有所不同:它不仅无需“遥控”,还能自主干活。

  眼下,具身智能的最大困境,既非硬件,也非模型,而在于数据。不论是让机器人从动作智能转向认知智能,还是提升机器人的泛化性、鲁棒性(指系统、算法或模型面对外部干扰、输入异常或内部参数变化时维持稳定运行并输出预期结果的能力),关键在于数据的丰富性和准确性。

  而一个让难度再进阶的考验是,想要真正实现商业闭环,还要权衡数据获取的质量、成本与效率。

  记者:机器人发展的优先级,应侧重于能力的展示,还是产业的切实赋能?在发展方向上,业内分歧多还是共识多?

  王鹤:今年以来,机器人企业在两种能力的选择上逐步有了区分度。一类以宇树科技为代表,其机器人擅长运动、舞蹈、拳击,特点是以腿足乃至全身控制为主,能展现出精彩的运动能力。还有一类是以银河通用为代表的“干活派”,依靠视觉反馈闭环,展现出在实际场景中干活的能力。“干活派”里,大致还可分为视觉算法+轨迹生成,与端到端VLA(即视觉-运动-动作一体化生成)两种技术路径。

  其实,不少人形机器人跳舞、跑步,并没有用到视觉传感器。今年4月在北京举行的全球首个机器人半程马拉松上,不少观众注意到部分机器人“运动员”的不远处,有人用遥控器遥控机器人跑步、转弯或加速,实际上机器人是“闭着眼”跑的。这样的技术现状跟机器人“生产力时代”还不是一回事,毕竟,没有活是闭着眼睛干的。

  今年,具身智能的场景落地在加快。以工业场景为例,银河通用的机器人已实现流水线搬运、分拣等环节的规模化应用。零售场景中,银河通用在北京海淀已成功落地10多家配备人形机器人的智慧药房,并计划年内在全国开设100家。此外,银河通用的机器人已开始售卖零食、咖啡等商品。

  记者:机器人完成酷炫的、令人眼前一亮的动作,许多情况下还是预编排的动作序列、人工遥控与视频剪辑共同作用的结果。为什么会出现“demo(演示视频)先行、落地乏力”?

  王鹤:秀一段5分钟的demo,对机器人的可靠性、稳定性要求并不高,不能证明它是能24小时工作的高可靠性产品。

  demo与产品的差距主要来自两方面。一是泛化性不足,视频片段展示的多为精心布置的受控环境,如果换个物体、环境甚至是光线,机器人就难以工作了,这显然还不是成熟的产品。二是硬件不可靠,如果机器人用上一会儿就需要人来维修,也显然还不能大规模投入使用。机器人的核心功能是替人去劳动,而不是成为花瓶一样的摆设。

  记者:要想“拿掉机器人的遥控器”,核心在于什么?

  王鹤:在于能够自主执行的模型“大脑”,且能实现跨场景泛化。今年初,银河通用以10亿级合成大数据,端到端训练了一个VLA大模型,以视觉作为输入,模型实时输出当前机器人末端执行器应当如何移动,是一个闭环反馈模型,能够实现对不同场景中移动物体的抓取。6月,又推出了端到端导航大模型,使机器人能够拥有“听—看—懂—走”闭环运动能力。

  另一个核心在于硬件的性能要够用、好用,精度要尽可能高。

  记者:机器人实现泛化的关键在于什么?

  王鹤:数据。可以说数据决定了机器人能力的下限。

  我的观点是,现阶段合成数据可用于解决从0到1的问题,利用真实遥操采集的数据可解决从1到100的问题,从100到10000的问题则交由视频数据处理,让机器进行学习。具身智能所依靠的数据,99%可借助高质量的合成数据完成,只有在合成数据无法处理的情况下,才需要有针对性地采集使用1%的真实数据。

  端到端具身大模型面临的困难,与自动驾驶所运用的端到端大模型有所不同。自动驾驶所依靠的数据来源广泛、数量庞大,且采集成本为负。目前,头部人形机器人厂商量产的机器人仅为千台级别,难以达到万台规模。在现实中,让所有机器人都投入不同场景自主工作,以供真人采集上亿条数据,并不具有现实可行性。

  更为切实可行的解决方案是,先利用合成数据完善抓取、移动、放置等功能,助力具身智能开拓市场,先完成那99%。而生成高质量合成数据也存在一定门槛,需具备出色的图形学、物理仿真、物理渲染、自动动作合成管线等一系列完整的基础设施,还需要长期的核心技术积累。

  记者:什么能称为高质量的数据?该如何评价采集或仿真获得的数据够不够好、够不够用?

  王鹤:数据的“质”比“量”重要。如果数据千篇一律、同质性太高,那么它的价值就非常有限。高质量数据意味着它是多元的,能够体现柔性物体的操作,具备场景的泛化性。从机器学习的角度讲,训练数据能覆盖尽可能多元的测试数据的分布,机器人的学习就越高效,学成之后,它就能在陌生环境抓取一个此前没见过的东西。

  记者:现有的模型架构够用吗?

  王鹤:不能说完全成熟,但是够用了。模型方面一直有进展,但起决定性作用的是数据。数据足够的情况下,好的模型能学得更好,但数据不够时,好的模型也会变成“差生”。好比教一个3岁小孩学围棋,一上来就教高端技巧并不现实,得先让他知道什么是黑子白子。

  记者:机器人商业落地,难在哪里?技术突破速度与场景适配深度之间的平衡,如何把握?

  王鹤:可批量复制的场景落地,将是具身智能的“生死分水岭”。在我看来,未来3年左右,能找到可以击穿的场景就能留在牌桌,找不到的将会出局。未来1年,如果能实现千台到万台的机器人批量交付,行业价值才算得到验证,具身智能的泡沫也将被剥离。

  事实上,如果能把抓取、移动、放置这类“简单”操作的泛化性问题彻底解决,已堪称具身智能发展过程中的一个里程碑。这一技术的成熟足够打开数千亿元的市场,使机器人在零售、前置仓、车厂分拣等多个场景中帮助人类完成繁重劳动。

  记者:普林斯顿大学一门哲学课花了一整个学期讨论一个问题——先有语言,还是先有思维。这个讨论是关于人的,但从这个视角看,机器人的语言形成、认知形成,是否与人类相仿?大语言模型、推理模型的发展,如何影响机器人的进化?

  王鹤:不是所有的思维活动都基于语言。拿猩猩举例,猩猩学习某个技能,靠的是另一只猩猩在它面前演示一遍,也就是说,技能是靠具身的学习来传播的。即使语言交流不发达,猩猩也一样具有视觉思维、空间思维、情感思维。

  人类的思维是一个复杂的认知过程,人类的语言和思维在互动中塑造。语言能够使思维在更大范围内传播,思维涉及心智层面对信息的处理,包括概念形成、问题解决、决策制定与反思等,可以影响语言的演化与延伸。所以说人类智能里,思维能力、语言能力、操作能力都是使人类拥有地球上迄今为止最强智能的重要因素。

  记者:ChatGPT横空出世时,有人说“语言即智能”;人形机器人热潮来袭,又有人说“身体即智能”。也许在今天,只以人的维度评价智能已经不够了。你如何定义“智能”?人的智能、机器人的智能是否有一个交汇点?

  王鹤:智能就是解决问题的能力。无论对于人类、其他动物还是机器人,遇到问题后能给出解决办法的能力,就是智能。面对一瓶饮料,人类利用语言沟通请有工具的人打开它,动物徒手打开它,机器人给出一个恰好的力来打开它——调用能力的方式不同,但这都是智能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
福建小伙在柬埔寨街头流浪,被打致身上多处伤口,当地华人救助后开直播帮忙找到家人

福建小伙在柬埔寨街头流浪,被打致身上多处伤口,当地华人救助后开直播帮忙找到家人

潇湘晨报
2026-01-16 19:52:12
李湘还能活多久

李湘还能活多久

求实处
2026-01-16 19:43:38
原来聂卫平的父亲是他,难怪能够十连胜为国争光,真是虎父无犬子

原来聂卫平的父亲是他,难怪能够十连胜为国争光,真是虎父无犬子

以茶带书
2026-01-16 17:17:29
西贝老板昏了头,居然找来一群臭名昭著的微博“爱国大V”帮场子

西贝老板昏了头,居然找来一群臭名昭著的微博“爱国大V”帮场子

云中有一鹤
2026-01-17 01:08:27
国家出手,李湘全网账号被封!知情人曝原因,比闫学晶风波还恶劣

国家出手,李湘全网账号被封!知情人曝原因,比闫学晶风波还恶劣

阿纂看事
2026-01-16 14:58:49
人民日报点名批评,这类主播将被严厉打击,乱象已经存在多年

人民日报点名批评,这类主播将被严厉打击,乱象已经存在多年

新游戏大妹子
2026-01-14 13:07:41
三位离退休“老干部”分别在美国、日本和澳大利亚去世...

三位离退休“老干部”分别在美国、日本和澳大利亚去世...

深度报
2026-01-15 22:44:55
中方高规格接待,卡尼赴京吃晚宴,现场安排特殊,交易迎来窗口期

中方高规格接待,卡尼赴京吃晚宴,现场安排特殊,交易迎来窗口期

浪子阿邴聊体育
2026-01-16 01:25:59
茅台:民企纳税百万可申购平价飞天

茅台:民企纳税百万可申购平价飞天

21世纪经济报道
2026-01-16 18:59:48
5-3!3-2!U23亚洲杯一夜2队晋级4强:越南加时绝杀 日本点球逆转

5-3!3-2!U23亚洲杯一夜2队晋级4强:越南加时绝杀 日本点球逆转

侃球熊弟
2026-01-17 02:24:21
因房东翻倍涨价,北京嫣然天使儿童医院共欠租金2000多万或被关停,李亚鹏的采访视频曝光后,公众涌入捐款入口,捐款金额已达881万

因房东翻倍涨价,北京嫣然天使儿童医院共欠租金2000多万或被关停,李亚鹏的采访视频曝光后,公众涌入捐款入口,捐款金额已达881万

极目新闻
2026-01-16 11:25:23
罗永浩、贾国龙均被禁言

罗永浩、贾国龙均被禁言

扬子晚报
2026-01-16 22:36:42
美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

百态人间
2025-12-13 16:07:09
俄新型无人机首次被发现通过星链网络操控,俄军全面使用星链

俄新型无人机首次被发现通过星链网络操控,俄军全面使用星链

山河路口
2026-01-16 18:52:11
贾国龙宣布晚上10点要全面回应罗永浩后,曝2人账号均已被禁言

贾国龙宣布晚上10点要全面回应罗永浩后,曝2人账号均已被禁言

可达鸭面面观
2026-01-16 22:44:49
宝马X5价格再下放!最高优惠10.9万,网友表示:还要啥奥迪?

宝马X5价格再下放!最高优惠10.9万,网友表示:还要啥奥迪?

汽车网评
2026-01-16 22:07:17
悲壮啊,贾国龙要跟罗永浩拼刺刀了!

悲壮啊,贾国龙要跟罗永浩拼刺刀了!

葱哥说
2026-01-16 20:57:31
拔出萝卜带出泥!李湘全网被禁关,王诗龄身份遭质疑,前夫已被抓

拔出萝卜带出泥!李湘全网被禁关,王诗龄身份遭质疑,前夫已被抓

一娱三分地
2026-01-16 19:22:29
多地接连发生醉驾肇事致多死恶性事故,公安部提示:抵制酒驾

多地接连发生醉驾肇事致多死恶性事故,公安部提示:抵制酒驾

澎湃新闻
2026-01-16 11:05:12
47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

古希腊掌管松饼的神
2026-01-15 11:14:09
2026-01-17 03:28:49
新华社 incentive-icons
新华社
新华社是国家通讯社
643665文章数 2425940关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

美媒披露:美国出动海军陆战队和福特号航母

头条要闻

美媒披露:美国出动海军陆战队和福特号航母

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

本地
房产
数码
手机
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

房产要闻

喜封金顶 臻境初呈丨中粮·铂悦壹号3#楼封顶大吉!

数码要闻

熊猫MX34U7 34英寸带鱼屏显示器发布,售价1299元

手机要闻

真我Power再曝,6.78英寸曲面屏、万级大电池

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版