蚂蚁集团旗下具身智能公司灵波科技本周接连开源四个大模型。
1 月 30 日,蚂蚁灵波科技宣布开源具身世界模型LingBot-VA。LingBot-VA提出自回归视频-动作世界建模框架,将大规模视频生成模型与机器人控制深度融合,模型在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列,让机器人能够像人一样“边推演、边行动”。
而从1月27日至29日,灵波科技已相继开源高精度空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA和世界模型 LingBot-World。
其中,LingBot-Depth模型与奥比中光合作,主要攻克的是机器人的视觉难题,让机器人精准抓取透明反光物,更能够“看清楚”物理世界。而LingBot-VLA是蚂蚁开源的第一款具身智能基座模型,实现了跨本体、跨任务泛化能力,推动“一脑多机”走向可规模化落地,缓解具身智能模型落地面临的泛化性问题。LingBot-World则是一款为具身智能、自动驾驶及游戏开发等场景创造高保真、可交互的虚拟训练环境的世界模型,在多项关键指标上,蚂蚁称 LingBot-World可对标Google Genie 3。
![]()
一周大模型“四连发”的背后,与阿里云在大模型发展中坚持开源策略一样,蚂蚁也正在具身智能领域尝试以开源建立行业影响力。成立灵波科技时,蚂蚁曾表示灵波要打造行业领先的机器人产品,如今,这个野心进一步向具身智能的基座领域扩大。
值得一提的是,除了模型权重的开源,蚂蚁在LingBot-VLA的开源中还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库,有望降低开发者的模型训练周期和成本,降低开发者商业化落地的算力与时间门槛。
“具身智能要想大规模应用,依赖高效的具身基座模型,这直接决定了是否可用以及能否用得起。蚂蚁期待加速具身智能技术的迭代与规模化应用,助力AGI更快到来。”LingBot-VLA开源的同时,蚂蚁灵波科技CEO朱兴如此表示。
具身智能仍在经历从实验室走向千行百业的难关。一方面,蚂蚁等大厂的AGI战略向物理世界延伸或许将加速这一进程,另一方面,这也意味着,未来具身智能的产业竞争将从“技术卡位”进一步蔓延向全栈能力与生态协同的建设之中。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.