网易首页 > 网易号 > 正文 申请入驻

比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手

0
分享至

机器人前瞻2月21日报道,近日,微软研究院发布了一个多模态AI模型——Magma。Magma是首个能够在其所处环境中理解多模态输入并将其与实际情况相联系的基础模型,只要提供一个描述性目标,Magma就能够制定计划、执行行动以达成该目标。

Magma以视觉语言(VL)模型为基础,除了保留传统的语言和视觉的理解能力(语言智能)外,还解锁了空间智能的新技能,能够从多模态输入(用户界面截图、机器人图像、教学视频)中理解对象的物理位置、动作的时序逻辑,并在不同环境(数字界面与物理世界)中完成连贯的任务。

值得一提的是,论文的作者中,13位有12位应该是华人。中美AI、机器人竞赛的背后,果然还是在美华人和在华中国人之间的较量。


Magma 采用了深度学习架构和大规模预训练相结合的方法,该模型使用 ConvNeXt-XXL 视觉骨干处理图像和视频,同时使用 LLaMA-3-8B 语言模型处理文本输入。Magma 是通过一个包含3900万个样本的多样化数据集进行训练的,其中包括图像、视频和机器人动作轨迹。这个模型还创新采用了两项技术:“可标记集”(Set-of-Mark,SoM)和“轨迹标记”(Trace-of-Mark,ToM)。前者使模型能够标记 UI 环境中的可操作视觉对象,后者则使其能够追踪物体随时间的移动,提升未来行动的规划能力。


研究团队对包括ChatGPT在内的多个模型进行了零样本评估,结果显示,经过预训练的Magma模型在未进行任何特定领域微调情况下,是唯一一款能够执行全范围任务的模型。


将Magma和OpenVLA这两个模型应用到WidowX机械臂上,当让机械臂组装桌面上的热狗模型、把蘑菇模型放到盆中、把桌子上的抹布从左边移动至右边时,Magma可以让机械臂比较精确地完成任务,而OpenVLA则在物体抓取、移动上表现略逊色于前者。

Magma应用到WidowX机械臂并经过少样本的微调后,在分布内和分布外泛化任务中,都有着可靠的性能表现。

在LIBERO平台上进行的少样本微调,Magma在所有任务组中都取得了更高的平均成功率。


在Google Robots和Bridge上进行的零样本评估中,Magma模型也展现出了较强的零样本跨域鲁棒性,并在抓取多种不同物品等跨实体操作模拟任务中取得了不错成绩。


处理一些比较有挑战性的空间推理难题时,虽然Magma的预训练数据比GPT-4o少得多,但是也可以准确地进行回答。



针对多模态理解方面,Magma的表现甚至超越了Video-Llama2和ShareGPT4Video。比如,当给Magma提供一段视频时,看到有人拿起茶包,它能秒猜下一步要倒热水泡茶。

Magma成功整合了视觉、语言和行动,在机器人任务操作上表现出了较高的泛化能力。未来,随着模型研究的不断深入及模型规模的扩展,Magma也有望为解决更复杂的机器人操作问题提供不错的解决方案,让机器人距离真正的落地应用更进一步。

https://www.arxiv.org/pdf/2502.13130

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马官宣双核留队!中场铁闸拒不放人,曼联1.2亿挖角彻底梦碎

皇马官宣双核留队!中场铁闸拒不放人,曼联1.2亿挖角彻底梦碎

刘哥谈体育
2026-06-02 18:14:56
壹号土猪创始人回应商标争议:支持相关整治但实被“误伤”

壹号土猪创始人回应商标争议:支持相关整治但实被“误伤”

南方都市报
2026-06-02 16:33:30
他是樊振东的广东发小,曾长期在国家队陪练,如今在法国大杀四方

他是樊振东的广东发小,曾长期在国家队陪练,如今在法国大杀四方

以茶带书
2026-06-02 15:33:06
王菲背的珑骧帆布包又火了,这包已售罄,窦颖也去看谢霆锋演唱会

王菲背的珑骧帆布包又火了,这包已售罄,窦颖也去看谢霆锋演唱会

荒野老五
2026-05-31 20:16:24
访华结束,武契奇带着遗憾离京:签了几十份大单,唯独没有歼10CE

访华结束,武契奇带着遗憾离京:签了几十份大单,唯独没有歼10CE

素衣读史
2026-05-30 21:26:52
欠了网贷和银行钱还不起,最坏结果就这3种,看完心里有底

欠了网贷和银行钱还不起,最坏结果就这3种,看完心里有底

健身狂人
2026-06-01 17:25:53
大片轮流扑街,IMAX却盆满钵满,影院渡劫指南来了

大片轮流扑街,IMAX却盆满钵满,影院渡劫指南来了

摸鱼算法
2026-06-01 18:15:16
【风云】欧莱雅起诉盒马!盒马售卖的部分美妆产品被确认为假货

【风云】欧莱雅起诉盒马!盒马售卖的部分美妆产品被确认为假货

趣味萌宠的日常
2026-06-02 00:31:33
戏混子醒醒吧!全程一个表情,抿嘴干瞪眼,难怪张嘉益都带不动她

戏混子醒醒吧!全程一个表情,抿嘴干瞪眼,难怪张嘉益都带不动她

冷紫葉
2026-06-01 20:13:32
嫁给谢苗14年,她专心在家相夫教女,如今42岁丈夫终于再度翻红

嫁给谢苗14年,她专心在家相夫教女,如今42岁丈夫终于再度翻红

阿废冷眼观察所
2026-06-01 18:15:21
离职一年,前上海主持人丹丹终于对“辞职”释怀,曾一度情绪失控

离职一年,前上海主持人丹丹终于对“辞职”释怀,曾一度情绪失控

东方不败然多多
2026-06-02 15:08:12
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
纹枰鏖战尽显锋芒!屠晓宇厚势成型,逆风擒下韩第一人申真谞!

纹枰鏖战尽显锋芒!屠晓宇厚势成型,逆风擒下韩第一人申真谞!

L76号
2026-06-02 11:50:16
000586!临近午盘,直线涨停!600487,超40亿主力资金净流入!

000586!临近午盘,直线涨停!600487,超40亿主力资金净流入!

证券时报e公司
2026-06-02 12:21:56
今年小区里出现很多“假穷人”,他们放着几十万的车不开,骑着电驴去上班;取快递的次数也少了;还拿出几年前的衣服来穿

今年小区里出现很多“假穷人”,他们放着几十万的车不开,骑着电驴去上班;取快递的次数也少了;还拿出几年前的衣服来穿

背包旅行
2026-06-02 11:48:18
陪睡只是入门!认干爹、舔手指,背地里的阴暗面完全藏不住了...

陪睡只是入门!认干爹、舔手指,背地里的阴暗面完全藏不住了...

芳华青年
2026-05-18 13:07:54
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
最高预售价200万元尊界搭载国产朝阳轮胎引发热议,余承东称做高端拔高了中国汽车产业能力

最高预售价200万元尊界搭载国产朝阳轮胎引发热议,余承东称做高端拔高了中国汽车产业能力

金融界
2026-05-31 21:56:07
上海为何把最贵的空间,留给了普通人?

上海为何把最贵的空间,留给了普通人?

城市研究室
2026-06-02 15:37:16
上面有解放军,下有公安特警,为什么我国还死抓着武警不放?

上面有解放军,下有公安特警,为什么我国还死抓着武警不放?

阿芒娱乐说
2026-05-25 08:28:21
2026-06-02 21:27:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11957文章数 117090关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

菲防长称中方未展现长期诚意 外交部:完全没感恩之心

头条要闻

菲防长称中方未展现长期诚意 外交部:完全没感恩之心

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

游戏
教育
本地
时尚
健康

前《地平线》团队新作《Clutch》公布!黑人主角?

教育要闻

事关中考命题,南京一些老师被“关起来了”?

本地新闻

用剪纸的方式,打开江苏扬州

推广|| 入夏第一双鞋买得好成功!暴走1w步、搭遍小裙子

违规干细胞应用,暗藏致命隐患!

无障碍浏览 进入关怀版