网易首页 > 网易号 > 正文 申请入驻

具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能

0
分享至

新智元报道

编辑:LRS

【新智元导读】Magma是一个新型多模态基础模型,能够理解和执行多模态任务,适用于数字和物理环境:通过标记集合(SoM)和标记轨迹(ToM)技术,将视觉语言数据转化为可操作任务,显著提升了空间智能和任务泛化能力。

现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。

视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。

由于二维数字世界和三维物理世界之间存在差异,现有的VLA模型通常对任务进行简化,导致多模态理解能力偏弱,在跨任务和跨领域的泛化能力上不够通用。

微软、马里兰大学、威斯康星大学麦迪逊分校、韩国科学技术院、华盛顿大学的研究人员开发了一个具备多模态理解、行动预测的智能体基础模型Magma,不仅保留了视觉语言模型的语言理解能力(语言智能),还具备在视觉空间世界中进行规划和行动的能力(时空智能),能够完成从用户界面(UI)导航到机器人操作等各种智能体任务。

论文链接:https://arxiv.org/pdf/2502.13130

代码链接:https://microsoft.github.io/Magma

为了赋予Magma智能体能力,研究人员使用海量图像、视频和机器人数据集对其进行预训练:

在图像中,可操作的视觉对象(如用户界面中的点击按钮)通过「标记集合」(SoM,Set-of-Mark)进行标注,以便实现行动定位;

在视频中,物体的运动(如人类手部或机器人臂的动作轨迹)则通过「标记轨迹」(ToM,Trace-of-Mark)进行标注,以支持行动规划。

实验结果表明,SoM和ToM之间形成了良好的协同效应,Magma在UI导航和机器人操作任务上实现了最佳性能记录,同时在图像和视频相关多模态任务中的表现也优于其他常用的多模态模型。

多模态智能体建模

问题定义

通用的多模态AI智能体π能够同时执行多模态理解和行动执行,以过去的视觉观察图像L={I1, ..., Ik}和文本形式的任务描述作为输入,并输出一组至少包含T≥1个token的集合O:

其中,ctx为上下文,l ∈ {verbal,spatial}表示第i个token是语言token还是空间token

二维截图中的UI导航任务:对于「预订酒店」任务,智能体的输出应该包括表示动作语义类型的语言token(如type、click等)以及动作应用的具体位置(x, y)或矩形框(x, y, w, h);

三维世界中的机器人操作任务:对于「关闭抽屉」任务,智能体的输出包括终端执行器的六自由度(6-DoF)位移(x, y, z, 偏航角、俯仰角、翻滚角),还可以添加一个维度来表示夹爪是打开还是关闭状态;

多模态理解任务:如果任务仅与输入图像L有关,例如视觉问答(VQA)任务,问题就简化为对生成「输入图像/视频的文本描述」或「目标位置」。

尽管任务的输出形式看似不同,但研究人员通常会将所有输出统一转换为文本token,以便于模型的学习。

方法

研究人员提出了一种简单、有效的方法,结合「标记集合」(Set-of-Mark, SoM)和「标记轨迹」(Trace-of-Mark, ToM)将模型扩展到空间预测任务(可点击按钮)和时间维度,解决了两个通用性难题

1)如何构建一个统一的预训练接口,以便实现联合训练?

2)现有的视觉语言动作数据在数量和多样性上都较为有限,没有足够的数据用于扩大模型规模。

基于标记集合(SoM)的动作定位

「标记集合」提示方法最初是为了增强GPT-4V的视觉定位能力而提出的,但以往的研究主要利用SoM来增强现成的大型多模态模型(LMMs)的视觉语言定位能力,研究人员提出利用SoM来训练智能体模型,使其能够定位特定任务中的可操作点或区域,并在需要时进一步预测基本动作。

假设在时间步t,智能体观察到一张图像It,其大小为H×W×3(即高度、宽度和颜色通道),同时智能体的输入还包括任务描述和上下文信息。

先从图像中提取一组可操作的候选区域或点P = {p1, ..., pK},其中每个点pk可以是一个四维的矩形框坐标(例如x, y, w, h)或二维的点坐标(x, y),然后在图像上对应的位置叠加标记和矩形框,并用数字标签标记它们,例如M = {1: p1, 2: p2, ..., K: pK},从而生成一张带有标记的新图像。

模型需要从候选标记中选择相应的标记,并结合原始坐标,极大简化了智能体模型的动作定位任务。


基于标记轨迹(ToM)的动作规划

视频数据包含了大量人类动作和活动的信息,可以用来提升智能体模型的能力,但动作标签数据极为稀缺。

研究人员提出「标记轨迹」(Trace-of-Mark, ToM)的方法,将「叠加标记」(overlaying marks)的策略从静态图像扩展到动态视频,让智能体模型能够有效地从视频中学习规划和执行动作。

对于第t帧It中的K个标记,提取标记在接下来I帧中的对应位置,记为轨迹T = {Mt+1, ..., Mt+l},进一步要求模型预测有效标记的未来轨迹,其中trace[t+1:t+l]为标记集合T中有效标记的轨迹序列的一个子集。

ToM预测方法可以充分利用视频数据,迫使模型理解视频观察中的时间动态,并在采取下一步动作之前「向前看」;使用更少的token来捕捉更长时间范围内的动作相关目标动态,且忽略周围无关的内容。

研究人员采用点跟踪模型CoTracker来提取ToM数据。

建模

为了保持Magma所需的多模态理解能力,研究人员使用一个视觉编码器V,将每一帧图像编码成多个token,然后将所有token拼接成一个序列,并与编码任务描述的语言token一起输入到一个仅解码器的语言模型(LLM)中。

由于任务的多样性,研究人员选择ConvNeXt作为视觉主干网络,能够无缝处理各种分辨率图像和视频,能够很好地捕捉全局上下文,效果与结合全局和局部裁剪的方法相当。

智能体建模为一个自回归解码过程,即基于之前的所有输出、视觉编码器对图像的编码、任务描述以及上下文信息,来生成下一个输出。

实验结果

智能体能力

研究人员使用了ScreenSpot来评估用户界面(UI)动作定位和导航能力,使用VisualWebBench来测试其在网页环境中的表现,同时还用SimplerEnv来评估机器人操作任务的表现。

结果显示,Magma在所有测试中都持续超越了其他通用领域的大型多模态模型(例如LLaVA和Qwen-VL),以及特定领域的智能体模型,比如用于UI导航的SeeClick和用于机器人操作的OpenVLA;在用户界面任务上,Magma的零样本性能甚至超过了目前最先进的基于视觉的方法(结合了GPT-4V和Omniparser)。

Magma预训练模型的成功率比排名第二的OpenVLA高出19.6%,几乎达到了平均成功率的两倍。

空间推理

研究人员将Magma模型在用户界面(UI)导航和机器人操作任务上表现出色的原因归结为其在空间推理能力上的提升,然后在视觉空间推理(VSR)、BLINK和SpatialEval基准测试中进行评估。

结果可以看到,Magma在VSR和SpatialEval上的表现显著优于现有的方法,并且其预训练仅使用了大约2900万张图像,对比CogVLM使用了约15亿张图像,两个模型的性能大致相当;消融实验证明了标记集合(SoM)和标记轨迹(ToM)预训练任务在帮助Magma提升空间推理能力方面的有效性。

多模态理解

图像指令微调:研究人员在Magma-SFT-820K数据集上进行微调,然后将微调后的Magma模型与现有的视觉语言模型(VLMs)在一系列常用的图像推理基准测试上进行了比较,结果显示Magma在大多数任务上的表现都优于最近提出的VLMs,尤其是在TextVQA和ChartQA任务上,分别取得了约5%和22%的显著提升。

视频指令微调:研究人员报告了Magma模型在多个视频问答(QA)基准测试上的表现,包括IntentQA、NextQA、VideoMME和MVBench,结果展现了预训练方法的有效性。

Magma在不同基准测试中持续超越了大多数参数数量相当的最先进模型,表明Magma能够很好地理解和推理视频内容,即使在复杂的任务场景中也能表现出色。

参考资料:

https://huggingface.co/papers/2502.13130

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
向太唱衰李亚鹏!称全民拯救也没用,李亚鹏没能力又烂好心是硬伤

向太唱衰李亚鹏!称全民拯救也没用,李亚鹏没能力又烂好心是硬伤

离离言几许
2026-01-24 00:01:10
德隆带娇妻度假,42岁从拳坛退役,不工作也不缺钱花,二婚娶超模

德隆带娇妻度假,42岁从拳坛退役,不工作也不缺钱花,二婚娶超模

大西体育
2026-01-23 15:59:43
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
“和平委员会”草草开场,特朗普讲话吞吞吐吐 | 京酿馆

“和平委员会”草草开场,特朗普讲话吞吞吐吐 | 京酿馆

新京报评论
2026-01-23 11:47:51
34 岁港商赴京认亲,生父烈士继父元帅,母亲瞒 33 年遗书泣血

34 岁港商赴京认亲,生父烈士继父元帅,母亲瞒 33 年遗书泣血

唠叨说历史
2026-01-22 18:10:34
贝克汉姆长子抨击父母,小儿子发文暗讽哥哥忘本:你以为你是谁?

贝克汉姆长子抨击父母,小儿子发文暗讽哥哥忘本:你以为你是谁?

乡野小珥
2026-01-23 16:14:15
别去撩中年女人:她不是猎物,是你惹不起的人间清醒

别去撩中年女人:她不是猎物,是你惹不起的人间清醒

青苹果sht
2026-01-13 03:43:56
女篮一夜曝出两大冷门!全联盟第1被掀翻:张子宇6分2板惨遭弃用

女篮一夜曝出两大冷门!全联盟第1被掀翻:张子宇6分2板惨遭弃用

篮球快餐车
2026-01-24 01:57:30
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
刘凯任白银市委书记,河南濮阳人,已在甘肃履职超14年

刘凯任白银市委书记,河南濮阳人,已在甘肃履职超14年

极目新闻
2026-01-23 14:53:57
暴跌79%!广州价格大跳水!

暴跌79%!广州价格大跳水!

羊城攻略
2026-01-23 22:17:45
续航1500公里、永不自燃?2026年,“全固态电池”要烂大街了吗?

续航1500公里、永不自燃?2026年,“全固态电池”要烂大街了吗?

蓝色海边
2026-01-24 02:31:23
昭通市委书记市长,会见“蹦山咔拉咔”

昭通市委书记市长,会见“蹦山咔拉咔”

极目新闻
2026-01-23 20:13:00
徐朵生母徐莺身份成谜!网传并非空穴,真相藏多重隐情

徐朵生母徐莺身份成谜!网传并非空穴,真相藏多重隐情

草莓解说体育
2026-01-24 02:12:48
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
浙江48岁亿万富豪坚持晨跑仍心梗猝死,财富难换健康

浙江48岁亿万富豪坚持晨跑仍心梗猝死,财富难换健康

萧鑟科普解说
2026-01-22 19:44:16
余韩操纵股市罚没10个亿!雪球杀疯了,封杀!顶级游资余哥背锅...

余韩操纵股市罚没10个亿!雪球杀疯了,封杀!顶级游资余哥背锅...

金石随笔
2026-01-24 00:10:34
越共十四大提前闭幕,苏林再次登顶高位,高层权力版图如何重组?

越共十四大提前闭幕,苏林再次登顶高位,高层权力版图如何重组?

40度观察
2026-01-23 20:37:03
大寒后,打死也不能买的5种食物,商贩自己都不吃,别不当回事

大寒后,打死也不能买的5种食物,商贩自己都不吃,别不当回事

小茉莉美食记
2026-01-24 00:15:03
网友接兼职给“年糕”换水,以为是只小猫,结果竟是泡在水里的真年糕!“浙江人有自己的水养宠物”

网友接兼职给“年糕”换水,以为是只小猫,结果竟是泡在水里的真年糕!“浙江人有自己的水养宠物”

大象新闻
2026-01-24 00:13:03
2026-01-24 06:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14393文章数 66525关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

时尚
家居
手机
教育
旅游

今日热点:车银优代言广告被隐藏;《巅峰对决》主演担任米兰冬奥会火炬手……

家居要闻

在家度假 160平南洋混搭宅

手机要闻

iPhone日历增强指南:一键加入每日天气、倒数日、调休补班等信息

教育要闻

中国家庭普遍做错的教育行为是什么?吴军:追求同质化的教育,孩子的培养不需要盲目跟风

旅游要闻

古桥不古,却堪称是沙溪古镇的心脏,可惜我错过了这里的晨雾

无障碍浏览 进入关怀版