网易首页 > 网易号 > 正文 申请入驻

微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了

0
分享至

新智元报道

编辑:LRST

【新智元导读】OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。

图形用户界面(GUI)自动化需要智能体具备理解和交互用户屏幕的能力。

然而,使用通用大型语言模型(LLM)作为GUI智能体仍然存在难点:1)如何可靠地识别用户界面中的可交互图标,以及 2)理解截图中各种元素的语义,并准确地将预期的操作与屏幕上的相应区域关联起来。

OmniParser通过将UI截图从像素空间「token化」为LLM可解释的结构化元素,弥合了这一差距,使得LLM能够在一组已解析的可交互元素基础上进行基于检索的下一步动作预测。

代码: https://github.com/microsoft/OmniParser/tree/master

模型: https://huggingface.co/microsoft/OmniParser-v2.0

Demo:https://huggingface.co/spaces/microsoft/OmniParser-v2

OmniParser方法概述

可交互区域检测

从UI屏幕中识别可交互区域是推理用户任务应执行何种操作的关键步骤。与其直接让GPT-4o预测屏幕上应操作的xy坐标,研究人员采用Set-of-Marks,在UI截图上叠加可交互图标的边界框,并让GPT-4V生成要操作的边界框ID。

具体而言,研究人员构建了一个独特UI截图的可交互图标检测数据集,每张图片都标注了从DOM tree提取的可交互图标的边界框。

数据采集时,首先从Bing Index热门网址中随机抽取100,000个URL,并从其DOM中提取网页的可交互区域边界框。部分网页及其可交互区域示例如图2所示。

融合功能性icon semantics

研究人员发现,仅输入带有边界框和对应ID的UI截图,往往会导致GPT-4o产生误导性预测,这一局限性可能源于GPT-4o在同时执行两个任务时的能力受限:一是识别每个图标的语义信息,二是预测特定图标的下一步操作。

为了解决这一问题,研究人员在提示(prompt)中加入功能的局部语义信息。

具体而言,对于可交互区域检测模型识别出的每个图标,使用一个微调模型生成该图标的功能描述。

通过构建专门的图标描述数据集,研究人员发现该模型在常见应用图标的描述上更加可靠;在UI截图的视觉提示基础上,加入局部边界框的语义信息(以文本提示的形式)能够显著提升GPT-4o的理解效果。

构建专用数据集

OmniParser的开发始于两个核心数据集的构建:

  • 可交互图标检测数据集:该数据集来源于Bing Index热门网页,并经过自动化标注以突出可点击和可操作区域。

  • 图标描述数据集:该数据集为每个UI元素关联其功能描述,是训练模型理解检测元素语义的关键数据。研究人员收集了苹果App store和windows app store每个app类别前十名的app icon logo,和一系列常用software界面的icons的image/caption pair作为训练数据

OmniParser V1实验结果

通过这些解析结果,OmniParser显著提升了GPT-4V在多个基准测试(ScreenSpot、Mind2Web、AITW、WindowsAgentArena)上的表现:

  • Mind2Web:OmniParser+GPT-4V的表现优于使用HTML额外信息的GPT-4V代理。

  • AITW:OmniParser超越了结合Android图标检测模型(使用视图层级训练)的GPT-4V。

  • WindowsAgentArena:OmniParser在该全新基准测试上取得S OTA成绩

Multimodal Mind2Web

AITW

Windows agent arena

OmniParser V2带来哪些新东西?

OmniParser V2将屏幕理解能力提升到了新的水平。与V1相比,它在检测更小的可交互元素方面达到了更高的准确率,同时推理速度更快,使其成为GUI自动化的有力工具。

具体而言,OmniParser V2采用了更大规模的交互元素检测数据和图标功能描述数据进行训练。

此外,通过减少图标描述模型的图像输入尺寸,OmniParser V2的推理延迟比上一版本降低了60%

值得注意的是,OmniParser与GPT-4o结合后,在最新发布的 ScreenSpot Pro基准测试上达到了39.6%的平均准确率,该基准测试具有高分辨率屏幕和极小的目标图标,相比GPT-4o原始得分0.8有了显著提升。

为了加快不同智能体设置的实验速度,研究人员创建了OmniTool,一个Docker化的Windows系统,集成了一套代理所需的重要工具。

OmniTool开箱即用地支持OmniParser与多种最先进的LLM结合使用,包括OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和Anthropic(Sonnet),从而实现屏幕理解、目标对齐、行动规划和执行等功能。

风险与缓解措施

为了符合「微软AI原则」和「负责任AI实践」,研究人员通过使用负责任AI数据训练图标描述模型来进行风险缓解,有助于模型尽可能避免推测出现在图标图像中的个人的敏感属性(如种族、宗教等)。

同时,研究人员鼓励用户仅在不包含有害内容的截图上使用OmniParser,最好在使用过程中保持人工审核,以尽量降低风险。

针对OmniTool,研究人员使用「微软威胁建模工具」进行威胁模型分析,并在GitHub仓库中提供了沙盒Docker容器、安全指南和示例。

参考资料:

https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰亲手把自己送上了死路

张雪峰亲手把自己送上了死路

名人苟或
2026-03-25 06:02:57
中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

中原消费金融为催收“买”借款人手机号码 三大运营商均中标 或涉买卖个人信息惹争议

信网
2026-03-26 19:12:37
A股,尾盘传来一个“重磅信号”,周五,或将迎来大变盘!

A股,尾盘传来一个“重磅信号”,周五,或将迎来大变盘!

夜深爱杂谈
2026-03-26 20:09:32
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

A股第二高价股源杰科技启动“A+H” 一年内股价涨超1000%

蓝鲸新闻
2026-03-26 16:18:08
痛心!张雪峰女儿哭成泪人!再多的财富也无法填补父爱的空缺

痛心!张雪峰女儿哭成泪人!再多的财富也无法填补父爱的空缺

魔都姐姐杂谈
2026-03-26 20:54:38
石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

石油危机一旦爆发,房子、现金、股票、黄金谁最危险?

蜉蝣说
2026-03-26 16:52:10
我在立陶宛住了半年,回来后整个人对波罗的海三国的认知完全变了

我在立陶宛住了半年,回来后整个人对波罗的海三国的认知完全变了

阅尽天下大事
2026-03-26 13:16:28
学医后才知道,高血压最危险信号,不是头晕,而是频繁出现4症状

学医后才知道,高血压最危险信号,不是头晕,而是频繁出现4症状

医学科普汇
2026-03-26 19:55:03
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

正脸曝光!强闯我使馆的村田晃大3月15日刚晋升,所持刀具刃长约18厘米

中国网
2026-03-26 14:01:45
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

20亿美元还不够!中企对巴拿马索赔涨价,巴政府内部已经乱套了

悄悄史话
2026-03-26 14:09:05
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

伊朗政府信息委员会主席:15点停战协议是特朗普的“又一个谎言”

新京报
2026-03-25 21:29:45
2026-03-26 22:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
房产
时尚
游戏
公开课

亲子要闻

你好,我是馒头,快开门!

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版