网易首页 > 网易号 > 正文 申请入驻

微软研究院出品:让 GPT-4V秒懂屏幕截图,本地部署

0
分享至

项目概述

OmniParser 是微软研究院开发的一个创新项目,旨在增强大型视觉语言模型(如 GPT-4V)在操作图形用户界面(GUI)时的能力。

该项目由微软研究院和微软通用 AI 团队共同开发。

https://microsoft.github.io/OmniParser/

传统视觉语言模型在处理 GUI 操作时面临两个主要挑战:

  1. 难以可靠识别界面中的可交互图标

  2. 难以准确理解截图中各元素的语义并将预期操作与屏幕区域关联

OmniParser 通过以下方式解决这些问题:

  • 开发了专门的交互式图标检测数据集

  • 设计了针对性的模型微调方案

  • 提供了结构化的界面元素解析方法

OmniParser 项目包含两个重要的数据集:

  1. 可交互图标检测数据集:

    • 包含 67,000 个独特的截图样本

    • 基于 DOM 树标注的边界框标签

    • 来源于 clueweb 数据集中的 100,000 个流行网页 URL

  2. 图标描述数据集:

    • 包含 7,000 对图标-描述配对数据

    • 用于微调说明模型

性能优势

OmniParser 在多个基准测试中都展现出优秀表现:

  • SeeClick 基准测试

  • Mind2Web 基准测试

  • AITW 基准测试

特别值得注意的是,仅使用截图输入的 OmniParser 性能超过了需要额外信息的 GPT-4V 基线模型。

OmniParser 可以作为插件与多个视觉语言模型配合使用:

  • GPT-4V

  • Phi-3.5-V

工作流程

OmniParser 的处理流程包括:

  1. 输入:

    • 用户任务描述

    • UI 截图

  2. 输出:

    • 解析后的截图(包含边界框和数字 ID 标注)

    • 局部语义信息(包含提取的文本和图标描述)

安装、运行

安装

conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

模型下载:

地址:https://huggingface.co/microsoft/OmniParser

把文件放在weights/目录下

目录结构: weights/icon_detect, weights/icon_caption_florence, weights/icon_caption_blip2.

模型转换

python weights/convert_safetensor_to_pt.py

运行程序

python gradio_demo.py

⬆️关注:领取Python、机器学习资料包⬆️

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人无知能到什么程度,网友:这种人真的太可怕了,引起全网共鸣

人无知能到什么程度,网友:这种人真的太可怕了,引起全网共鸣

夜深爱杂谈
2026-01-27 21:19:06
朝鲜“新星女将军”金主爱:下一代领导者?她频频露面原因为何?

朝鲜“新星女将军”金主爱:下一代领导者?她频频露面原因为何?

洞鉴历史
2024-04-24 15:10:54
中华人民共和国和德意志联邦共和国联合新闻声明

中华人民共和国和德意志联邦共和国联合新闻声明

新华社
2026-02-25 21:46:25
全民皆兵,中国男篮除张镇麟外,其余出场球员均有得分入账

全民皆兵,中国男篮除张镇麟外,其余出场球员均有得分入账

懂球帝
2026-02-26 20:54:04
聚焦|中国男篮逆转日本队,贺希宁成奇兵,赵继伟显担当

聚焦|中国男篮逆转日本队,贺希宁成奇兵,赵继伟显担当

北青网-北京青年报
2026-02-26 21:24:30
成本19元卖300元!又一骗局暴雷,专坑老年人,9万养老钱血本无归

成本19元卖300元!又一骗局暴雷,专坑老年人,9万养老钱血本无归

财经八卦
2026-02-25 22:57:34
继混双之后,女双也再次出局,这一切背后离不开王励勤的战略布局

继混双之后,女双也再次出局,这一切背后离不开王励勤的战略布局

杨哥乒乓
2026-02-26 21:14:51
中到大雪 局部暴雪!27日夜里至3月1日河南大范围雨雪“上线”

中到大雪 局部暴雪!27日夜里至3月1日河南大范围雨雪“上线”

玉乡镇平
2026-02-26 18:42:46
雷军带火蕉内滑雪服:客服表示299元优惠已结束,当前为629元

雷军带火蕉内滑雪服:客服表示299元优惠已结束,当前为629元

PChome电脑之家
2026-02-24 17:02:37
掘金103-84凯尔特人,约基奇30+12,布朗23+11,穆雷病退

掘金103-84凯尔特人,约基奇30+12,布朗23+11,穆雷病退

懂球帝
2026-02-26 13:49:51
特朗普启程中国前,美高官放话:从不相信中国,访华只有1个目的

特朗普启程中国前,美高官放话:从不相信中国,访华只有1个目的

触摸史迹
2026-02-26 22:38:44
携程总裁辞职

携程总裁辞职

观察者网
2026-02-26 15:05:38
汪小菲喜得三胎仅2天,荒唐事接连发生,马筱梅或走上大S的老路

汪小菲喜得三胎仅2天,荒唐事接连发生,马筱梅或走上大S的老路

揽星河的笔记
2026-02-26 19:35:46
26日战报:8强赛5席定,国乒有败,王楚钦逆转对手确定

26日战报:8强赛5席定,国乒有败,王楚钦逆转对手确定

春日筆記
2026-02-26 22:32:44
煮汤圆,有人用开水,用冷水!厨师长:都不对,教您做法,不粘锅

煮汤圆,有人用开水,用冷水!厨师长:都不对,教您做法,不粘锅

阿龙美食记
2026-02-23 17:09:09
历史第四人!约基奇连续三场30+无愧联盟一哥 NBA官方:不可阻挡

历史第四人!约基奇连续三场30+无愧联盟一哥 NBA官方:不可阻挡

颜小白的篮球梦
2026-02-26 14:59:08
CBA最新消息!曝2米18大外援加盟广东宏远,青岛男篮有意克劳福德

CBA最新消息!曝2米18大外援加盟广东宏远,青岛男篮有意克劳福德

体坛瞎白话
2026-02-26 11:53:27
猪油再次被关注!调查发现:高血压患者常吃猪油,或出现4种变化

猪油再次被关注!调查发现:高血压患者常吃猪油,或出现4种变化

蜉蝣说
2026-02-26 10:37:12
拾石村妈祖被替后续: 女孩账号曝光,当了八年被选定,今年满18岁

拾石村妈祖被替后续: 女孩账号曝光,当了八年被选定,今年满18岁

离离言几许
2026-02-20 14:02:55
液冷全线大涨,海外巨量订单砸向中国,这6只龙头要起飞 !

液冷全线大涨,海外巨量订单砸向中国,这6只龙头要起飞 !

宇量信息
2026-02-26 21:29:25
2026-02-26 23:19:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3248文章数 11088关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

男子因银行系统错误"欠款1000万亿":工厂可能会被拍卖

头条要闻

男子因银行系统错误"欠款1000万亿":工厂可能会被拍卖

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

教育
房产
家居
公开课
军事航空

教育要闻

教育部将实施学生体质强健计划,提升学生健康水平

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

家居要闻

归隐于都市 慢享自由

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版