网易首页 > 网易号 > 正文 申请入驻

告别海量标注!浙大团队让GUI定位在无标签数据上自我进化

0
分享至

无需海量数据标注,智能体也能精确识别定位目标元素了!

来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法,可以让模型在没有标注的数据上自主提升GUI grounding(图形界面定位)能力。



何谓GUI grounding?为什么要提升这项能力?

简单而言,近年来,以视觉-语言模型为骨架的GUI智能体正在迅猛发展,只需要一句语言指令,它们就能像人一样手眼协同地操作电脑、手机、网页等界面。

GUI智能体的一个关键能力在于GUI grounding,也就是根据用户给出的自然语言指令,GUI智能体需要在用户界面中精确地识别并定位可操作的目标元素。

良好的GUI grounding能力可以使得GUI智能体更好地理解图形界面,以及完成更加精准地界面交互。

然而,想要训练这样一种看似简单的能力,却需要大规模高质量的标注数据——当前绝大多数方法动辄需要上百万级的标注数据,而构建这样的高质量的标注数据需要大量的人工和时间成本。

而GUI-RCPO正好解决了上述问题,其核心原理如下:

通过创新性地将Test-time Reinforcement Learning的思想迁移到GUI grounding任务上,利用模型在多次采样之间呈现出来的区域一致性来引导模型在无标签的数据上进行自我提升。

具体内容如下——

GUI-RC:模型采样“求同存异”

当模型针对同一指令进行多次预测时,由于坐标空间的连续性和解码策略带来的随机性,模型会产生不同的预测区域。

尽管这些预测区域的范围可能互不相同,但是它们会存在一定的空间重叠,这种空间重叠实际上蕴含了一种隐式的置信度信号,重叠程度越高潜在地说明了模型对该区域的置信度越高,研究团队将这种空间重叠定义为模型采样中的区域一致性

基于这一洞察,研究团队首先设计了一种基于区域一致性进行空间投票的test-time scaling方法——GUI-RC

首先构建一张与屏幕截图相同大小的投票网格来记录模型每次采样中预测的区域,对于每一个预测结果,将其在网格上对应的区域记上一票,如果模型的预测结果是点坐标,则将其扩展成大小的方框,再投射到网格上。

全部投票结束后,这张网格便记录了模型在采样过程中总体上对每一个像素点的置信度,票数越高的区域代表模型对该区域的信心越强。

随后,提取出网格中票数最高且面积最大的连续区域作为模型采样中的“共识区域”。

最后,利用这块共识区域来进行GUI定位,即可在无需训练的情况下,得到一个更加精确可靠的预测结果。



GUI-RCPO:让模型在无标签数据上自我提升

研究团队进一步提出了一种test-time reinforcement learning方法——GUI-RCPO,将模型采样中的区域一致性转换成一种自监督的奖励信号来指导模型的策略优化。

对于每一个预测结果,GUI-RCPO会赋予其预测区域内的平均票数与最大票数之比的奖励,反映出该区域在采样中的一致性程度,一致性程度越高的区域会被赋予越高的奖励。

这样一来,GUI-RCPO便可以在无需任何标注数据和外部监督的情况下,利用这种区域一致性奖励来指导模型进行策略优化,让模型的输出更加精准且自信,进而提高奖励的可靠性和质量,从而实现在无标签数据上的自我提升。

实验分析

研究团队将GUI-RC和GUI-RCPO两种方法分别应用到不同的通用模型和GUI专用模型上,并在三个主流的GUI定位基准上进行了全面的评估。

对于GUI-RCPO方法,团队使用去掉真值标签的ScreenSpot-v2作为训练数据集。

实验结果表明,两种方法在不同模型上都有一致的提升。

其中GUI-RCPO带来的提升超过了GUI-RC,说明模型在GUI-RCPO训练过程中并不是在简单地拟合共识区域,而是在真正地学会一种更好的定位策略。

此外,GUI-RCPO对于已经在GUI任务上进行过预训练的模型仍然会带来进一步的提升,证明了方法的有效性。





此外,GUI-RCPO还展现出良好的泛化能力,尽管模型只在针对通用场景的ScreenSpot-v2数据集上进行训练,但是在更有挑战性的针对专业场景的ScreenSpot-Pro基准上依然有显著的提升。

并且随着训练步数的增加,模型在三个基准上的表现都有稳定的提升,进一步证明了GUI-RCPO的泛化能力。



研究团队还尝试在GUI-RCPO训练之后,继续使用GUI-RC进行空间区域投票,并发现模型的表现还能进一步提升,说明通过这种自我强化的循环,模型可以在没有任何标注数据和外部监督的情况下,不断突破预期的性能上限。



案例分析

研究团队提供了两个案例,分别展示了GUI-RC可以解决的GUI定位中存在的两类幻觉。

  • 误导性幻觉

在一个电商界面里,用户指令要求GUI智能体在时尚购物区中查看低于50美元的鞋子(图片中蓝色方框框选的区域),而在贪心解码策略下,模型却被相近的语义与版面布局迷惑,错误地框选到了“低于25美元的上衣”区域(左侧图片中红色方框框选的区域),这是典型的语义错配导致的误导性幻觉。

GUI-RC通过对同一指令进行多次采样,并投票选出采样中的共识区域(右侧图片中绿色方框框选的区域),成功地将模型的注意力稳定地聚合到正确的区域,从而纠正了单次预测的误导性错误,给出更精确的定位。



  • 偏差性幻觉

在一个电子平台界面里,用户指令要求GUI智能体“联系销售”(图片中蓝色方框框选的区域),而在贪心解码策略下,模型却把右侧的整张信息卡片当作目标(左侧图片中红色方框框选的区域),而不是精确地框选可点击的“联系销售”按钮。

GUI-RC通过多次采样投票的方式,把一次次略有偏差的预测聚合并提取出一个更加精确、自信的共识区域(右侧图片中绿色方框框选的区域),成功地完成了精准的定位,消除了这类偏差性幻觉。



小结一下

研究团队首先设计了一种无需训练的test-time scaling方法——GUI-RC,通过利用模型在采样过程中呈现出来的空间区域一致性提取出模型的共识区域,从而实现更加精准自信的定位。

为了继续发掘区域一致性的潜力,团队进一步提出了一种test-time reinforcement learning方法——GUI-RCPO,将区域一致性转化为一种自监督的奖励信号,使得模型能够在无需任何标注数据的情况下不断地进行自我提升。

实验证明了该方法有广泛的适用性和良好的泛化能力。

团队的研究揭示了test-time training在GUI智能体领域中的潜力,为构建更加数据高效的GUI智能体提供了一个可行的方向。

论文链接:https://arxiv.org/abs/2508.05615
项目主页:https://zju-real.github.io/gui-rcpo/
代码仓库:https://github.com/ZJU-REAL/GUI-RCPO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2连胜大获成功,勇士还验证4件事,进入第一梯队,一人可以重用

2连胜大获成功,勇士还验证4件事,进入第一梯队,一人可以重用

体坛大辣椒
2025-11-15 14:26:56
外交部昭告全球,军号日文警告,俄朝跟进!日本欠的债迟早要还

外交部昭告全球,军号日文警告,俄朝跟进!日本欠的债迟早要还

兵器海陆空视频
2025-11-14 17:30:50
台海言论越界,中方深夜发出最强警告:日本承担得起后果吗?

台海言论越界,中方深夜发出最强警告:日本承担得起后果吗?

吃货的分享
2025-11-15 16:00:23
美国演员“A妹”红毯上遭一男子搂抱:杨紫琼将其护怀中,男子得意比手势引众怒

美国演员“A妹”红毯上遭一男子搂抱:杨紫琼将其护怀中,男子得意比手势引众怒

新京报
2025-11-14 13:56:01
国足新帅上任3把火:拒绝足协“塞人”,30岁老将出局,提拔小将

国足新帅上任3把火:拒绝足协“塞人”,30岁老将出局,提拔小将

丹妮观
2025-11-13 18:25:03
刘强东父亲现身超市买猪头肉,穿着非常朴素,完全不像富豪的老爸

刘强东父亲现身超市买猪头肉,穿着非常朴素,完全不像富豪的老爸

乐悠悠娱乐
2025-11-15 11:46:29
41+14+11!哈登打满51分钟连续军训新状元 双加时豪取10分止连败

41+14+11!哈登打满51分钟连续军训新状元 双加时豪取10分止连败

狍子歪解体坛
2025-11-15 12:51:35
广州电动自行车通行乱象的思考

广州电动自行车通行乱象的思考

白浅娱乐聊
2025-11-15 10:27:06
A股:周末七大重磅信息,国常会,央行紧急出手,下周要这么走了

A股:周末七大重磅信息,国常会,央行紧急出手,下周要这么走了

虎哥闲聊
2025-11-15 12:02:05
佘智江被押回消息一出,最心虚可能不是他自己,而是国外的黄有龙

佘智江被押回消息一出,最心虚可能不是他自己,而是国外的黄有龙

手工制作阿歼
2025-11-15 11:46:37
泪目!34岁国乒美女奥运冠军4-2逆转夺冠:最后一舞封神微笑真甜

泪目!34岁国乒美女奥运冠军4-2逆转夺冠:最后一舞封神微笑真甜

李喜林篮球绝杀
2025-11-14 23:59:07
樊振东:今天发挥有超出自己意料,王楚钦是中国队绝对的领军人物

樊振东:今天发挥有超出自己意料,王楚钦是中国队绝对的领军人物

懂球帝
2025-11-15 14:45:09
近8战7负!故意输球想离队,结果球队不交易了,闹掰的主帅也示好

近8战7负!故意输球想离队,结果球队不交易了,闹掰的主帅也示好

你的篮球频道
2025-11-15 09:52:47
刘强东铁腕 “斩” 老臣!京东副总裁邵京平双 11 被开除

刘强东铁腕 “斩” 老臣!京东副总裁邵京平双 11 被开除

诗意世界
2025-11-14 15:06:16
深圳向西,再造一个“新深圳”!谁将主宰下一个40年?

深圳向西,再造一个“新深圳”!谁将主宰下一个40年?

楼市诸葛
2025-11-15 14:57:18
关晓彤因为王安宇,绿了鹿晗!?

关晓彤因为王安宇,绿了鹿晗!?

八卦疯叔
2025-11-15 10:24:34
周杰伦被昆凌拿捏住了!台媒爆插足婚姻的王子,住的豪宅是昆凌的

周杰伦被昆凌拿捏住了!台媒爆插足婚姻的王子,住的豪宅是昆凌的

小娱乐悠悠
2025-11-14 13:06:44
28年前直播香港回归4位主持:2人去世1人自甘堕落,仅她笑到最后

28年前直播香港回归4位主持:2人去世1人自甘堕落,仅她笑到最后

揽星河的笔记
2025-11-14 13:07:48
泰国财长宣布:将对低价进口商品征收10%的关税!发生了什么?

泰国财长宣布:将对低价进口商品征收10%的关税!发生了什么?

王爷说图表
2025-11-14 22:54:43
顶级IP上线,Netflix这部R级新作太刺激了

顶级IP上线,Netflix这部R级新作太刺激了

天天美剧吧
2025-11-14 16:59:52
2025-11-15 17:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

游戏
健康
旅游
亲子
数码

高玩招魂《星鸣特攻》私服成功 宣传片火速被下架

金振口服液助力科学应对呼吸道疾病

旅游要闻

赏彩林不用去川西 凉山人自己的“大兴安岭”美翻了!丨图集

亲子要闻

摊牌了,我不装了

数码要闻

曝疑似小米Watch S5将支持UWB技术 采用表冠设计

无障碍浏览 进入关怀版