GUI自动化的新突破：ServiceNow让AI更准确定位屏幕界面元素|gui|新模型

分享至

这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月，论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成，他们致力于解决人工智能在GUI（图形用户界面）自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中，我们每天都要与各种软件界面打交道——从手机应用到电脑程序，从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素，将会极大提升工作效率。然而，要让AI准确找到屏幕上的按钮、文本框或菜单项，就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题：如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现，现有方法就像让一个盲人通过触摸来画地图一样效率低下，因为AI模型需要在没有明确参照物的情况下，从抽象的视觉特征直接推断出精确的坐标位置。

为了解决这个问题，研究团队提出了两个互补的创新技术。第一个技术叫做RULER（旋转位置到像素映射器），它的工作原理就像在地图上添加网格线和坐标标记一样。传统方法让AI直接猜测位置，而RULER技术为AI提供了明确的参考点，让它能够像人类使用GPS导航一样，先找到最近的参考点，再进行微调定位。第二个技术叫做交替多维旋转位置编码（I-MROPE），它解决了现有位置编码方法在处理不同空间维度时的不平衡问题，就像调整相机镜头让画面在水平和垂直方向都同样清晰。

研究团队在多个标准测试数据集上验证了他们的方法，结果显示在高分辨率界面上的定位准确率从31.1%提升到37.2%，这种提升对于实际应用具有重要意义。

一、传统方法的困境：为什么AI难以准确定位界面元素

当我们看到电脑屏幕上的一个按钮时，人眼能够瞬间识别其位置并准确点击。然而对于人工智能而言，这个看似简单的任务却异常复杂。传统的GUI定位方法就像让一个人在完全漆黑的房间里，仅仅通过触摸墙壁的纹理来判断门把手的确切位置。

现有的视觉语言模型在处理GUI定位任务时，需要将自然语言指令（比如"点击录音按钮"）转换为精确的像素坐标（比如x=300, y=84）。这个过程面临着一个根本性挑战：模型必须从高维的视觉位置嵌入直接映射到具体的数值坐标，而这种映射完全依赖于隐式学习，没有明确的空间指导。

这种隐式映射方法带来了两个严重问题。首先是坐标预测的不可靠性。由于缺乏明确的位置参考，模型很难学习到稳定的映射关系，即使使用大量训练数据，预测结果仍然不够一致。这就像让一个人闭着眼睛投篮，即使练习很多次，命中率也难以保证。

其次是分辨率泛化能力差。当模型在特定分辨率的屏幕上训练后，如果遇到不同尺寸的显示器，其性能会急剧下降。这是因为在训练过程中学到的隐式映射函数是针对特定坐标范围的，无法直接迁移到新的坐标系统中。就像一个习惯了在小操场上踢球的运动员，突然到了标准足球场就会失去距离感。

除了这些核心问题，研究团队还发现了现有技术在空间信息编码方面的一个技术缺陷。标准的多维旋转位置编码（MRoPE）方法在分配频率成分时存在不平衡现象。具体来说，它会将不同频率段连续分配给不同的空间维度，导致高度维度只接收高频信息，而宽度维度只接收低频信息。这种不平衡就像一个立体声音响系统，左声道只播放高音，右声道只播放低音，无法呈现完整的音频效果。

这些问题的存在严重限制了GUI自动化技术的实际应用。在现实场景中，用户的显示设备千差万别，从手机的小屏幕到4K显示器的超高分辨率，从传统的桌面应用到现代的Web界面，现有方法都难以提供稳定可靠的定位性能。

二、RULER技术：为AI提供空间参考坐标系统

面对传统方法的困境，研究团队提出了RULER技术，这是一种革命性的解决方案，它为AI模型提供了明确的空间参考系统。如果把传统方法比作在没有路标的荒野中寻路，那么RULER技术就像在地图上添加了详细的坐标网格和参考点。

RULER的核心思想是引入一系列特殊的辅助令牌，这些令牌明确编码了像素坐标信息，并与相应的图像片段共享位置嵌入。这样，当AI模型需要确定某个界面元素的位置时，它不再需要从抽象的视觉特征中推测坐标，而是可以参考最近的RULER令牌，然后进行简单的算术调整。

这种机制的工作原理可以用城市导航来类比。当你在一个陌生城市寻找目的地时，如果没有路标和地址编号，你只能凭借建筑物的外观特征来估算位置，这既困难又不准确。但如果有了明确的街道标志和门牌号码，你就可以先找到最近的已知地址，然后根据相对位置轻松找到目标。RULER技术正是为AI模型提供了这样的"街道标志"。

在技术实现上，RULER采用了巧妙的设计策略。考虑到计算效率，它不会为每个像素位置都创建参考令牌，而是以固定间隔设置这些参考点。研究团队发现，间隔设置为8个像素单位时能够在性能和效率之间达到最佳平衡。这意味着即使在处理8K超高清显示器时，RULER增加的令牌数量也不会超过总数的1%，对计算性能的影响微乎其微。

RULER技术的另一个重要优势是其自适应特性。由于模型不再需要学习特定分辨率的坐标映射函数，它可以更好地适应不同尺寸的屏幕。当遇到训练时未见过的高分辨率界面时，模型仍然可以利用RULER提供的参考框架进行准确定位，只需要在参考坐标基础上进行有界的算术运算。

这种参考-调整机制比直接回归更加稳定和可靠。传统方法需要学习一个复杂的非线性映射函数，而RULER将这个复杂问题转化为简单的空间参考和边界算术问题。这就像从"凭感觉估算距离"改进为"使用测量工具精确定位"。

实际应用中，RULER技术展现出了显著的泛化能力。在ScreenSpot-Pro这个专门测试高分辨率界面的基准数据集上，使用RULER技术的模型即使面对超出训练分辨率的界面，仍然能够保持良好的定位性能。这种跨分辨率的泛化能力对于实际部署至关重要，因为真实世界中的应用场景往往比训练数据更加多样化。

三、I-MROPE技术：平衡空间维度的信息分配

除了RULER技术外，研究团队还针对现有位置编码方法的缺陷提出了交替多维旋转位置编码（I-MROPE）技术。这项技术解决的是一个更加基础但同样重要的问题：如何确保AI模型在处理空间信息时，对所有维度都给予同等的关注和处理能力。

要理解I-MROPE的意义，我们首先需要了解旋转位置编码的工作原理。旋转位置编码就像给每个位置分配一个独特的"身份证"，这个身份证包含了从高频到低频的各种信息成分。高频成分负责精确的局部定位，而低频成分处理长距离的空间关系。在理想情况下，每个空间维度都应该获得完整的频率谱，就像一个高质量的音响系统应该在每个声道都播放完整的音频频段。

然而，标准的多维旋转位置编码（MRoPE）在实际实现中存在一个设计缺陷。它采用连续分配的方式，将频率谱的不同部分依次分配给时间、高度和宽度维度。这种分配方式导致了严重的不平衡：时间维度获得所有高频成分，高度维度获得中频成分，而宽度维度只能获得低频成分。

这种不平衡的后果是显而易见的。由于高频成分对精确定位至关重要，而低频成分负责长距离关系建模，不同维度获得的建模能力差距巨大。这就像让一个音乐家只能听到高音部分来演奏交响乐，另一个只能听到低音部分，他们很难协调出和谐的音乐。

I-MROPE技术通过频率交替分配策略解决了这个问题。它不再将频率成分连续分配给单一维度，而是采用循环交替的方式，确保每个维度都能获得从高频到低频的完整频谱。具体来说，对于每个频率索引，系统会循环地将其分配给宽度、高度或时间维度。

这种交替分配机制的优势是显著的。每个维度都获得了完整的频率范围，既有精确定位所需的高频成分，也有长距离关系建模所需的低频成分。这确保了模型在处理空间信息时具有平衡的能力，无论是在水平还是垂直方向上都能同样精确地区分位置。

更重要的是，I-MROPE保持了向后兼容性。对于文本令牌，当时间、高度和宽度索引相同时（这是文本令牌的常见情况），I-MROPE的行为完全等同于标准的旋转位置编码。这意味着预训练的语言模型可以无缝集成这项技术，而不会损失原有的语言理解能力。

在GUI定位任务中，I-MROPE技术的改进效果尤为明显。由于GUI界面的复杂性往往体现在二维空间的精确布局上，平衡的空间表示能力直接影响定位的准确性。实验结果表明，即使在没有RULER技术的情况下，单独使用I-MROPE也能带来显著的性能提升。

四、实验设计与训练策略：从理论到实践的转化

为了验证RULER和I-MROPE技术的有效性，研究团队设计了一套全面的实验方案。他们采用了两种不同的实验设置：从零开始训练和微调现有模型，这种双重验证策略确保了技术创新的普适性和实用性。

从零开始训练的实验基于LLaVA-NeXT框架构建。研究团队选择了SigLIP-SO400M-14@384作为视觉编码器，这就像为AI配备了一双高清摄像头眼睛，能够细致地观察界面细节。语言解码器则采用了Qwen2.5 7B Instruct，这相当于为AI配备了一个强大的语言理解大脑。在这个基础架构上，团队用I-MROPE替换了标准的一维位置编码，并将RULER令牌整合到输入序列中。

训练过程采用了两阶段策略，这种设计就像先让学生掌握基础知识再进行专业培训。第一阶段进行视觉-语言对齐预训练，使用LLaVA-558K数据集，只训练MLP投影层。这个阶段相当于让AI学会理解图像和文本之间的基本对应关系。第二阶段则进行特定领域的监督微调，使用UI定位数据，同时训练投影层和语言模型。

微调实验则采用了更加保守的策略，以Qwen2.5-VL 7B Instruct为基础。研究团队保持了原模型的MRoPE配置，避免破坏已学习的位置感知行为。这种做法类似于在一个运行良好的系统中谨慎地添加新功能，而不是重新设计整个系统。

训练数据的选择也体现了研究的实用性考虑。团队使用了UGround数据集，这个数据集包含约800万个元素标注和77.5万张截图，提供了丰富多样的GUI界面训练信号。为了与Qwen2.5-VL的后训练设置保持一致，所有坐标都被预处理为原始像素值而非归一化数值。这种处理方式确保了RULER令牌设计的一致性，避免了不同长宽比下归一化带来的歧义性。

在超参数设置方面，研究团队进行了精心的优化。RULER令牌的默认间隔设置为8，这个数值是在性能和效率之间权衡的结果。对于I-MROPE，由于GUI定位不需要时间维度，采用了二维配置，频率维度的分配采用取模运算进行循环分配。

评估设置同样经过精心设计。研究团队在三个标准基准数据集上进行评估：ScreenSpot、ScreenSpot-V2和ScreenSpot-Pro。这些数据集涵盖了不同平台和分辨率的界面，其中ScreenSpot-Pro特别关注高分辨率专业桌面应用，为测试跨分辨率泛化能力提供了理想的试验场。

评估指标采用元素准确率，只有当预测点落在目标元素的真实边界框内时才被认为是正确的。这种评估方式更接近实际应用场景，因为GUI自动化的最终目标是准确激活界面元素，而不仅仅是预测精确的坐标数值。

五、实验结果：显著提升与深度分析

实验结果全面证实了RULER和I-MROPE技术的有效性。在所有测试基准上，新技术都展现出了一致且显著的性能提升，特别是在高分辨率界面的处理上表现尤为突出。

从零开始训练的实验结果显示，多维旋转位置编码在所有基准测试中都显著优于默认的一维RoPE编码。I-MROPE在MRoPE基础上又实现了进一步的改进，在训练损失和定位性能上都表现更优。这验证了频率平衡分配策略的有效性，证明了给予所有空间维度相等建模能力的重要性。

RULER令牌的加入带来了更加显著的性能提升。在ScreenSpot-Pro这个最具挑战性的基准测试中，RULER的效果尤为突出。这个数据集专门针对高分辨率专业桌面应用，其界面分辨率往往超过训练数据的分辨率范围。在这种具有挑战性的条件下，RULER技术展现出了强大的泛化能力，证明了参考-调整机制在处理未见分辨率时的稳定性。

微调实验的结果同样令人鼓舞。即使在保持原有模型架构基本不变的情况下，仅仅添加RULER令牌就能带来持续的性能改进。在ScreenSpot-Pro上，微调后的模型准确率从31.1%提升到37.2%，这种6.1个百分点的提升在GUI自动化领域具有重要的实际意义。

研究团队还进行了详细的敏感性分析，探究RULER令牌间隔设置的影响。实验发现，所有间隔设置都能带来相对于无RULER基线的一致改进，但不同间隔之间的性能差异并不显著。最终选择间隔8作为默认设置，这个选择在性能和效率之间达到了良好平衡。值得注意的是，在极低分辨率设置（如手机截图）中，过大的间隔可能导致RULER令牌数量不足，进而影响性能。

效率分析结果表明，RULER技术的计算开销极小。即使在8K超高分辨率显示器和最密集的间隔设置（s=2）下，RULER令牌也只占视觉令牌总数的0.2%。对于低分辨率的手机截图，最高比例也仅为2.8%。这种微小的计算开销相对于性能提升来说是完全可以接受的。

特别值得关注的是跨分辨率泛化能力的验证。在ScreenSpot-Pro基准测试中，模型面对的是超出训练分辨率范围的高分辨率界面，这正是传统隐式映射方法最容易失败的场景。RULER技术在这种条件下仍然能够保持稳定的性能提升，充分证明了其设计理念的正确性和实用价值。

与现有技术的对比也显示出了新方法的优势。虽然在某些基准测试中，新方法尚未达到最先进水平（这主要是由于训练数据和基础模型的限制），但在相同条件下的对比中，RULER和I-MROPE技术都展现出了明显的改进效果。

六、技术意义与未来展望：从实验室到真实世界

这项研究的意义远远超出了学术层面的技术改进，它为GUI自动化技术的实际应用铺平了道路。RULER和I-MROPE技术的成功验证了一个重要的设计理念：在复杂的AI任务中，明确的架构设计往往比纯粹的数据驱动学习更加有效和可靠。

RULER技术的核心贡献在于将隐式的位置映射问题转化为显式的空间参考问题。这种转变不仅提高了定位准确性，更重要的是增强了系统的可解释性和可控性。传统方法中，模型的定位决策过程是一个黑盒，难以调试和优化。而RULER技术提供了清晰的参考框架，使得定位过程变得透明和可追踪。

I-MROPE技术则解决了一个更为基础的架构问题。位置编码是Transformer架构的核心组件之一，其设计质量直接影响模型的空间理解能力。I-MROPE通过平衡频率分配，确保了所有空间维度都获得充分的建模能力，这种改进具有广泛的适用性，不仅限于GUI定位任务。

从实用角度来看，这项研究的技术创新具有显著的部署优势。RULER令牌的计算开销极小，而I-MROPE完全向后兼容现有的预训练模型。这意味着技术转移的成本很低，现有的视觉语言模型可以相对容易地集成这些改进。

然而，研究也存在一些局限性。目前的方法主要针对静态界面的定位问题，对于动态界面和视频内容的处理能力还有待进一步验证。此外，虽然RULER技术在跨分辨率泛化方面表现良好，但对于完全不同的界面设计风格（比如从现代扁平化设计到经典立体化设计）的适应能力仍需更多验证。

未来的研究方向可能包括几个方面。首先是自适应令牌放置策略的探索。当前RULER采用固定间隔的均匀分布，未来可能根据界面的复杂性和重要性动态调整令牌密度。其次是向视频界面的扩展，这将需要处理时间维度的复杂性和动态变化。

这项研究的成功也为其他需要精确空间定位的任务提供了启发。无论是机器人视觉导航、医学图像分析，还是卫星图像处理，任何需要将抽象视觉理解转化为精确空间坐标的任务都可能从这种显式空间引导的设计理念中受益。

从更广阔的视角来看，这项研究代表了人工智能发展的一个重要趋势：从纯粹的端到端学习向结构化、可解释的混合方法转变。随着AI系统在关键应用场景中的部署越来越广泛，系统的可靠性、可解释性和可控性变得越来越重要。RULER和I-MROPE技术正是这种趋势的体现，它们通过巧妙的架构设计实现了性能和可控性的双重提升。

说到底，这项研究解决的是一个看似简单但实际复杂的问题：如何让AI像人类一样准确地与图形界面交互。虽然我们离完全自动化的GUI操作还有距离，但RULER和I-MROPE技术已经为我们指明了正确的方向。它们证明了通过提供明确的空间指导，而不是完全依赖隐式学习，我们可以构建更加可靠和高效的AI系统。这种设计哲学不仅适用于GUI自动化，也为其他需要精确空间理解的AI任务提供了宝贵的启示。未来，随着这些技术的进一步发展和完善，我们有理由期待更加智能和可靠的人机交互体验。

Q&A

Q1：RULER技术是什么？它是如何工作的？

A：RULER（旋转位置到像素映射器）是一种为AI提供明确空间参考系统的技术。它在图像中添加特殊的辅助令牌，这些令牌明确编码像素坐标信息。当AI需要定位界面元素时，不再需要从抽象视觉特征中猜测位置，而是可以参考最近的RULER令牌进行精确定位。这就像为AI提供了地图上的坐标网格，让定位变得更加准确可靠。

Q2：I-MROPE技术解决了什么问题？

A：I-MROPE（交替多维旋转位置编码）解决了现有位置编码方法的频率分配不平衡问题。传统方法会将高频成分只分配给某个维度，低频成分只分配给另一个维度，导致不同空间方向的建模能力差异巨大。I-MROPE通过循环交替分配方式，确保每个维度都获得完整的频率谱，从而在水平和垂直方向都具有同样精确的位置识别能力。

Q3：这项研究对普通用户有什么实际意义？

A：这项研究让AI能更准确地操作各种软件界面，未来可能实现更智能的自动化助手。比如AI可以帮你自动填写表格、批量处理文件、或者在不同应用间自动执行复杂操作流程。最重要的是，这种技术能适应不同分辨率的设备，无论是手机、平板还是4K显示器都能正常工作，大大提升了工作效率和便利性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.