中科院与香港理工突破：AI实现电脑屏幕软件意图理解能力提升|工具栏|状态栏|命令提示符

分享至

这项研究由中国科学院大学、中国科学院自动化研究所新型模式识别实验室、多模态人工智能系统国家重点实验室、香港科创研究院以及香港理工大学联合开展，论文于2026年4月发表，论文编号为arXiv:2604.24441v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

**一、这件事为什么值得普通人关注**

你有没有试过把一项繁琐的电脑操作交给AI来完成？比如让AI帮你整理表格、发送邮件、在网站上填写表单？现在已经有不少这样的"电脑使用助手"了，但它们其实远没有你以为的那么聪明。

大多数这类助手的工作方式，更像是一个会盲目跟随导航的司机——只知道"下一步点哪里"，却完全不理解自己在哪条街上、为什么要在这个路口转弯。换句话说，它们能执行简单的点击指令，却根本不明白屏幕上那些按钮、菜单、区域到底是干什么的。

这就带来了一个根本性的问题：一个不理解屏幕含义的AI，在遇到稍微复杂一点的情况时就会彻底迷失——比如同一个图标在不同软件里代表完全不同的功能，或者一个看起来毫不起眼的灰色小图标，点击之后会触发一系列操作。

这篇论文的核心任务，就是搞清楚当前最先进的AI视觉语言模型（也就是那种既能"看图"又能"读字"的AI）究竟有多懂电脑屏幕。为此，研究团队构建了一套名为AutoGUI-v2的测试体系，包含2753道专门设计的题目，用来考察AI是否真正理解了界面功能，而不仅仅是认出了那个按钮长什么样子。

**二、AI看屏幕和人看屏幕有什么本质区别**

人类在使用电脑时积累了丰富的直觉。当你看到一个左上角带有软盘图案的图标，你几乎不需要思考就知道那是"保存"；当你看到一排颜色相似、形状相近的按钮排列在工具栏上，你能凭经验猜出它们分别控制字体的粗细、对齐方式或者行间距。这种理解不是仅仅靠"认图"得来的，而是因为你明白这些元素在整个软件的操作流程中扮演什么角色，知道点击之后会发生什么变化。

现有的AI测试题目，大多数问的是这样的问题："屏幕上有一个标着'All'文字的小标签，请找出它在哪里。"或者："这个按钮叫做'打开搜索设置下拉菜单'，请点击它。"这两类问题考察的其实是"认字认图"的能力，只要AI能看清屏幕上的文字或图形，通常都能答对。

AutoGUI-v2团队提出的挑战则完全不同。他们问的是："如果你想同时搜索多个通讯录，应该用屏幕上的哪个搜索区域？"或者："点击这个被红框标出的元素，会发生什么？"这类问题没有给出任何外观描述线索，迫使AI必须真正理解每个区域在整个软件流程中的功能定位，才能回答正确。

这是一个根本性的跃升——从"认出长什么样"到"明白是干什么的"。

**三、研究团队是怎么建立这套考卷的**

构建这样一套测试题，本身就是一个工程难题。你需要收集大量真实的电脑界面截图，然后对截图中每一个功能区域进行精确标注，告诉机器这块区域是干什么的，边界在哪里，和旁边那个看起来差不多的区域有什么功能上的区别。这项工作如果全靠人工，不仅费时费力，而且很难保持标注质量的一致性。

研究团队采用了一种"AI初稿、人工精修"的流水线工作方式。他们先请当下能力极强的Gemini 2.5 Pro Thinking模型来充当"初审员"，让它自动分析截图，把每张屏幕图片切割成若干个有意义的功能区块，就像把一张城市地图分割成若干个行政区一样。每个区块都会被标注功能描述和边界框。

但仅靠AI来划定边界是不够精确的。模型标出的边界框往往不够紧凑，可能包含了多余的空白区域，或者把某个按钮的边缘截掉了一点点。为了解决这个问题，研究团队开发了一套专用的网页标注工具。标注员可以在浏览器里打开任意一张截图，看到AI划定的区域，然后用鼠标重新拖拽调整边界，精确到每一个像素。这个工具还内置了一些辅助功能，比如按住鼠标不放时会自动"吸附"到附近的边缘线上，大大降低了手工标注的误差。

完成边界修正之后，还要进行最后一步：由于人工调整了区域边界，原来AI写的功能描述可能已经对不上新的视觉内容了，所以需要再跑一轮AI来重新撰写每个区域的功能说明，人工再做一遍质量审核，确保描述准确、具体、不含幻觉性的错误信息。

整个流水线一共处理了来自安卓、Windows、Linux、MacOS、网页等六大平台的截图，最终产出了3710个有精确标注的功能区域，覆盖了从移动端到专业桌面软件的各种界面类型。

**四、题目是怎么设计的，为什么这么难**

AutoGUI-v2的核心设计思路，是让所有题目都无法靠"认长相"来作弊。为此，研究团队专门寻找那些"看起来极其相似但功能完全不同"的区域或按钮，把它们配对成组，作为题目的迷惑选项。

以区域级别的题目为例：一张屏幕上可能同时存在几条深色横条——顶部是操作系统的系统栏，应用内部有菜单栏、工具栏、底部状态栏，它们的外观都差不多，都是深底色加浅色文字或图标的横向长条。但点击系统栏会弹出系统设置，点击菜单栏会展开文件/编辑/格式等菜单，点击底部状态栏则会显示当前文档的字数或光标位置。如果只靠外观，这几条横条简直一模一样；但如果真正理解了每条横条在软件结构中的功能定位，才能正确区分它们。

题目分为两大类型。第一类叫"功能定向定位"，给AI一个任务描述，比如"如果想在多个通讯录里同时搜索联系人，应该用哪个搜索区域"，让AI找出正确区域的位置（用坐标表示）。第二类叫"功能预测描述"，给AI圈出一个区域，问它点击或操作这个区域之后会发生什么，并提供几个选项，其中迷惑选项正是来自外观相似的其他区域的功能描述。

元素级别的题目同理，但考察的是更细粒度的单个按钮或图标。有些题目还会加入具体的交互方式，比如"双击"、"长按"、"右键点击"、"悬停不点击"，因为同一个元素在不同交互方式下可能触发完全不同的结果。

数据集中的截图分辨率也相当高，最高达到3840×2160，这对AI来说是额外的挑战——它需要在高清大图中找到可能只有几十个像素宽的目标区域。

**五、考核结果：两类AI在两类题上交出了相反的成绩单**

当研究团队把这2753道题分别交给十几款当下最先进的AI模型来作答时，一个耐人寻味的现象出现了。

先说"找到在哪里"这类题目。开源的专门训练过界面操作任务的模型表现出人意料地好。比如Qwen3-VL-32B和GLM-4.5V，在区域定位任务上准确率分别达到了84.4%和84.6%，显著领先于商业闭源模型。Gemini 2.5 Pro Thinking虽然是公认的顶级商业模型，区域定位准确率也只有77.6%，而GPT-5更是只有31.4%。这个落差说明，大量的界面操作数据微调，对于"找位置"这种需要精准坐标输出的任务至关重要。

然而，翻到"说出功能是什么"这类题目，局面完全颠倒了。Gemini 2.5 Pro Thinking以86.2%的准确率拿下区域功能描述任务的榜首，GPT-5以88.1%略胜一筹，OpenAI的O3和Claude Sonnet 4.5也都在84%附近。开源的Qwen3-VL-32B则只有80.1%，而GLM-4.5V维持在86.8%尚在伯仲之间，但其余开源模型普遍不如商业模型。

这种"此消彼长"的现象，研究团队称之为"定位-理解分裂"。直白地说就是：专门训练界面操作的开源模型学会了精准地"指哪打哪"，但对功能语义的抽象理解能力相对有限；而商业大模型积累了海量的世界知识和语言理解能力，能更准确地描述一个界面元素"是干什么的"，却在精准坐标输出上不如专项训练的模型灵活。

在元素级别的考核中，这一分裂同样清晰。Qwen3-VL-32B以71.1%的功能定位准确率排名第一，Gemini 2.5 Pro Thinking为67.7%；而在功能描述题上，Gemini 2.5 Pro Thinking以70.3%领先，Qwen3-VL-32B只有61.3%。

**六、哪类界面元素最难考，哪类最简单**

研究团队不仅看总分，还对不同类型的界面区域分别统计了准确率，得到了一些有趣的发现。

对于标准化程度高的区域，比如"主容器"（软件主窗口）、"交互控件"（搜索框、筛选器、分页器），几乎所有模型的表现都相对较好。这并不难理解，因为这些元素在无数软件中反复出现，格式高度统一，AI见过太多例子，自然能认出来。

而"其他类型"（研究中标注为Others）则是整体失分最惨的区域，这类区域包括颜色选择器、品牌Logo、手机主屏幕的特殊布局等非常规界面元素。几乎所有模型在这类区域上的准确率都比最好的类别低5%以上，说明模型对于这些不常见的界面组件缺乏足够的认知基础。

在不同交互方式上，难度差异更加戏剧性。"长按"和"输入文字"这两类交互，因为视觉反馈很明显（长按通常弹出菜单，输入文字会直接改变内容），模型准确率较高。而"右键点击"几乎让所有商业模型集体折戟——O3、GPT-5、Claude Sonnet 4.5在右键点击相关题目上的准确率几乎为零。"悬停"（把鼠标放在元素上但不点击）也是普遍的弱点，因为悬停触发的往往是一个只在屏幕上短暂出现的提示气泡，这种细微的交互结果让模型很难预判。

**七、"迷惑选项"揭示的深层问题**

研究团队在题目设计上做了一个精心的区分：每道功能描述题不仅有迷惑选项，还对迷惑选项的"迷惑程度"做了分级。"困难"迷惑选项来自外观相似的邻近功能区域，和正确答案只有一步之遥；"简单"迷惑选项则是随机抽取的毫无关联的功能描述，和正确答案几乎没有混淆的可能。

如果模型真正理解了功能，遇到困难迷惑选项时的错误率应该和遇到简单迷惑选项时相差不多。但实际数据显示，几乎所有模型在困难迷惑选项上的错误率都显著高于简单迷惑选项。GPT-5在区域功能描述题上，简单选项错误率只有2.8%，困难选项错误率上升到9.1%；Claude Sonnet 4.5简单错误率5.4%，困难错误率10.6%。

这个规律说明，模型并非在随机犯错，而是确确实实地被"长得像但功能不同"的选项迷惑了。它们的判断依赖于表面的视觉特征匹配，而非对功能语义的深层理解——正是研究团队最想暴露出来的核心缺陷。

**八、Gemini是怎么失手的，案例分析**

研究团队对Gemini 2.5 Pro Thinking的答错案例进行了详细分析，发现了两种清晰的失败模式。

在定位类题目上，Gemini通常能在推理过程中正确识别出目标元素是哪个，但输出的坐标框往往不够精准——要么框太松，包含了大量无关区域；要么框的位置整体偏移了，框住了错误的角落。这反映出商业模型虽然有语义理解能力，但在精确坐标回归这个纯数值计算任务上存在明显短板。

在功能描述类题目上，Gemini的失误集中在两类场景。第一类是"系统层次混淆"：屏幕上同时有操作系统级别的顶部状态栏和软件应用自己的标题栏，Gemini容易把两者搞混。一道题里，一个LibreOffice Writer窗口的标题栏被红框标出，Gemini推断那是软件的"主工具栏"而非"窗口标题栏"，因为它在推理时更多关注了视觉上占据屏幕显眼位置的特征，而没有准确判断该区域在窗口管理层级中的实际角色。第二类是"状态推断失败"：比如一个可折叠的文件夹图标，Gemini无法准确预判点击后哪个具体的子目录会展开或收起，因为这需要结合当前界面的状态信息来判断，不能仅靠静态图像推断。

此外，在元素定位题目中，Gemini的推理文本往往会进行冗长的坐标计算，试图用语言推算"工具栏大概从哪个像素开始、第几个图标大概在什么位置"，但这种基于估算的坐标推导往往错误百出。

**九、周围越热闹，反而越容易找对——密度效应的意外发现**

研究团队还引入了一个新颖的评估维度，叫做"归一化干扰密度"（NID），用来衡量目标元素周围有多少其他元素"挤"在附近。按照密度高低，所有题目被分成稀疏、中等、密集三组。

直觉上你可能会认为，周围元素越密集，越容易搞混，答题越难。但实际数据呈现出来的规律恰恰相反——对于大多数模型来说，密集环境下的定位准确率反而更高。

研究团队给出的解释是：当一个元素周围有很多其他元素时，这个元素处于一个丰富的上下文环境中，这些周围的邻居本身就提供了大量线索，帮助AI判断"这一块区域是什么功能区"。相反，一个孤零零出现在屏幕边角、周围什么都没有的孤立元素，反而让AI无法借助上下文来推断它的功能定位，只能靠那个孤立的视觉外观来猜测，反而更容易出错。

当然，不同类型的模型在这方面的偏好并不完全一致。商业大模型（如O3、GPT-5）和专门的界面定位模型（如OS-Atlas）普遍在密集环境下表现更好；而通用型开源模型（如Step-3、GLM-4.5V）则反过来，在稀疏环境下表现更好，可能是因为它们更依赖对单一视觉特征的直接匹配，密集环境下反而形成干扰。

**十、这项研究对未来意味着什么**

说到底，AutoGUI-v2揭示的并不只是一组数字上的得分，而是当前AI界面理解能力的一张清晰的X光片。

这张X光片显示：AI已经在认识屏幕上的元素方面取得了相当不错的成绩，但对界面功能的深层理解——尤其是不常见的控件、复杂的交互方式、需要结合上下文状态才能判断结果的操作——依然是巨大的短板。这意味着，如果你今天把一项复杂的软件操作任务交给AI来完成，遇到非标准界面或者需要右键菜单、悬停提示之类的精细操作时，它大概率还是会出错。

从更长远的视角看，这项研究提出了一个重要的问题：要让AI真正成为可靠的"数字操作员"，仅仅依靠大量的操作数据训练是不够的。模型需要建立起对界面结构的层次化理解，知道哪些元素属于操作系统层、哪些属于应用层、哪些是当前对话框的临时状态，并且能够预判交互会如何改变软件的状态——就像一个有经验的用户那样，在看到一个界面的第一眼，就能凭直觉推断出大部分控件的功能和后果。

这项研究发布了完整的测试数据集和代码，地址在论文列出的GitHub仓库中，为后续研究者提供了一个标准化的评测平台，任何新的AI界面理解模型都可以拿来测试，看看自己的"屏幕理解力"达到了什么水平。

归根结底，这项研究告诉我们一件听起来简单但意义深远的事：让AI看懂屏幕，和让AI真正理解屏幕，是截然不同的两件事。前者我们已经做得不错了，后者我们才刚刚开始。

Q&A

Q1：AutoGUI-v2测试的是什么能力，普通的AI视觉理解测试有什么不同？

A：AutoGUI-v2专门测试AI对图形界面功能的理解能力，不只是让AI找出某个按钮"长什么样子"或"叫什么名字"，而是要求AI回答"这个区域是干什么的"以及"操作它之后会发生什么"。普通的界面理解测试通常只考察能否根据外观描述定位元素，而AutoGUI-v2故意把外观相似但功能不同的元素配成迷惑组，强迫AI必须真正理解功能语义才能答对。这使得AutoGUI-v2比现有测试难度大得多，也更接近AI在实际操作任务中面对的真实挑战。

Q2：为什么开源模型在找位置上比GPT-5等商业模型还厉害？

A：因为Qwen3-VL、GLM-4.5V等开源模型经过了大量专门的图形界面操作数据微调训练，学会了如何精确输出坐标框来定位屏幕上的特定区域。这种专项训练赋予了它们在坐标回归任务上的优势。而GPT-5、Gemini等商业模型的训练更侧重于通用语言理解和知识积累，没有专门针对界面坐标输出做优化，所以在"找到具体位置"这件事上反而不如专项训练的开源模型精准。不过商业模型在"描述功能是什么"上更胜一筹，两类模型各有所长。

Q3：AutoGUI-v2发现所有AI对哪类界面操作最没把握？

A：右键点击和悬停（鼠标放上去但不点击）是几乎所有模型的共同弱点。对于右键点击，O3、GPT-5、Claude等主流商业模型的准确率接近于零，因为右键菜单的内容高度依赖上下文，难以从静态截图推判。悬停触发的通常是短暂出现的提示气泡，视觉信号微弱，模型也难以准确预测。非标准界面元素如颜色选择器、品牌Logo等也是普遍失分点，说明模型对不常见界面组件的认知储备严重不足。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.