![]()
这项研究由中国科学院大学、中国科学院自动化研究所新型模式识别实验室、多模态人工智能系统国家重点实验室、香港科创研究院以及香港理工大学联合开展,论文于2026年4月发表,论文编号为arXiv:2604.24441v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
**一、这件事为什么值得普通人关注**
你有没有试过把一项繁琐的电脑操作交给AI来完成?比如让AI帮你整理表格、发送邮件、在网站上填写表单?现在已经有不少这样的"电脑使用助手"了,但它们其实远没有你以为的那么聪明。
大多数这类助手的工作方式,更像是一个会盲目跟随导航的司机——只知道"下一步点哪里",却完全不理解自己在哪条街上、为什么要在这个路口转弯。换句话说,它们能执行简单的点击指令,却根本不明白屏幕上那些按钮、菜单、区域到底是干什么的。
这就带来了一个根本性的问题:一个不理解屏幕含义的AI,在遇到稍微复杂一点的情况时就会彻底迷失——比如同一个图标在不同软件里代表完全不同的功能,或者一个看起来毫不起眼的灰色小图标,点击之后会触发一系列操作。
这篇论文的核心任务,就是搞清楚当前最先进的AI视觉语言模型(也就是那种既能"看图"又能"读字"的AI)究竟有多懂电脑屏幕。为此,研究团队构建了一套名为AutoGUI-v2的测试体系,包含2753道专门设计的题目,用来考察AI是否真正理解了界面功能,而不仅仅是认出了那个按钮长什么样子。
**二、AI看屏幕和人看屏幕有什么本质区别**
人类在使用电脑时积累了丰富的直觉。当你看到一个左上角带有软盘图案的图标,你几乎不需要思考就知道那是"保存";当你看到一排颜色相似、形状相近的按钮排列在工具栏上,你能凭经验猜出它们分别控制字体的粗细、对齐方式或者行间距。这种理解不是仅仅靠"认图"得来的,而是因为你明白这些元素在整个软件的操作流程中扮演什么角色,知道点击之后会发生什么变化。
现有的AI测试题目,大多数问的是这样的问题:"屏幕上有一个标着'All'文字的小标签,请找出它在哪里。"或者:"这个按钮叫做'打开搜索设置下拉菜单',请点击它。"这两类问题考察的其实是"认字认图"的能力,只要AI能看清屏幕上的文字或图形,通常都能答对。
AutoGUI-v2团队提出的挑战则完全不同。他们问的是:"如果你想同时搜索多个通讯录,应该用屏幕上的哪个搜索区域?"或者:"点击这个被红框标出的元素,会发生什么?"这类问题没有给出任何外观描述线索,迫使AI必须真正理解每个区域在整个软件流程中的功能定位,才能回答正确。
这是一个根本性的跃升——从"认出长什么样"到"明白是干什么的"。
**三、研究团队是怎么建立这套考卷的**
构建这样一套测试题,本身就是一个工程难题。你需要收集大量真实的电脑界面截图,然后对截图中每一个功能区域进行精确标注,告诉机器这块区域是干什么的,边界在哪里,和旁边那个看起来差不多的区域有什么功能上的区别。这项工作如果全靠人工,不仅费时费力,而且很难保持标注质量的一致性。
研究团队采用了一种"AI初稿、人工精修"的流水线工作方式。他们先请当下能力极强的Gemini 2.5 Pro Thinking模型来充当"初审员",让它自动分析截图,把每张屏幕图片切割成若干个有意义的功能区块,就像把一张城市地图分割成若干个行政区一样。每个区块都会被标注功能描述和边界框。
但仅靠AI来划定边界是不够精确的。模型标出的边界框往往不够紧凑,可能包含了多余的空白区域,或者把某个按钮的边缘截掉了一点点。为了解决这个问题,研究团队开发了一套专用的网页标注工具。标注员可以在浏览器里打开任意一张截图,看到AI划定的区域,然后用鼠标重新拖拽调整边界,精确到每一个像素。这个工具还内置了一些辅助功能,比如按住鼠标不放时会自动"吸附"到附近的边缘线上,大大降低了手工标注的误差。
完成边界修正之后,还要进行最后一步:由于人工调整了区域边界,原来AI写的功能描述可能已经对不上新的视觉内容了,所以需要再跑一轮AI来重新撰写每个区域的功能说明,人工再做一遍质量审核,确保描述准确、具体、不含幻觉性的错误信息。
整个流水线一共处理了来自安卓、Windows、Linux、MacOS、网页等六大平台的截图,最终产出了3710个有精确标注的功能区域,覆盖了从移动端到专业桌面软件的各种界面类型。
**四、题目是怎么设计的,为什么这么难**
AutoGUI-v2的核心设计思路,是让所有题目都无法靠"认长相"来作弊。为此,研究团队专门寻找那些"看起来极其相似但功能完全不同"的区域或按钮,把它们配对成组,作为题目的迷惑选项。
以区域级别的题目为例:一张屏幕上可能同时存在几条深色横条——顶部是操作系统的系统栏,应用内部有菜单栏、工具栏、底部状态栏,它们的外观都差不多,都是深底色加浅色文字或图标的横向长条。但点击系统栏会弹出系统设置,点击菜单栏会展开文件/编辑/格式等菜单,点击底部状态栏则会显示当前文档的字数或光标位置。如果只靠外观,这几条横条简直一模一样;但如果真正理解了每条横条在软件结构中的功能定位,才能正确区分它们。
题目分为两大类型。第一类叫"功能定向定位",给AI一个任务描述,比如"如果想在多个通讯录里同时搜索联系人,应该用哪个搜索区域",让AI找出正确区域的位置(用坐标表示)。第二类叫"功能预测描述",给AI圈出一个区域,问它点击或操作这个区域之后会发生什么,并提供几个选项,其中迷惑选项正是来自外观相似的其他区域的功能描述。
元素级别的题目同理,但考察的是更细粒度的单个按钮或图标。有些题目还会加入具体的交互方式,比如"双击"、"长按"、"右键点击"、"悬停不点击",因为同一个元素在不同交互方式下可能触发完全不同的结果。
数据集中的截图分辨率也相当高,最高达到3840×2160,这对AI来说是额外的挑战——它需要在高清大图中找到可能只有几十个像素宽的目标区域。
**五、考核结果:两类AI在两类题上交出了相反的成绩单**
当研究团队把这2753道题分别交给十几款当下最先进的AI模型来作答时,一个耐人寻味的现象出现了。
先说"找到在哪里"这类题目。开源的专门训练过界面操作任务的模型表现出人意料地好。比如Qwen3-VL-32B和GLM-4.5V,在区域定位任务上准确率分别达到了84.4%和84.6%,显著领先于商业闭源模型。Gemini 2.5 Pro Thinking虽然是公认的顶级商业模型,区域定位准确率也只有77.6%,而GPT-5更是只有31.4%。这个落差说明,大量的界面操作数据微调,对于"找位置"这种需要精准坐标输出的任务至关重要。
然而,翻到"说出功能是什么"这类题目,局面完全颠倒了。Gemini 2.5 Pro Thinking以86.2%的准确率拿下区域功能描述任务的榜首,GPT-5以88.1%略胜一筹,OpenAI的O3和Claude Sonnet 4.5也都在84%附近。开源的Qwen3-VL-32B则只有80.1%,而GLM-4.5V维持在86.8%尚在伯仲之间,但其余开源模型普遍不如商业模型。
这种"此消彼长"的现象,研究团队称之为"定位-理解分裂"。直白地说就是:专门训练界面操作的开源模型学会了精准地"指哪打哪",但对功能语义的抽象理解能力相对有限;而商业大模型积累了海量的世界知识和语言理解能力,能更准确地描述一个界面元素"是干什么的",却在精准坐标输出上不如专项训练的模型灵活。
在元素级别的考核中,这一分裂同样清晰。Qwen3-VL-32B以71.1%的功能定位准确率排名第一,Gemini 2.5 Pro Thinking为67.7%;而在功能描述题上,Gemini 2.5 Pro Thinking以70.3%领先,Qwen3-VL-32B只有61.3%。
**六、哪类界面元素最难考,哪类最简单**
研究团队不仅看总分,还对不同类型的界面区域分别统计了准确率,得到了一些有趣的发现。
对于标准化程度高的区域,比如"主容器"(软件主窗口)、"交互控件"(搜索框、筛选器、分页器),几乎所有模型的表现都相对较好。这并不难理解,因为这些元素在无数软件中反复出现,格式高度统一,AI见过太多例子,自然能认出来。
而"其他类型"(研究中标注为Others)则是整体失分最惨的区域,这类区域包括颜色选择器、品牌Logo、手机主屏幕的特殊布局等非常规界面元素。几乎所有模型在这类区域上的准确率都比最好的类别低5%以上,说明模型对于这些不常见的界面组件缺乏足够的认知基础。
在不同交互方式上,难度差异更加戏剧性。"长按"和"输入文字"这两类交互,因为视觉反馈很明显(长按通常弹出菜单,输入文字会直接改变内容),模型准确率较高。而"右键点击"几乎让所有商业模型集体折戟——O3、GPT-5、Claude Sonnet 4.5在右键点击相关题目上的准确率几乎为零。"悬停"(把鼠标放在元素上但不点击)也是普遍的弱点,因为悬停触发的往往是一个只在屏幕上短暂出现的提示气泡,这种细微的交互结果让模型很难预判。
**七、"迷惑选项"揭示的深层问题**
研究团队在题目设计上做了一个精心的区分:每道功能描述题不仅有迷惑选项,还对迷惑选项的"迷惑程度"做了分级。"困难"迷惑选项来自外观相似的邻近功能区域,和正确答案只有一步之遥;"简单"迷惑选项则是随机抽取的毫无关联的功能描述,和正确答案几乎没有混淆的可能。
如果模型真正理解了功能,遇到困难迷惑选项时的错误率应该和遇到简单迷惑选项时相差不多。但实际数据显示,几乎所有模型在困难迷惑选项上的错误率都显著高于简单迷惑选项。GPT-5在区域功能描述题上,简单选项错误率只有2.8%,困难选项错误率上升到9.1%;Claude Sonnet 4.5简单错误率5.4%,困难错误率10.6%。
这个规律说明,模型并非在随机犯错,而是确确实实地被"长得像但功能不同"的选项迷惑了。它们的判断依赖于表面的视觉特征匹配,而非对功能语义的深层理解——正是研究团队最想暴露出来的核心缺陷。
**八、Gemini是怎么失手的,案例分析**
研究团队对Gemini 2.5 Pro Thinking的答错案例进行了详细分析,发现了两种清晰的失败模式。
在定位类题目上,Gemini通常能在推理过程中正确识别出目标元素是哪个,但输出的坐标框往往不够精准——要么框太松,包含了大量无关区域;要么框的位置整体偏移了,框住了错误的角落。这反映出商业模型虽然有语义理解能力,但在精确坐标回归这个纯数值计算任务上存在明显短板。
在功能描述类题目上,Gemini的失误集中在两类场景。第一类是"系统层次混淆":屏幕上同时有操作系统级别的顶部状态栏和软件应用自己的标题栏,Gemini容易把两者搞混。一道题里,一个LibreOffice Writer窗口的标题栏被红框标出,Gemini推断那是软件的"主工具栏"而非"窗口标题栏",因为它在推理时更多关注了视觉上占据屏幕显眼位置的特征,而没有准确判断该区域在窗口管理层级中的实际角色。第二类是"状态推断失败":比如一个可折叠的文件夹图标,Gemini无法准确预判点击后哪个具体的子目录会展开或收起,因为这需要结合当前界面的状态信息来判断,不能仅靠静态图像推断。
此外,在元素定位题目中,Gemini的推理文本往往会进行冗长的坐标计算,试图用语言推算"工具栏大概从哪个像素开始、第几个图标大概在什么位置",但这种基于估算的坐标推导往往错误百出。
**九、周围越热闹,反而越容易找对——密度效应的意外发现**
研究团队还引入了一个新颖的评估维度,叫做"归一化干扰密度"(NID),用来衡量目标元素周围有多少其他元素"挤"在附近。按照密度高低,所有题目被分成稀疏、中等、密集三组。
直觉上你可能会认为,周围元素越密集,越容易搞混,答题越难。但实际数据呈现出来的规律恰恰相反——对于大多数模型来说,密集环境下的定位准确率反而更高。
研究团队给出的解释是:当一个元素周围有很多其他元素时,这个元素处于一个丰富的上下文环境中,这些周围的邻居本身就提供了大量线索,帮助AI判断"这一块区域是什么功能区"。相反,一个孤零零出现在屏幕边角、周围什么都没有的孤立元素,反而让AI无法借助上下文来推断它的功能定位,只能靠那个孤立的视觉外观来猜测,反而更容易出错。
当然,不同类型的模型在这方面的偏好并不完全一致。商业大模型(如O3、GPT-5)和专门的界面定位模型(如OS-Atlas)普遍在密集环境下表现更好;而通用型开源模型(如Step-3、GLM-4.5V)则反过来,在稀疏环境下表现更好,可能是因为它们更依赖对单一视觉特征的直接匹配,密集环境下反而形成干扰。
**十、这项研究对未来意味着什么**
说到底,AutoGUI-v2揭示的并不只是一组数字上的得分,而是当前AI界面理解能力的一张清晰的X光片。
这张X光片显示:AI已经在认识屏幕上的元素方面取得了相当不错的成绩,但对界面功能的深层理解——尤其是不常见的控件、复杂的交互方式、需要结合上下文状态才能判断结果的操作——依然是巨大的短板。这意味着,如果你今天把一项复杂的软件操作任务交给AI来完成,遇到非标准界面或者需要右键菜单、悬停提示之类的精细操作时,它大概率还是会出错。
从更长远的视角看,这项研究提出了一个重要的问题:要让AI真正成为可靠的"数字操作员",仅仅依靠大量的操作数据训练是不够的。模型需要建立起对界面结构的层次化理解,知道哪些元素属于操作系统层、哪些属于应用层、哪些是当前对话框的临时状态,并且能够预判交互会如何改变软件的状态——就像一个有经验的用户那样,在看到一个界面的第一眼,就能凭直觉推断出大部分控件的功能和后果。
这项研究发布了完整的测试数据集和代码,地址在论文列出的GitHub仓库中,为后续研究者提供了一个标准化的评测平台,任何新的AI界面理解模型都可以拿来测试,看看自己的"屏幕理解力"达到了什么水平。
归根结底,这项研究告诉我们一件听起来简单但意义深远的事:让AI看懂屏幕,和让AI真正理解屏幕,是截然不同的两件事。前者我们已经做得不错了,后者我们才刚刚开始。
Q&A
Q1:AutoGUI-v2测试的是什么能力,普通的AI视觉理解测试有什么不同?
A:AutoGUI-v2专门测试AI对图形界面功能的理解能力,不只是让AI找出某个按钮"长什么样子"或"叫什么名字",而是要求AI回答"这个区域是干什么的"以及"操作它之后会发生什么"。普通的界面理解测试通常只考察能否根据外观描述定位元素,而AutoGUI-v2故意把外观相似但功能不同的元素配成迷惑组,强迫AI必须真正理解功能语义才能答对。这使得AutoGUI-v2比现有测试难度大得多,也更接近AI在实际操作任务中面对的真实挑战。
Q2:为什么开源模型在找位置上比GPT-5等商业模型还厉害?
A:因为Qwen3-VL、GLM-4.5V等开源模型经过了大量专门的图形界面操作数据微调训练,学会了如何精确输出坐标框来定位屏幕上的特定区域。这种专项训练赋予了它们在坐标回归任务上的优势。而GPT-5、Gemini等商业模型的训练更侧重于通用语言理解和知识积累,没有专门针对界面坐标输出做优化,所以在"找到具体位置"这件事上反而不如专项训练的开源模型精准。不过商业模型在"描述功能是什么"上更胜一筹,两类模型各有所长。
Q3:AutoGUI-v2发现所有AI对哪类界面操作最没把握?
A:右键点击和悬停(鼠标放上去但不点击)是几乎所有模型的共同弱点。对于右键点击,O3、GPT-5、Claude等主流商业模型的准确率接近于零,因为右键菜单的内容高度依赖上下文,难以从静态截图推判。悬停触发的通常是短暂出现的提示气泡,视觉信号微弱,模型也难以准确预测。非标准界面元素如颜色选择器、品牌Logo等也是普遍失分点,说明模型对不常见界面组件的认知储备严重不足。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.