网易首页 > 网易号 > 正文 申请入驻

中科院团队打造AI专属交互界面,任务成功率提升67%

0
分享至

在日常使用电脑时,看着屏幕、点击鼠标是再自然不过的基本操作。但这种对人类明明很容易的操作方式,却成为 AI 的巨大挑战:它们视力差、动作慢、不擅长看也不擅长点。

几十年来,操作系统的图形用户界面(GUI)一直都是为人类使用而设计,从未考虑有一天,大语言模型(LLM)会成为操作系统新的使用者。

要知道,GUI 智能体与人类在能力上存在巨大的差异,完美适配人类能力特征的 GUI,反而非常不适合 LLM 使用。

LLM 擅长语义规划、定目标、决策要“做什么”,而 GUI 逼着使用者给出具体“怎么做”的详细步骤。但是,LLM 恰恰非常不擅长这种低层次、繁琐的机制性操作,因此很容易出错。

近期,中国科学院软件研究所基础软件与系统重点实验室团队提出了一种新的思路,他们为操作系统引入了新的抽象,为大模型量身定制了目标导向接口(GOI)。通过将 GUI 操作转化为声明式(Declarative)原语,显著提高了 LLM 在自动化计算机任务中的表现。

中国科学院软件研究所陈海波教授对 DeepTech 表示,GOI 的设计理念有望为领域带来新的思考——系统或程序本身在设计时即假设用户可能是 LLM,并提供 LLM 使用的接口,而非强迫 LLM 模仿人类,去使用那些为人类设计的接口。

简单来理解,GOI 让 LLM 更像是“指挥官”而非“操作员”。传统微调或重训练的方法,就像要求大模型模仿人类,学习掌握处理机制性操作的能力;而声明式的 GOI 就像一位专业的“执行助理”,接管了 LLM 不擅长的机制操作。指挥官(大模型)专注于发挥本就擅长的能力,下达“想要什么结果”(策略),GOI 这个“助理”会自动处理所有底层的导航和交互(机制)。

GOI 与传统接口最实质的不同在于:传统接口通常默认接口的使用者为人类,而 GOI 是让接口更适合 LLM 使用,对 LLM 更友好。研究人员在 Windows 上的微软 Office 套件(Word、PowerPoint、Excel)上评估了 GOI 的有效性。

结果显示,与领先的基于 GUI 的代理基线相比,GOI 将任务成功率提升了 67%,步骤减少了 43.5%。值得注意的是,GOI 在 61% 以上的成功任务中,仅用一次 LLM 调用即完成了相关任务。

GOI 当前基于 Windows 系统的 UIA 可访问性机制实现,其设计理念同时具有跨平台通用性,类似的可访问机制接口在 macOS、Linux(例如 Ubuntu)、Android 等系统中均可提供。据介绍,GOI 在这些系统上落地,更多的是一种工程上的开发适配。

对于游戏和部分媒体应用来说,这类应用程序为达到更高的性能,采取了自绘和自定义的方法,并没有全部使用操作系统通用的可访问性类型和模式。因此,GOI 在这类应用上的实现需要开发者进行配合。

相关论文以《一种提高计算机使用代理效率的声明式大语言模型友好界面的案例研究》(A Case for Declarative LLM-friendly Interfaces for Improved Efficiency of Computer-Use Agents)为题发表在预印本网站 arXiv[1]。论文作者包括中国科学院软件研究所基础软件与系统重点实验室陈海波教授、李明煜副研究员和王远博士研究生。

研究团队首先从接口设计的角度分析问题。具体而言,为人使用设计的 GUI,对用户能力做了四个关键假设:用户视力好、操作快,但短期记忆空间小且不擅长写代码。

这些假设对 LLM 并不成立。LLM 视力差、推理慢,但是上下文空间巨大,且擅长结构化输出。这种错配使得 LLM 使用 GUI 时遇到了很多挑战。例如,在使用 GUI 时,功能不能被直接调用,而是需要输出长动作链进行“导航”和“交互”。

陈海波举例说道,这就好比 LLM 去打车,命令式的 GUI 需要告诉司机“前方直行 100 米,第一个红绿灯路口右转,靠右前方行驶 50 米”,而不能直接声明“目的地”。处理这些细粒度且繁琐的步骤,恰恰是 LLM 不擅长的。

该团队的一个很自然的思考是:是否可以将 GUI 使用中 LLM 不擅长的部分交给操作系统,而非由 LLM 负责一切呢?

基于此,他们发现 APP 的使用可以分为策略(policy)机制(mechanism)两部分。简单来理解,策略就是“做什么”:分析完成用户任务需要用到什么功能;机制则是“怎么做”:如何通过一步步的 UI 导航和交互,触发这些功能。

另一方面,研究人员将 GUI 的导航和交互抽象为访问(access)、状态(state)、观测(observation)三类声明式原语。这样,LLM 不再需要输出具体、繁琐且易错的导航和交互步骤,而是直接通过声明式原语声明期望的结果。

“正是这三类声明式原语将策略和机制解耦,允许 LLM 专注于策略的处理,规避了大量来自机制层面的失败和交互开销,因此带来了准确率和效率的大幅提升。”陈海波表示。

以幻灯片为例,用户的需求是“将 PPT 背景全部设置为蓝色”。在这一任务中,策略(功能编排)指的是使用“蓝色”和“应用到全部”这两个功能,而机制(导航和交互)是点击“设计”“设置背景格式”“纯色填充”“颜色”“蓝色”和“应用到全部”,以触发实际的功能。

另一个例子是,用户要求将“滚动条移动到靠近结尾的位置”。在这一任务中,策略指的是确定一个最终位置,比如 80%,而机制(交互)指的是选中滚动条、保持按住不释放,多次拖拽和移动并观察最终状态是否符合预期,直到移动到目标位置。


(来源:资料图)

GUI 的设计耦合了策略与机制,应用功能的使用前置依赖于导航和交互,无法被直接访问。当使用 GUI 时,LLM 不仅面临着冗长的动作链条,过多的调用次数,还经常在导航和交互中犯错,导致任务失败。

“虽然 LLM 不擅长处理机制,但我们发现,导航和交互两个部分存在很强的确定性,这部分工作可以由算法确定性完成,不必 LLM 参与。”陈海波表示。

具体来说,应用控件间的转换关系是确定的,可以被建模为有限状态机;同时,在可访问性下,控件可被归类为有限数量的 41 种控件类型和 34 种控制模式。这为策略与机制的解耦提供了机会。

解耦后的结果,正是“声明式”的交互范式。在这种范式下,LLM 直接指定期望的结果,而不是输出完成结果的具体动作。例如,LLM 可以直接声明visit(“蓝色”“应用到全部”),而非输出具体的导航路径。

LLM 可以直接调用set_scrollbar_pos(80%)以设置最终位置,而非通过迭代交互以完成这一结果。这种声明式接口,允许 LLM 专注于语义推理,而非自身不擅长的细粒度的底层操作。

研究中的一个挑战是,接口的设计必须考虑 LLM 的独特能力特点,尤其是 LLM 不完美的指令遵从(instruction-following)。比如,虽然研究人员在 prompt 中要求 LLM 直接指定期望访问的控件,而非输出访问这个控件所需要的具体导航步骤,LLM 仍有可能在回答中输出具体的导航路径,这会带来更多错误的可能性。

为解决该问题,他们对非叶子节点进行了整体过滤,接口会自动忽略这些导航节点,只保留 LLM 输出中的叶子节点,以确保 GOI 完全接管控件的导航过程。

总结来说,“声明式”协作范式的初衷,是通过重构接口设计以简化 LLM 的计算机使用难度,允许 LLM 充分发挥自身所长,规避自身能力短板,最终实现生产力的实质提升。

在这一范式下,人类可以简洁地用自然语言表达自己的需求,而 LLM 和系统则能力互补。其中,LLM 专注于无法被确定性处理的语义推理任务,系统则负责处理可以被确定性解决的机制性任务。

研究团队认为,LLM 时代下,操作系统正在加速演进。在未来,操作系统可能会原生支持这种声明式接口,支撑一种模型原生的操作系统设计 [2]。例如,在官方提供的应用开发框架中,集成自动构建导航拓扑的能力,而不是将应用程序视为“黑盒”进行外部探索以完成建模。最终,这种声明式接口可能内化于操作系统的构建中,从而为“LLM 智能体”这一全新的计算机用户提供原生支持。

参考资料:

1. A Case for Declarative LLM-friendly Interfaces for Improved Efficiency of Computer-Use Agents. Yuan Wang, Mingyu Li, Haibo Chen . https://arxiv.org/abs/2510.04607.

2. 模型原生操作系统:机遇、挑战与展望. 陈海波、夏虞斌、陈榕、王肇国、糜泽羽、古金宇. 中国计算机学会通讯. 2025 年第 2 期

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子大闹奶茶店后续:人被拘留,学校停了她的课,正脸曝光已社死

女子大闹奶茶店后续:人被拘留,学校停了她的课,正脸曝光已社死

江山挥笔
2026-05-26 09:32:15
成都蓉城队间歇期也没闲着!已提前要给大家一份大礼,值得期待

成都蓉城队间歇期也没闲着!已提前要给大家一份大礼,值得期待

振刚说足球
2026-06-03 09:34:20
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

削桐作琴
2026-02-25 18:15:14
这是1895年一名探矿者在加利福尼亚发现了一具巨人的尸体。

这是1895年一名探矿者在加利福尼亚发现了一具巨人的尸体。

岁月有情1314
2026-05-28 14:17:28
课本上看不到的真相:甲午海战惨败的深层次原因,为啥是必败的

课本上看不到的真相:甲午海战惨败的深层次原因,为啥是必败的

贱议你读史
2026-05-26 06:20:03
葡萄牙队世界杯号码公布:C罗身披7号领衔,B费8号、B席10号

葡萄牙队世界杯号码公布:C罗身披7号领衔,B费8号、B席10号

懂球帝
2026-06-02 18:00:13
蓝营风波持续,赵少康节目收视率跌至0.38%

蓝营风波持续,赵少康节目收视率跌至0.38%

郭茂辰海峡传真
2026-06-02 21:43:32
奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

背包旅行
2026-05-28 18:04:35
几大天灾齐聚东北,乱成了一锅粥 | 地球知识局

几大天灾齐聚东北,乱成了一锅粥 | 地球知识局

地球知识局
2026-06-02 20:41:12
库里与李宁签订10年长约!Curry品牌开启全球布局,称是毕生之约

库里与李宁签订10年长约!Curry品牌开启全球布局,称是毕生之约

夜白侃球
2026-06-03 10:39:35
胆子更大了!塔利班拿到俄罗斯给的强援后,立马调转枪口怼邻国

胆子更大了!塔利班拿到俄罗斯给的强援后,立马调转枪口怼邻国

真的好爱你
2026-06-03 05:30:54
他若不死必是十大元帅之首?毛主席:他比我厉害十倍

他若不死必是十大元帅之首?毛主席:他比我厉害十倍

小豫讲故事
2026-05-04 06:00:15
在基辅的哥伦比亚雇佣兵:有我被俘视频吗?父母竟这样得知我活着

在基辅的哥伦比亚雇佣兵:有我被俘视频吗?父母竟这样得知我活着

风信子的花
2026-06-03 09:43:17
贪财又好色,德不配位的几位老艺术家,晚节不保一点都不冤

贪财又好色,德不配位的几位老艺术家,晚节不保一点都不冤

林轻吟
2026-06-03 07:18:26
被北大三次退档的河南考生已顺利硕士毕业,他给了北大乃至整个中国高校一记响亮的耳光!

被北大三次退档的河南考生已顺利硕士毕业,他给了北大乃至整个中国高校一记响亮的耳光!

人间运行手册
2026-05-31 10:02:15
有人预测:2026年下半年,二手房市场或将面对这3大变化

有人预测:2026年下半年,二手房市场或将面对这3大变化

猫叔东山再起
2026-06-03 09:00:15
美股光通信股深夜狂飙,迈威尔科技涨超32%,中概股科技龙头全线飘红,腾讯涨9%

美股光通信股深夜狂飙,迈威尔科技涨超32%,中概股科技龙头全线飘红,腾讯涨9%

21世纪经济报道
2026-06-03 07:10:56
一个离婚女人的自述:婚内追我的人排着队,离了婚他们全跑了

一个离婚女人的自述:婚内追我的人排着队,离了婚他们全跑了

千秋文化
2026-05-27 19:53:48
于正晒与晚晚合照引争议,于正回怼:骂她的都是嫉妒她的美貌财力

于正晒与晚晚合照引争议,于正回怼:骂她的都是嫉妒她的美貌财力

露珠聊影视
2026-06-02 17:55:28
张学良晚年坦言:我从不迷信,但在老虎厅杀杨宇霆后,我不得不信

张学良晚年坦言:我从不迷信,但在老虎厅杀杨宇霆后,我不得不信

史之铭
2026-05-28 00:45:35
2026-06-03 11:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16783文章数 514993关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

2030年之前 莲花还来得及

态度原创

本地
房产
亲子
数码
时尚

本地新闻

用剪纸的方式,打开江苏扬州

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

亲子要闻

夏天给孩子开空调的正确步骤

数码要闻

海韵预览下代猫头鹰联名PRIME TX电源:升级风扇,缩短至170mm

一身夏装三种模样,跟着Mai拿捏夏日甜辣

无障碍浏览 进入关怀版