网易首页 > 网易号 > 正文 申请入驻

中科院团队打造AI专属交互界面,任务成功率提升67%

0
分享至

在日常使用电脑时,看着屏幕、点击鼠标是再自然不过的基本操作。但这种对人类明明很容易的操作方式,却成为 AI 的巨大挑战:它们视力差、动作慢、不擅长看也不擅长点。

几十年来,操作系统的图形用户界面(GUI)一直都是为人类使用而设计,从未考虑有一天,大语言模型(LLM)会成为操作系统新的使用者。

要知道,GUI 智能体与人类在能力上存在巨大的差异,完美适配人类能力特征的 GUI,反而非常不适合 LLM 使用。

LLM 擅长语义规划、定目标、决策要“做什么”,而 GUI 逼着使用者给出具体“怎么做”的详细步骤。但是,LLM 恰恰非常不擅长这种低层次、繁琐的机制性操作,因此很容易出错。

近期,中国科学院软件研究所基础软件与系统重点实验室团队提出了一种新的思路,他们为操作系统引入了新的抽象,为大模型量身定制了目标导向接口(GOI)。通过将 GUI 操作转化为声明式(Declarative)原语,显著提高了 LLM 在自动化计算机任务中的表现。

中国科学院软件研究所陈海波教授对 DeepTech 表示,GOI 的设计理念有望为领域带来新的思考——系统或程序本身在设计时即假设用户可能是 LLM,并提供 LLM 使用的接口,而非强迫 LLM 模仿人类,去使用那些为人类设计的接口。

简单来理解,GOI 让 LLM 更像是“指挥官”而非“操作员”。传统微调或重训练的方法,就像要求大模型模仿人类,学习掌握处理机制性操作的能力;而声明式的 GOI 就像一位专业的“执行助理”,接管了 LLM 不擅长的机制操作。指挥官(大模型)专注于发挥本就擅长的能力,下达“想要什么结果”(策略),GOI 这个“助理”会自动处理所有底层的导航和交互(机制)。

GOI 与传统接口最实质的不同在于:传统接口通常默认接口的使用者为人类,而 GOI 是让接口更适合 LLM 使用,对 LLM 更友好。研究人员在 Windows 上的微软 Office 套件(Word、PowerPoint、Excel)上评估了 GOI 的有效性。

结果显示,与领先的基于 GUI 的代理基线相比,GOI 将任务成功率提升了 67%,步骤减少了 43.5%。值得注意的是,GOI 在 61% 以上的成功任务中,仅用一次 LLM 调用即完成了相关任务。


图丨从左至右依次为:李明煜、陈海波和王远(来源:陈海波)

GOI 当前基于 Windows 系统的 UIA 可访问性机制实现,其设计理念同时具有跨平台通用性,类似的可访问机制接口在 macOS、Linux(例如 Ubuntu)、Android 等系统中均可提供。据介绍,GOI 在这些系统上落地,更多的是一种工程上的开发适配。

对于游戏和部分媒体应用来说,这类应用程序为达到更高的性能,采取了自绘和自定义的方法,并没有全部使用操作系统通用的可访问性类型和模式。因此,GOI 在这类应用上的实现需要开发者进行配合。

相关论文以《一种提高计算机使用代理效率的声明式大语言模型友好界面的案例研究》(A Case for Declarative LLM-friendly Interfaces for Improved Efficiency of Computer-Use Agents)为题发表在预印本网站 arXiv[1]。论文作者包括中国科学院软件研究所基础软件与系统重点实验室陈海波教授、李明煜副研究员和王远博士研究生。


图丨相关论文(来源:arXiv)

研究团队首先从接口设计的角度分析问题。具体而言,为人使用设计的 GUI,对用户能力做了四个关键假设:用户视力好、操作快,但短期记忆空间小且不擅长写代码。

这些假设对 LLM 并不成立。LLM 视力差、推理慢,但是上下文空间巨大,且擅长结构化输出。这种错配使得 LLM 使用 GUI 时遇到了很多挑战。例如,在使用 GUI 时,功能不能被直接调用,而是需要输出长动作链进行“导航”和“交互”。

陈海波举例说道,这就好比 LLM 去打车,命令式的 GUI 需要告诉司机“前方直行 100 米,第一个红绿灯路口右转,靠右前方行驶 50 米”,而不能直接声明“目的地”。处理这些细粒度且繁琐的步骤,恰恰是 LLM 不擅长的。

该团队的一个很自然的思考是:是否可以将 GUI 使用中 LLM 不擅长的部分交给操作系统,而非由 LLM 负责一切呢?


图丨 GOI 抽象层概述(来源:arXiv)

基于此,他们发现 APP 的使用可以分为策略(policy)机制(mechanism)两部分。简单来理解,策略就是“做什么”:分析完成用户任务需要用到什么功能;机制则是“怎么做”:如何通过一步步的 UI 导航和交互,触发这些功能。


图丨GUI 使用中的策略-机制耦合(来源:arXiv)

另一方面,研究人员将 GUI 的导航和交互抽象为访问(access)、状态(state)、观测(observation)三类声明式原语。这样,LLM 不再需要输出具体、繁琐且易错的导航和交互步骤,而是直接通过声明式原语声明期望的结果。

“正是这三类声明式原语将策略和机制解耦,允许 LLM 专注于策略的处理,规避了大量来自机制层面的失败和交互开销,因此带来了准确率和效率的大幅提升。”陈海波表示。


(来源:arXiv)

以幻灯片为例,用户的需求是“将 PPT 背景全部设置为蓝色”。在这一任务中,策略(功能编排)指的是使用“蓝色”和“应用到全部”这两个功能,而机制(导航和交互)是点击“设计”“设置背景格式”“纯色填充”“颜色”“蓝色”和“应用到全部”,以触发实际的功能。


(来源:资料图)

另一个例子是,用户要求将“滚动条移动到靠近结尾的位置”。在这一任务中,策略指的是确定一个最终位置,比如 80%,而机制(交互)指的是选中滚动条、保持按住不释放,多次拖拽和移动并观察最终状态是否符合预期,直到移动到目标位置。


(来源:资料图)

GUI 的设计耦合了策略与机制,应用功能的使用前置依赖于导航和交互,无法被直接访问。当使用 GUI 时,LLM 不仅面临着冗长的动作链条,过多的调用次数,还经常在导航和交互中犯错,导致任务失败。

“虽然 LLM 不擅长处理机制,但我们发现,导航和交互两个部分存在很强的确定性,这部分工作可以由算法确定性完成,不必 LLM 参与。”陈海波表示。

具体来说,应用控件间的转换关系是确定的,可以被建模为有限状态机;同时,在可访问性下,控件可被归类为有限数量的 41 种控件类型和 34 种控制模式。这为策略与机制的解耦提供了机会。

解耦后的结果,正是“声明式”的交互范式。在这种范式下,LLM 直接指定期望的结果,而不是输出完成结果的具体动作。例如,LLM 可以直接声明visit(“蓝色”“应用到全部”),而非输出具体的导航路径。

LLM 可以直接调用set_scrollbar_pos(80%)以设置最终位置,而非通过迭代交互以完成这一结果。这种声明式接口,允许 LLM 专注于语义推理,而非自身不擅长的细粒度的底层操作。


表丨命令式 GUI 与声明式 GOI 的案例对比(来源:arXiv)

研究中的一个挑战是,接口的设计必须考虑 LLM 的独特能力特点,尤其是 LLM 不完美的指令遵从(instruction-following)。比如,虽然研究人员在 prompt 中要求 LLM 直接指定期望访问的控件,而非输出访问这个控件所需要的具体导航步骤,LLM 仍有可能在回答中输出具体的导航路径,这会带来更多错误的可能性。

为解决该问题,他们对非叶子节点进行了整体过滤,接口会自动忽略这些导航节点,只保留 LLM 输出中的叶子节点,以确保 GOI 完全接管控件的导航过程。

总结来说,“声明式”协作范式的初衷,是通过重构接口设计以简化 LLM 的计算机使用难度,允许 LLM 充分发挥自身所长,规避自身能力短板,最终实现生产力的实质提升。

在这一范式下,人类可以简洁地用自然语言表达自己的需求,而 LLM 和系统则能力互补。其中,LLM 专注于无法被确定性处理的语义推理任务,系统则负责处理可以被确定性解决的机制性任务。

研究团队认为,LLM 时代下,操作系统正在加速演进。在未来,操作系统可能会原生支持这种声明式接口,支撑一种模型原生的操作系统设计 [2]。例如,在官方提供的应用开发框架中,集成自动构建导航拓扑的能力,而不是将应用程序视为“黑盒”进行外部探索以完成建模。最终,这种声明式接口可能内化于操作系统的构建中,从而为“LLM 智能体”这一全新的计算机用户提供原生支持。

参考资料:

1. A Case for Declarative LLM-friendly Interfaces for Improved Efficiency of Computer-Use Agents. Yuan Wang, Mingyu Li, Haibo Chen . https://arxiv.org/abs/2510.04607.

2. 模型原生操作系统:机遇、挑战与展望. 陈海波、夏虞斌、陈榕、王肇国、糜泽羽、古金宇. 中国计算机学会通讯. 2025 年第 2 期

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
发春节红包的大厂都被约谈了

发春节红包的大厂都被约谈了

经济观察报
2026-02-15 08:10:04
超市里很多速冻水饺为何价格那么低?因为馅主料不是肉,而是大豆蛋白

超市里很多速冻水饺为何价格那么低?因为馅主料不是肉,而是大豆蛋白

爆角追踪
2026-02-14 22:27:44
8499元!iPhone 17 Pro Max 突然官宣:2月15日,正式官降

8499元!iPhone 17 Pro Max 突然官宣:2月15日,正式官降

科技堡垒
2026-02-15 11:19:04
中组部意见解读:公职人员退休后未经批准经商的,不再保留党政机关退休金等待遇

中组部意见解读:公职人员退休后未经批准经商的,不再保留党政机关退休金等待遇

审计之家
2026-02-15 09:35:47
大逆转!最低温-1℃!冷空气即将抵达广西

大逆转!最低温-1℃!冷空气即将抵达广西

环球网资讯
2026-02-15 15:34:20
人到底有多坏,才能做出这种丧尽天良的事!

人到底有多坏,才能做出这种丧尽天良的事!

槽三刀
2026-02-14 21:35:46
【真实故事】炊事员做了8年饭退伍,刚走到军区大门就被岗哨拦住:站着别动

【真实故事】炊事员做了8年饭退伍,刚走到军区大门就被岗哨拦住:站着别动

奶茶麦子
2026-02-15 10:25:26
欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

西楼知趣杂谈
2026-02-14 18:35:51
闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

磊子讲史
2026-01-23 16:54:49
56岁“恋爱脑”阿姨发现丈夫13年婚外情哭瞎右眼,离婚后10年游43国

56岁“恋爱脑”阿姨发现丈夫13年婚外情哭瞎右眼,离婚后10年游43国

上观新闻
2026-02-15 13:12:41
韩媒:中国或0金收官创最差纪录!离开主场原形毕露 只能靠谷爱凌

韩媒:中国或0金收官创最差纪录!离开主场原形毕露 只能靠谷爱凌

念洲
2026-02-14 16:28:58
大年初一千万别穿这三件衣,穿错瘦穷一年,全家跟着倒霉!

大年初一千万别穿这三件衣,穿错瘦穷一年,全家跟着倒霉!

凉湫瑾言
2026-02-15 11:55:10
担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

天天热点见闻
2026-02-15 08:24:58
泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

大风新闻
2026-02-15 15:23:15
亲戚蹭我车回家过年,路过超市他买3000元海鲜,结账时回头看我

亲戚蹭我车回家过年,路过超市他买3000元海鲜,结账时回头看我

船长与船1
2026-02-15 12:04:26
王毅在慕尼黑安全会议上,拿德国和日本作对比,日本媒体人不干了

王毅在慕尼黑安全会议上,拿德国和日本作对比,日本媒体人不干了

安安说
2026-02-15 12:43:39
热乎乎到账!贵阳一97年小伙晒出年终奖72210元,网友们陷入疯狂

热乎乎到账!贵阳一97年小伙晒出年终奖72210元,网友们陷入疯狂

火山詩话
2026-02-15 14:27:36
冯小刚一家三口拍春节全家福!冯朵被夸像王楚然,母女关系很微妙

冯小刚一家三口拍春节全家福!冯朵被夸像王楚然,母女关系很微妙

夜里的海风
2026-02-15 10:11:40
人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

历史按察使司
2026-02-13 08:00:22
湖南一男子参加“同学聚会”被“下药”设赌局,药效发作后提前离场躲过一劫,5人被刑拘

湖南一男子参加“同学聚会”被“下药”设赌局,药效发作后提前离场躲过一劫,5人被刑拘

极目新闻
2026-02-15 14:27:05
2026-02-15 16:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16269文章数 514615关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

重庆两套法拍房以192万余元起拍 物业欠费达108万余元

头条要闻

重庆两套法拍房以192万余元起拍 物业欠费达108万余元

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

游戏
本地
时尚
公开课
军事航空

《战神》新作IGN 8分!没有惊艳突破 但扎实有力

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

推广中奖名单-更新至2026年2月3日推广

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版