网易首页 > 网易号 > 正文 申请入驻

小模型大成果:通过分解方法实现卓越意图提取

0
分享至


随着AI技术不断进步,真正有用的智能体将能够更好地预测用户需求。为了让移动设备上的体验真正有帮助,底层模型需要理解用户在与其交互时正在做什么(或试图做什么)。一旦理解了当前和之前的任务,模型就有更多上下文来预测潜在的下一步操作。例如,如果用户之前搜索过欧洲的音乐节,现在正在寻找飞往伦敦的航班,智能体可以主动提供在这些特定日期在伦敦举办的音乐节信息。

大型多模态大语言模型已经能够很好地从用户界面(UI)轨迹中理解用户意图。但使用大语言模型执行这项任务通常需要将信息发送到服务器,这可能很慢、成本高昂,并且存在暴露敏感信息的潜在风险。

我们在EMNLP 2025上发表的最新论文"小模型,大成果:通过分解实现卓越意图提取",解决了如何使用小型多模态大语言模型来理解用户在网页和移动设备上的交互序列的问题,并且全部在设备上完成。通过将用户意图理解分为两个阶段——首先分别总结每个屏幕,然后从生成的摘要序列中提取意图,我们使小模型更容易处理这项任务。我们还制定了评估模型性能的正式指标,并显示我们的方法产生了与更大模型相当的结果,展示了其在设备上应用的潜力。

分解式工作流程

我们引入了一种用于从用户交互中理解用户意图的分解工作流程。在推理时,模型执行两个主要步骤。第一步,每个在单一屏幕和UI元素上的单独交互都被独立总结。接下来,这些摘要被用作一系列事件来预测整个UI轨迹的一般意图。

在第一阶段,每个单独的交互都由一个小型多模态大语言模型进行总结。给定三个屏幕的滑动窗口(上一个、当前、下一个),会询问以下问题:屏幕上下文是什么?用户采取了什么行动?用户可能试图实现什么?

在这个阶段,使用经过微调的小模型从屏幕摘要中提取一个句子。在第二阶段的分解工作流程中,使用经过微调的模型,将第一阶段生成的摘要作为输入,输出简洁的意图陈述。在这个阶段,我们从摘要中删除所有推测,并在训练期间清理标签,使其不鼓励幻觉。

评估方法

我们使用Bi-Fact方法来评估预测意图与参考意图的质量。通过这种方法,我们使用单独的大语言模型调用将参考意图和预测意图分解为不能进一步分解的意图细节,我们称之为"原子事实"。例如,"单程航班"将是一个原子事实,而"从伦敦到基加利的航班"将是两个。然后我们计算预测意图所包含的参考事实数量和参考意图所包含的预测事实数量。这使我们能够了解方法的精确度(有多少预测事实是正确的)和召回率(我们正确预测了多少真实事实),并计算F1分数。

实验结果

当使用小模型时,分别总结每个屏幕然后从生成的摘要序列中提取意图的分解方法是有帮助的。我们将其与标准方法(包括思维链提示(CoT)和端到端微调(E2E))进行比较,发现它超越了两者。当我们在移动设备和网页轨迹以及Gemini和Qwen2基础模型上测试时,这个结果都成立。我们甚至发现,将分解方法应用于Gemini 1.5 Flash 8B模型可以实现与使用Gemini 1.5 Pro相当的结果,但成本和速度只是其一小部分。

结论

我们已经表明,轨迹总结的分解方法对于使用小模型进行意图理解是有帮助的。最终,随着模型性能的提高和移动设备获得更多处理能力,我们希望设备上的意图理解能够成为未来移动设备上许多辅助功能的构建基块。

Q&A

Q1:什么是分解式意图提取方法?

A:分解式意图提取是一种将用户意图理解分为两个阶段的方法。第一阶段使用小型多模态大语言模型分别总结每个屏幕上的用户交互,第二阶段使用经过微调的模型从这些摘要序列中提取整体意图。这种方法让小模型更容易处理复杂的用户行为理解任务。

Q2:为什么要使用小模型而不是大型语言模型?

A:使用大语言模型通常需要将信息发送到服务器,这会导致延迟高、成本昂贵,并且存在暴露用户敏感信息的风险。而小模型可以直接在设备上运行,保护用户隐私,降低成本,提高响应速度,同时通过分解方法仍能达到与大模型相当的性能。

Q3:Bi-Fact评估方法是如何工作的?

A:Bi-Fact方法将预测意图和参考意图都分解为不可再分的"原子事实",然后计算预测意图包含的参考事实数量和参考意图包含的预测事实数量。通过这种方式可以得出精确度(预测事实的正确率)和召回率(真实事实的预测覆盖率),进而计算F1分数来综合评估模型性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

岐黄传人孙大夫
2026-01-08 10:06:20
张又侠发表署名文章

张又侠发表署名文章

上观新闻
2025-11-12 08:41:04
美籍华裔院士李飞飞:如果获得诺贝尔奖,我希望是以中国人的身份

美籍华裔院士李飞飞:如果获得诺贝尔奖,我希望是以中国人的身份

不写散文诗
2026-01-21 21:30:52
这么白的JK,谁顶得住?

这么白的JK,谁顶得住?

贵圈真乱
2026-01-24 14:28:14
二次逮捕尹锡悦!李在明杀招已现:判不了死刑,也要彻底斩草除根

二次逮捕尹锡悦!李在明杀招已现:判不了死刑,也要彻底斩草除根

阿伧说事
2026-01-24 15:21:42
北约历史性一幕发生,77年来首次,德国总理决定:马上带人去中国

北约历史性一幕发生,77年来首次,德国总理决定:马上带人去中国

议纪史
2026-01-23 16:10:07
尺度大到变态,这新剧太重口了

尺度大到变态,这新剧太重口了

天天美剧吧
2026-01-23 20:37:50
全网寻鞋!男子坐卧铺时鞋被穿错,一只斯凯奇变Prada:新鞋第一次穿就丢了,希望能找回

全网寻鞋!男子坐卧铺时鞋被穿错,一只斯凯奇变Prada:新鞋第一次穿就丢了,希望能找回

鲁中晨报
2026-01-24 17:23:25
31岁中国女留学生刚到英国三天,时差还没倒过来,就和人发生关系

31岁中国女留学生刚到英国三天,时差还没倒过来,就和人发生关系

百态人间
2026-01-18 05:30:04
何庆魁风波升级! 称当年写剧本累伤,赵本山表态令人意外

何庆魁风波升级! 称当年写剧本累伤,赵本山表态令人意外

林雁飞
2026-01-23 14:18:52
密谈4小时,普京开出停战条件,乌克兰做不到免谈,中方斩钉截铁

密谈4小时,普京开出停战条件,乌克兰做不到免谈,中方斩钉截铁

社会日日鲜
2026-01-24 11:51:05
美国发出警告:中国不还100年前的旧债,美国绝不承认欠中国的钱

美国发出警告:中国不还100年前的旧债,美国绝不承认欠中国的钱

青途历史
2026-01-24 17:53:51
提升人居环境,农家有了新面貌(深阅读·创造乡村优质生活空间)

提升人居环境,农家有了新面貌(深阅读·创造乡村优质生活空间)

金台资讯
2026-01-24 06:23:03
重兵压境 航母静默 美国真要对伊朗动手了?

重兵压境 航母静默 美国真要对伊朗动手了?

上游新闻
2026-01-23 20:24:12
59岁美魔女山上脱了! 仅剩Bra上下抖动手脚冻伤崩溃:我好冷

59岁美魔女山上脱了! 仅剩Bra上下抖动手脚冻伤崩溃:我好冷

云朵家的旅行日记
2026-01-24 13:22:53
1940年炊事员在朱德饭里下毒,枪毙之时,杨奇清提出:重审此案

1940年炊事员在朱德饭里下毒,枪毙之时,杨奇清提出:重审此案

鹤羽说个事
2026-01-24 15:14:20
铁证如山!高市火速“跑路”,安倍晋三死因逆转,凶手竟是受害人

铁证如山!高市火速“跑路”,安倍晋三死因逆转,凶手竟是受害人

妙知
2026-01-23 16:37:53
俞敏洪卸任法人3天,恶心的事发生,全家移民加拿大传闻早有真相

俞敏洪卸任法人3天,恶心的事发生,全家移民加拿大传闻早有真相

揽星河的笔记
2026-01-24 19:31:11
王欣瑜首进澳网16强,创最佳战绩!

王欣瑜首进澳网16强,创最佳战绩!

文体大看台
2026-01-24 18:49:36
再创个人最佳!中国选手王欣瑜首次闯入澳网女单16强

再创个人最佳!中国选手王欣瑜首次闯入澳网女单16强

中国青年报
2026-01-24 19:20:34
2026-01-24 20:07:02
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15659文章数 49687关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

胖东来金饰每克便宜200元被抢爆 有人拖着行李箱去买

头条要闻

胖东来金饰每克便宜200元被抢爆 有人拖着行李箱去买

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

家居
手机
旅游
亲子
公开课

家居要闻

在家度假 160平南洋混搭宅

手机要闻

iPhone18标准版爆料汇总:12GB+A20芯片,并简化相机控制!

旅游要闻

逛花市、吃美食、体验非遗手作,瑞虹新天地春节全攻略来啦!

亲子要闻

亲爱滴告诉你,我有许多小淘气

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版