网易首页 > 网易号 > 正文 申请入驻

微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!

0
分享至

新智元报道

编辑:泽正 英智

【新智元导读AI大模型正从仅会聊天的LLM进化为能够执行任务的大型行动模型LAM。它不仅能理解用户的指令,还能在软件环境中自主执行任务。

LLM只能针对问题进行回答与分析?这种「隔靴搔痒」的体验也许就要被终结了!

最近,微软推出了一项名为「大型行动模型」(Large Aciton Model,LAM)的创新技术,标志着大模型从语言理解向实际执行任务的转变。

与传统的LLM不同,LAM不仅能理解用户的自然语言指令,还能将这些指令转化为具体的行动步骤,在软件环境中自主执行文档编辑、表格处理等任务。

虽然这实际上并不是一个全新的概念,但LAM是首款能够操作Microsoft Office来执行任务的模型。

论文链接:https://arxiv.org/pdf/2412.10047

不同于GPT-4o等负责处理和生成文本的传统语言模型,LAM可以将用户请求转化为实际操作。

例如同样是给一个男人买夹克,LLM只能给出文本步骤,而LAM却可以直接像女朋友一样挑选款式并网购。

哪个更加有实际效用,这就自不必多说了。毕竟谁不想有个能直接替自己去解决一些生活琐碎的「分身」呢?

LAM能够理解用户通过文本、语音或图像等各种输入方式表达的需求,并将这些需求转化为详细的逐步计划。

执行过程中,LAM能将复杂的任务分解为多个子任务,根据实时情况调整其行动策略,以应对执行过程中的意外情况。

此外,LAM还能自主探索与学习,独立探索新的解决方案。

让LLM行动起来

LAM通常建立在LLM的基础上,但是从LLM到LAM的过渡却并没那么容易,如下图所示。

从LLM到LAM的转变

将LLM转化为功能性LAM的过程涉及多个复杂的阶段,每个阶段都需要大量的努力与专业知识。

首先需要利用LLM来处理用户数据集,并生成对应的文本输出,将任务分解为行动与相应的计划。

经过微调之后,接受了任务要求的LAM就能输出对应的文本格式的行动输出。

最后将其输出反馈给智能体,让其与环境不断地实时交互。

如何开发LAM?

既然LAM能够为我们执行任务,化为我们的「分身」来帮我们与世界互动,那么如何开发与部署LAM就是一个关键的问题。

LAM的训练过程包括以下关键步骤:

1.任务分解与规划:模型首先学习将任务分解为逻辑步骤,并生成详细的执行计划。

2.行动生成与执行:将用户意图转化为具体的行动指令,包括图形用户界面操作、API调用等。

3.动态调整与优化:在执行过程中,LAM能根据反馈调整其行动策略,以提高成功率和效率。

4.从奖励机制学习:通过奖励机制进行微调训练,进一步优化模型的性能。

阶段1:任务分解与规划

在初始阶段,模型将任务分解为逻辑步骤。

研究人员以Mistral-7B作为基础模型,收集了来自多个来源的76,672个任务-计划对( , ),包括应用帮助文档、WikiHow和历史搜索查询。

在此阶段不会生成具体的行动,但模型获得了强大的规划能力,为后续的动作执行提供了重要基础。

阶段2:行动生成与执行

在此阶段,作者引入了由GPT-4o标注的任务-动作轨迹,让LAM向先进的AI模型GPT-4o学习。

将学习到的任务规划转化为可执行的动作,从GPT-4o的成功经验中汲取知识和策略,更好地理解和处理复杂任务。

本文中的示例应用是Microsoft Word,在该环境下共收集了2,192个成功的专家轨迹。每个轨迹由一系列状态-动作对( , )组成。通过对这些成功的行动序列进行学习,我们获得了LAM2。

阶段3:动态调整与优化

之后,我们让模型尝试解决GPT-4o失败的任务,通过ReAct机制与环境进行交互。

首先从GPT-4o失败的任务中采样2,284个任务,并收集了LAM2生成的496个成功轨迹,将这些数据与2,192个GPT-4o成功轨迹相结合,形成了一个增强数据集。

在这一阶段,LAM会自主探索新的解决方案,尝试解决那些曾难倒其他AI系统的问题,拓展自身能力边界,增强对不同任务和场景的适应性。

阶段4:从奖励机制中学习

尽管模型在前述阶段有所改进,但未能充分利用失败所带来的学习机会。

因此,论文引入了强化学习来解决这些问题。通过基于奖励的训练对系统进行微调,根据模型执行任务的结果给予相应的奖励或惩罚,引导模型不断优化行为策略,以达到更好的效果。

可以看到,训练LAM的过程包括四个步骤:首先,模型学习如何将任务分解为逻辑步骤。其次,通过先进的AI系统(如GPT-4o)学习如何将计划转化为具体行动。然后,LAM会独立探索新的解决方案。最后,通过奖励机制进行微调训练。

表中总结了每个阶段使用的训练数据。

LAM数据收集与构建

众所周知,数据是训练LLM的基石。类似地,LAM在监督微调阶段也需要经过精心准备的以行动为导向的高质量数据。

因此研究者采用了两阶段的数据收集:任务-计划数据和任务-行动数据,如下图所示。

任务-计划数据:在这一阶段,研究者收集包含任务和对应计划的数据。

任务是用自然语言表达的用户请求,而计划是为完成这些任务而设计的详细步骤。例如,「如何在Word中更改字体大小?」会有一个对应的计划,概述完成该任务所需的步骤。

这些数据用于微调模型,以生成有效的计划,并提升其高层次的推理和规划能力。

构建任务-计划数据的流程

任务-行动数据:在这一阶段,任务-计划数据被转换为任务-行动数据,包括任务、计划和执行这些计划所需的相应动作序列。任务和计划被细化为更具体且能够在特定环境中执行的内容。

构建任务-行动数据的流程

经过上述图中的4个处理步骤后,最终生成的动作序列类似于:

select_text(text="hello")

或者是

click(on=Button("20"), how="left", double=False)

也就是能够直接与环境交互的可执行指令。

总的来说,任务-计划数据旨在增强模型的高层次规划能力,使其能够根据用户请求生成详细的逐步计划。

而任务-行动数据则侧重于通过将每个计划步骤转化为具体、可执行的步骤或序列,从而赋予模型执行这些计划的能力,并能接受环境的实时反馈。

数据收集和准备流程确保模型能够同时进行高层次规划和低层次行动执行,从而弥合了LLM生成计划与能够采取可执行行动之间的差距。

LAM的在线评估

我们将训练完成的LAM集成到GUI智能体UFO中,使模型预测的行动能够在Windows操作系统中有效执行,并与环境进行交互。

UFO智能体通过接受自然语言的用户请求,并与Windows应用程序的UI控件进行互动,完成具体任务。

我们采用以下指标对 LAM 的性能进行全面评估:

1. 任务成功率(Task Success Rate, TSR): 成功完成任务的数量占尝试总任务数量的百分比。

2. 任务完成时间: 从初始请求到最终动作完成的总时间。

3. 任务完成步骤: 智能体成功完成每个任务所执行的总动作步骤数量。

4. 平均步骤延迟: 每个动作步骤的平均耗时。

LAM在Word测试环境中的成功率为71%,而GPT-4o在无视觉信息输入的情况下,成功率为63%。

此外,LAM的执行速度也更快,每个任务仅需30秒,而GPT-4o则需要86秒,是LAM的2.8倍。

实验结果突显了LAM作为仅使用文本的模型的优势,使LAM成为实际应用中有效的解决方案。

未来展望

LAM的推出为办公自动化、复杂任务处理等领域带来了新的可能性。例如,在Microsoft Office中,LAM可以自动执行文档编辑、表格处理等任务,极大地提高工作效率。此外,LAM还有潜力在更多领域发挥重要作用。

LAM展示了其发展潜力,在商业化落地中仍然面临一些挑战,例如,控制机器人系统的LAM可能会误解指令并导致损害;金融或医疗应用中如果执行错误动作,可能带来严重的后果。

然而,研究人员相信,LAM代表了AI发展的一次重要转变,预示着AI助手将能更积极地协助人类完成实际任务。

行动胜于言辞

LAM的推出标志着人工智能从语言理解向任务执行的转变,开启了AI自主的新时代。从生成语言到执行具体动作,大模型将能在现实世界中产生直接影响,这是迈向AGI的关键一步。

未来,随着技术的不断发展,LAM将在更多领域发挥重要作用,为我们的生活和工作带来更多便利和惊喜。

参考资料:

https://the-decoder.com/microsofts-new-large-action-model-can-perform-some-tasks-in-word/

https://arxiv.org/pdf/2412.10047

https://microsoft.github.io/UFO/dataflow/overview/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
17亿罚单压顶,72岁的王健林再卖两座万达广场,首富的艰难自救

17亿罚单压顶,72岁的王健林再卖两座万达广场,首富的艰难自救

叮当当科技
2026-07-01 16:23:37
给10位“毛主席扮演者”排座次:刘烨第8,唐国强第3

给10位“毛主席扮演者”排座次:刘烨第8,唐国强第3

电影聚焦
2026-06-28 10:32:34
越南,已经主动从中国的经济巨舰上跳船了!

越南,已经主动从中国的经济巨舰上跳船了!

回京历史梦
2026-06-22 18:43:18
河南古墓惊现“不存在的时间”,考古专家:很正常

河南古墓惊现“不存在的时间”,考古专家:很正常

牛马搞笑
2026-07-01 09:48:12
为什么往死里扫黄?网友分享太真实了,一次说透

为什么往死里扫黄?网友分享太真实了,一次说透

另子维爱读史
2026-05-27 20:16:03
仅剩20%!中国第一个消失的沙漠比台湾大,NASA:地球更绿了

仅剩20%!中国第一个消失的沙漠比台湾大,NASA:地球更绿了

抽象派大师
2026-06-30 01:34:25
你的公积金是什么段位?

你的公积金是什么段位?

细说职场
2026-07-01 18:46:21
88年,李先念意外得知水静要去美国,立刻下令:查查领事是谁

88年,李先念意外得知水静要去美国,立刻下令:查查领事是谁

兴趣知识
2026-07-02 02:51:01
银行行长豢养32位女员工,揭秘其专选美人的骇人内幕

银行行长豢养32位女员工,揭秘其专选美人的骇人内幕

雾岛夜话
2025-05-13 14:17:25
1天4个瓜!国外生子、被抓进去、自曝怀双胎、韩红最让人意外

1天4个瓜!国外生子、被抓进去、自曝怀双胎、韩红最让人意外

三石记
2026-06-25 11:54:09
以色列国防部长称伊朗最高领袖穆杰塔巴“已被标记为死亡目标”,伊朗外长:对伊朗人民和领导人的任何威胁都将遭到“立即有力的回应”

以色列国防部长称伊朗最高领袖穆杰塔巴“已被标记为死亡目标”,伊朗外长:对伊朗人民和领导人的任何威胁都将遭到“立即有力的回应”

鲁中晨报
2026-07-01 19:58:21
贺宇:真正起强度的还是贝林厄姆,但他不可能救前场又救后场

贺宇:真正起强度的还是贝林厄姆,但他不可能救前场又救后场

懂球帝
2026-07-02 02:23:13
1-5惨败泰山,徐正源更衣室讲话:我都抬不起头了,太丢人了

1-5惨败泰山,徐正源更衣室讲话:我都抬不起头了,太丢人了

懂球帝
2026-07-02 09:40:42
儿子为争房产长期家暴94岁母亲:安装高清旋转摄像头全天候监视,多次闯入老人院落恶意辱骂、言语威胁;法院判:儿子儿媳禁止进入老人住所

儿子为争房产长期家暴94岁母亲:安装高清旋转摄像头全天候监视,多次闯入老人院落恶意辱骂、言语威胁;法院判:儿子儿媳禁止进入老人住所

扬子晚报
2026-07-02 07:36:04
小S晒白发老公:大S走后她们都变了

小S晒白发老公:大S走后她们都变了

伊姐看电影
2026-07-02 09:37:52
婚变传闻水落石出,罗晋近况曝光,走上陈晓老路,和唐嫣拉开差距

婚变传闻水落石出,罗晋近况曝光,走上陈晓老路,和唐嫣拉开差距

林轻吟
2026-07-02 14:19:01
CCTV5+直播,中国男篮再战日本,12人基本确定,郭士强欲双杀对手

CCTV5+直播,中国男篮再战日本,12人基本确定,郭士强欲双杀对手

中国篮坛快讯
2026-07-02 14:11:44
“奶茶袋子装大疆!”初三女孩收礼变脸被骂,面相学果然权威!

“奶茶袋子装大疆!”初三女孩收礼变脸被骂,面相学果然权威!

世界圈
2026-07-01 08:02:47
首批40架歼-35AE即将拿护照出国?要让世界看看什么是领先水平?

首批40架歼-35AE即将拿护照出国?要让世界看看什么是领先水平?

通鉴史智
2026-07-01 14:56:44
来了!中超官宣葡超队头号射手加盟:最近2年半身价暴涨10倍

来了!中超官宣葡超队头号射手加盟:最近2年半身价暴涨10倍

邱泽云
2026-07-01 22:21:26
2026-07-02 15:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15588文章数 66945关注度
往期回顾 全部

科技要闻

奥特曼的新算盘:给白宫5%股权 换政策绿灯

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

亲子
旅游
艺术
公开课
军事航空

亲子要闻

城市套路深,我要回农村

旅游要闻

机票走低、小城走热,多重客流撬动暑期文旅全面升温

艺术要闻

光辉历程 时代丹青——庆祝中国共产党成立105周年美展 油画选

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

万斯:美伊间接会谈进展顺利

无障碍浏览 进入关怀版