网易首页 > 网易号 > 正文 申请入驻

RPA与生成式AI融合的三种方向

0
分享至

在上一篇中,我们简单普及了RPA的概念与基础技术,并且基于开源框架构建了一个RPA机器人演示了RPA流程自动化的基本过程。虽然传统RPA仍然是一个以UI自动化为主的智能技术,但是随着深度学习等AI技术的不断发展,RPA也在不断尝试利用新的AI技术来弥补自身的不足,比如借助OCR技术的自动文档处理等。而随着生成式AI的火爆出圈(Gen-AI),RPA与基于大模型的生成式AI之间又会擦出怎样的火花呢?

本文试图探讨大模型时代RPA与生成式AI融合与相互促进的三种主要方向与场景。

01 LLM增强的智能RPA

在自动化领域,RPA与新爆发的生成式AI都是强大的技术,都可以用来实现自动执行重复耗时的任务。但是,传统RPA擅长处理结构化与规则明确简单的流程,而在非结构化数据处理、动态上下文适应、智能决策等能力上有欠缺;而基于LLM的生成式AI则具备了强大的自然语言理解与推理能力。因此如果将两者融合,则可以实现更加智能化、更具适应能力、更高效的自动化流程方案,更好地应对复杂的任务场景与数据,拓展RPA自动化的边界,实现增强的RPA机器人。

  • RPA认知增强。利用GenAI给RPA带来认知自动化,机器人不仅是根据规则执行任务,更可以进行智能决策、处理非结构化数据、更好适应上下文。

  • 客户体验优化。通过聊天机器人使用GenAI来理解客户意图,并调用RPA机器人无缝自动地完成任务。

  • 智能文档处理。对于文档密集型的任务,借助于GenAI可以更好地从非结构化文档中提取与分析数据,提高文档密集型任务的可操作性、准确性与效率。

  • 预测性RPA任务。利用GenAI实现智能预测并决定启动RPA自动化任务的时机,从而降低企业成本,如智能决策启动自动化维护RPA的时间。

  • 利用LLM提升RPA的低代码能力。利用LLM强大的代码输出能力,可以简化RPA开发过程中的部分代码任务,提高低代码能力。

以一个客户电子邮件协助处理的RPA机器人来说:电子邮件内容是一个典型的非结构化数据内容,借助于LLM的理解能力,可以让RPA机器人具备更好的智能认知与动态响应能力,根据邮件的反馈内容、甚至客户情绪等作出合适的后续响应动作,相比传统基于规则的RPA机器人来说,显然具备了更高的认知能力与动态适应能力。

此外,借助LLM实现的RPA增强的一些场景包括:

  • 金融机构利用RPA进行自动化交易过程中,利用LLM进行欺诈检测。

  • 电子商务公司利用RPA进行订单处理时,利用LLM来实现客户推荐并撰写个性化营销邮件。

  • 企业利用RPA机器人来处理客户查询、反馈与投诉,利用LLM理解客户自然语言描述的问题并做针对性的处理。

  • HR利用RPA机器人做自动化的简历投递查询与处理,利用LLM识别非结构化文档内容,并智能判断简历匹配度。

  • 财务部门利用RPA机器人进行财务报销与发票审核,利用多模态模型自动识别与提取发票图像信息以用于审核。

02 RPA与AI Agent的协作

AI Agent作为目前生成式AI炙手可热的焦点领域,带来了更多智能化的自动化任务的可能。那么作为自动化流程的两种不同形态的技术,自然也有着相互融合与协作的可能。

在前面的文章中我们介绍了一些常见的AI Agent基础类型,其中有一种是能够灵活调用外部工具API的ToolAgent,那么在RPA的应用场景中,很显然存在一种可能的融合模式:将RPA的自动化流程作为一个Tool提供给AI Agent使用,AI Agent在完成人类任务的过程中智能的识别与调用RPA的自动化流程,也就是RPA Agent模式。

一个典型的RPA自动化流程机器人与AI Agent融合的RPA Agent架构与交互流程可能如下:

在这个架构中:

  • AI Agent通过前端UI(基于自然语言)发生客户交互,借助LLM识别客户需求与意图,比如“需要申请一台笔记本电脑”。

  • AI Agent识别意图后,会自动判断使用工具箱中的何种工具(API),并智能提取工具的输入参数,比如判断出需要调用“笔记本电脑申请的RPA自动化流程”,输入的参数为员工的Email、笔记本型号等。

  • AI Agent通过RPA系统的开放API来触发RPA自动化流程。这类API可以由RPA产品直接提供;也可以自行开发触发RPA流程的API。

  • 借助RPA的API,触发自动化流程的robot运行。如果robot运行在本地,可以直接激活运行;如果robot运行在远程,可能需要借助必要的Agent来实现远程robot的调度运行。

当然,这是一个通过对话式的AI Agent来调用RPA自动化流程实现协作的例子。很显然,既然AI Agent能够调用RPA自动化流程,那么RPA在完成任务的过程中也可以调用AI Agent,只需要把AI Agent的调用暴露成接口即可通过自然语言来触发Agent的运行,其原理与RPA Agent类似,此处不再展开。

03 基于LMM的RPA智能导航

RPA本质上是一种人类操作仿真与UI自动化的技术,虽然其对后端系统的侵入性与耦合性很低,但是在前端却有着较大的应用耦合性。实施过RPA项目的可能都经历过:Web应用升级、浏览器内核升级、UI调整、甚至某个图片内容调整,都可能导致原来的RPA任务流程失败。虽然RPA领域也一直尝试新的手段或者AI方法(如OCR)来降低这种耦合性,增强适应能力,但收效甚微。

以常见的Web应用为例,为了模拟人类操作实现自动化,需要识别UI界面元素进而模拟鼠标点击、键盘输入等。方法包括:

  • 借助DOM解析/XPath选择器查找与定位元素

  • 借助UI的坐标点/屏幕区域定位

  • 借助于图像定位,比如查找图片中相同的按钮

无论哪种方法都不具备较好的自适应能力,在UI布局与元素发生变化时,很容易导致原RPA流程的不可用。

随着大模型,特别是多模态大模型(Large Multimodal Model)比如GPT-4-vision/Gemini-pro-vision等的出现,其表现出来的强大的视觉智能,给RPA/自动化测试领域带来了新的可能。

早先在微软长达166页的GPT-4V的论文中,介绍了利用GPT-4V实现计算机或智能手机的GUI交互与导航的实验:AI根据当前当前计算机屏幕,以及设定的目标任务(比如看一下今天的新闻)、能够进行的操作(比如鼠标点击与键盘输入),然后预测下一步的操作,最后能够成功地导航到具体的网页完成任务,参考下图。

该例子演示一个GPT-4V根据提示内容与看到的屏幕图片,自行完成操作步骤,并完成打印一份“麻婆豆腐菜谱”的任务。当然这里是一种操作可行性的验证,实际实现还需要较多的应用层工作,比如你需要不断把屏幕图像输入到AI,并根据AI的输出反馈到物理操作。

所以,一种可能的借助于多模态模型实现RPA操作导航的思想是:

借助LMM的视觉智能,自动识别与理解UI界面,定位操作元素并指导后续操作。

如果说以前的RPA只有手脚(借助浏览器自动化等技术进行模拟操作),只能按照人类固定指令顺序执行动作;那么多模态大模型可以给RPA安装上眼睛和大脑:能够看到人类看到的界面内容,并思考如何操作,甚至分析操作的结果以决定后续动作。流程设想如下:

这里的关键是借助多模态大模型的视觉理解能力来推理流程步骤中需要执行的动作,这需要让大模型能够“看见”当前的UI界面,所以我们需要把UI图片作为输入交给多模态大模型。为了让多模态模型能更好的理解UI界面,并且输出操作动作,我们需要对界面进行提示性的“标记”,形成类似这样的图片并交给模型进行理解:

有两种可能的标记方法:

  • 对Web页面,可以通过页面注入JS并执行来完成元素标记

  • 对GUI界面,需要首先截屏生成图片,然后借助工具进行标记,这里推荐一个微软的开源项目SoM(Set-of-Mark),一个专门用于给GPT-4V这样的多模态大模型生成图片视觉标记的工具。

借助这样的视觉提示标记,可以提高大模型识别UI元素的能力与正确性,并且能够输出精确的操作建议(需要操作的元素编号、坐标、动作甚至输入内容等),从而实现自适应的UI导航。

当然,受限于当前多模态大模型的能力,以及实际应用RPA操作的复杂性,特别是在企业应用场景中的领域性特征,通用的多模态大模型很可能难以胜任,针对企业/行业应用特点进行微调与训练的专用多模态模型或许会是一种方案。 这里只提出一种实验性的方法,后续还需要通过更多实例来做论证。

结束语

以上,我们初步探讨了生成式AI与RPA即机器人流程自动化技术相互融合与促进的三种可能的方向与场景。相信未来随着大模型(LLM/LMM)、AI Agent以及RPA技术的不断进化,更多的技术可能性与应用场景将会被进一步挖掘与发现,更加智能化的数字员工将会不断涌现,并在企业中完成更复杂更具挑战性的任务。

- END -

报告下载

大 佬观点分享

关于RPA、AI、企业数字化转型

(点击文字即可阅读)

| |

| | |

| | |

| | |

| |

行业知识交流分享,结识扩展人脉圈层

公众号后台回复【RPA】或者【流程挖掘】

可受邀加入相关的交流群

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛主席83岁时写下的13个铅笔字,网友争议其美丑!

毛主席83岁时写下的13个铅笔字,网友争议其美丑!

书画相约
2026-04-05 07:55:25
一次闯红灯换来刑事拘留,这笔“冲动账”到底有多贵?

一次闯红灯换来刑事拘留,这笔“冲动账”到底有多贵?

上海黄浦
2026-04-04 21:33:32
村妇坚称军马吃了自家粟谷,石敬瑭:把马杀了,没有粟谷就杀村妇

村妇坚称军马吃了自家粟谷,石敬瑭:把马杀了,没有粟谷就杀村妇

收藏大视界
2026-03-22 22:16:23
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
一位g民果断出手

一位g民果断出手

风风顺
2026-04-05 14:18:40
人老了,再憋的慌也不要去这几个地方:1、原来的单位;2、不远不近的亲戚;3、可有可无的聚会

人老了,再憋的慌也不要去这几个地方:1、原来的单位;2、不远不近的亲戚;3、可有可无的聚会

四行书
2026-03-30 12:35:12
健身后欲望很大是怎么回事?

健身后欲望很大是怎么回事?

性学研究僧
2026-04-02 20:11:16
王楚钦复仇成功,距离改写历史只差一步!松岛已是国乒心腹大患

王楚钦复仇成功,距离改写历史只差一步!松岛已是国乒心腹大患

中国足球的那些事儿
2026-04-05 16:00:01
美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

每日经济新闻
2026-04-04 13:47:27
所有A级景区民警免票不含辅警,四川甘孜文旅被指存在歧视,回应:会推动政策优化

所有A级景区民警免票不含辅警,四川甘孜文旅被指存在歧视,回应:会推动政策优化

潇湘晨报
2026-04-04 18:37:12
断更五个月!知名网红董赤赤发声,患严重抑郁,还遭导演恶意引导

断更五个月!知名网红董赤赤发声,患严重抑郁,还遭导演恶意引导

裕丰娱间说
2026-04-04 19:21:13
赛程凶险:泰山要4连败!鲁媒:有奇葩教练组,未来2场输球没悬念

赛程凶险:泰山要4连败!鲁媒:有奇葩教练组,未来2场输球没悬念

建哥说体育
2026-04-05 07:47:51
四川泸山缆车家长孩子坠防护网,孩子吓得浑身发抖,当地回应后续

四川泸山缆车家长孩子坠防护网,孩子吓得浑身发抖,当地回应后续

眼光很亮
2026-04-05 12:14:18
李大钊牺牲后,妻子筹措安葬费,鲁迅捐了五十,汪精卫捐了一千

李大钊牺牲后,妻子筹措安葬费,鲁迅捐了五十,汪精卫捐了一千

云霄纪史观
2026-03-29 20:30:22
万科前董事长郁亮曾两次拒绝王石

万科前董事长郁亮曾两次拒绝王石

地产微资讯
2026-03-04 08:40:10
巴巴克·阿里普尔、普亚·戈巴迪,被处决

巴巴克·阿里普尔、普亚·戈巴迪,被处决

南方都市报
2026-03-31 22:45:29
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

安安说
2026-03-28 11:40:47
确认不打了!CBA知名外教宣布下课,或加盟广东队取代杜锋?

确认不打了!CBA知名外教宣布下课,或加盟广东队取代杜锋?

绯雨儿
2026-04-05 15:08:01
美元兑人民币将贬值到1美元换5.5元人民币,或许只需要5到10年?

美元兑人民币将贬值到1美元换5.5元人民币,或许只需要5到10年?

丁丁鲤史纪
2026-04-03 11:50:43
2026-04-05 18:35:00
RPA中国 incentive-icons
RPA中国
RPA行业生态平台
2800文章数 1268关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

自称将劳斯莱斯变现 陈光标晒捐款图:张雪迟迟未提车

头条要闻

自称将劳斯莱斯变现 陈光标晒捐款图:张雪迟迟未提车

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

时尚
旅游
家居
教育
亲子

女人不管多大年纪衣服不要随便穿,这些穿搭可借鉴,优雅显瘦

旅游要闻

国风入人心 穿汉服踏青成年轻人度假新选择

家居要闻

温馨多元 爱的具象化

教育要闻

班主任紧急提醒:3类孩子期中考最易考砸,现在补救还来得及

亲子要闻

娃发不发烧,跟穿不穿袜子没啥关系!

无障碍浏览 进入关怀版