网易首页 > 网易号 > 正文 申请入驻

RPA与生成式AI融合的三种方向

0
分享至

在上一篇中,我们简单普及了RPA的概念与基础技术,并且基于开源框架构建了一个RPA机器人演示了RPA流程自动化的基本过程。虽然传统RPA仍然是一个以UI自动化为主的智能技术,但是随着深度学习等AI技术的不断发展,RPA也在不断尝试利用新的AI技术来弥补自身的不足,比如借助OCR技术的自动文档处理等。而随着生成式AI的火爆出圈(Gen-AI),RPA与基于大模型的生成式AI之间又会擦出怎样的火花呢?

本文试图探讨大模型时代RPA与生成式AI融合与相互促进的三种主要方向与场景。

01 LLM增强的智能RPA

在自动化领域,RPA与新爆发的生成式AI都是强大的技术,都可以用来实现自动执行重复耗时的任务。但是,传统RPA擅长处理结构化与规则明确简单的流程,而在非结构化数据处理、动态上下文适应、智能决策等能力上有欠缺;而基于LLM的生成式AI则具备了强大的自然语言理解与推理能力。因此如果将两者融合,则可以实现更加智能化、更具适应能力、更高效的自动化流程方案,更好地应对复杂的任务场景与数据,拓展RPA自动化的边界,实现增强的RPA机器人。

  • RPA认知增强。利用GenAI给RPA带来认知自动化,机器人不仅是根据规则执行任务,更可以进行智能决策、处理非结构化数据、更好适应上下文。

  • 客户体验优化。通过聊天机器人使用GenAI来理解客户意图,并调用RPA机器人无缝自动地完成任务。

  • 智能文档处理。对于文档密集型的任务,借助于GenAI可以更好地从非结构化文档中提取与分析数据,提高文档密集型任务的可操作性、准确性与效率。

  • 预测性RPA任务。利用GenAI实现智能预测并决定启动RPA自动化任务的时机,从而降低企业成本,如智能决策启动自动化维护RPA的时间。

  • 利用LLM提升RPA的低代码能力。利用LLM强大的代码输出能力,可以简化RPA开发过程中的部分代码任务,提高低代码能力。

以一个客户电子邮件协助处理的RPA机器人来说:电子邮件内容是一个典型的非结构化数据内容,借助于LLM的理解能力,可以让RPA机器人具备更好的智能认知与动态响应能力,根据邮件的反馈内容、甚至客户情绪等作出合适的后续响应动作,相比传统基于规则的RPA机器人来说,显然具备了更高的认知能力与动态适应能力。

此外,借助LLM实现的RPA增强的一些场景包括:

  • 金融机构利用RPA进行自动化交易过程中,利用LLM进行欺诈检测。

  • 电子商务公司利用RPA进行订单处理时,利用LLM来实现客户推荐并撰写个性化营销邮件。

  • 企业利用RPA机器人来处理客户查询、反馈与投诉,利用LLM理解客户自然语言描述的问题并做针对性的处理。

  • HR利用RPA机器人做自动化的简历投递查询与处理,利用LLM识别非结构化文档内容,并智能判断简历匹配度。

  • 财务部门利用RPA机器人进行财务报销与发票审核,利用多模态模型自动识别与提取发票图像信息以用于审核。

02 RPA与AI Agent的协作

AI Agent作为目前生成式AI炙手可热的焦点领域,带来了更多智能化的自动化任务的可能。那么作为自动化流程的两种不同形态的技术,自然也有着相互融合与协作的可能。

在前面的文章中我们介绍了一些常见的AI Agent基础类型,其中有一种是能够灵活调用外部工具API的ToolAgent,那么在RPA的应用场景中,很显然存在一种可能的融合模式:将RPA的自动化流程作为一个Tool提供给AI Agent使用,AI Agent在完成人类任务的过程中智能的识别与调用RPA的自动化流程,也就是RPA Agent模式。

一个典型的RPA自动化流程机器人与AI Agent融合的RPA Agent架构与交互流程可能如下:

在这个架构中:

  • AI Agent通过前端UI(基于自然语言)发生客户交互,借助LLM识别客户需求与意图,比如“需要申请一台笔记本电脑”。

  • AI Agent识别意图后,会自动判断使用工具箱中的何种工具(API),并智能提取工具的输入参数,比如判断出需要调用“笔记本电脑申请的RPA自动化流程”,输入的参数为员工的Email、笔记本型号等。

  • AI Agent通过RPA系统的开放API来触发RPA自动化流程。这类API可以由RPA产品直接提供;也可以自行开发触发RPA流程的API。

  • 借助RPA的API,触发自动化流程的robot运行。如果robot运行在本地,可以直接激活运行;如果robot运行在远程,可能需要借助必要的Agent来实现远程robot的调度运行。

当然,这是一个通过对话式的AI Agent来调用RPA自动化流程实现协作的例子。很显然,既然AI Agent能够调用RPA自动化流程,那么RPA在完成任务的过程中也可以调用AI Agent,只需要把AI Agent的调用暴露成接口即可通过自然语言来触发Agent的运行,其原理与RPA Agent类似,此处不再展开。

03 基于LMM的RPA智能导航

RPA本质上是一种人类操作仿真与UI自动化的技术,虽然其对后端系统的侵入性与耦合性很低,但是在前端却有着较大的应用耦合性。实施过RPA项目的可能都经历过:Web应用升级、浏览器内核升级、UI调整、甚至某个图片内容调整,都可能导致原来的RPA任务流程失败。虽然RPA领域也一直尝试新的手段或者AI方法(如OCR)来降低这种耦合性,增强适应能力,但收效甚微。

以常见的Web应用为例,为了模拟人类操作实现自动化,需要识别UI界面元素进而模拟鼠标点击、键盘输入等。方法包括:

  • 借助DOM解析/XPath选择器查找与定位元素

  • 借助UI的坐标点/屏幕区域定位

  • 借助于图像定位,比如查找图片中相同的按钮

无论哪种方法都不具备较好的自适应能力,在UI布局与元素发生变化时,很容易导致原RPA流程的不可用。

随着大模型,特别是多模态大模型(Large Multimodal Model)比如GPT-4-vision/Gemini-pro-vision等的出现,其表现出来的强大的视觉智能,给RPA/自动化测试领域带来了新的可能。

早先在微软长达166页的GPT-4V的论文中,介绍了利用GPT-4V实现计算机或智能手机的GUI交互与导航的实验:AI根据当前当前计算机屏幕,以及设定的目标任务(比如看一下今天的新闻)、能够进行的操作(比如鼠标点击与键盘输入),然后预测下一步的操作,最后能够成功地导航到具体的网页完成任务,参考下图。

该例子演示一个GPT-4V根据提示内容与看到的屏幕图片,自行完成操作步骤,并完成打印一份“麻婆豆腐菜谱”的任务。当然这里是一种操作可行性的验证,实际实现还需要较多的应用层工作,比如你需要不断把屏幕图像输入到AI,并根据AI的输出反馈到物理操作。

所以,一种可能的借助于多模态模型实现RPA操作导航的思想是:

借助LMM的视觉智能,自动识别与理解UI界面,定位操作元素并指导后续操作。

如果说以前的RPA只有手脚(借助浏览器自动化等技术进行模拟操作),只能按照人类固定指令顺序执行动作;那么多模态大模型可以给RPA安装上眼睛和大脑:能够看到人类看到的界面内容,并思考如何操作,甚至分析操作的结果以决定后续动作。流程设想如下:

这里的关键是借助多模态大模型的视觉理解能力来推理流程步骤中需要执行的动作,这需要让大模型能够“看见”当前的UI界面,所以我们需要把UI图片作为输入交给多模态大模型。为了让多模态模型能更好的理解UI界面,并且输出操作动作,我们需要对界面进行提示性的“标记”,形成类似这样的图片并交给模型进行理解:

有两种可能的标记方法:

  • 对Web页面,可以通过页面注入JS并执行来完成元素标记

  • 对GUI界面,需要首先截屏生成图片,然后借助工具进行标记,这里推荐一个微软的开源项目SoM(Set-of-Mark),一个专门用于给GPT-4V这样的多模态大模型生成图片视觉标记的工具。

借助这样的视觉提示标记,可以提高大模型识别UI元素的能力与正确性,并且能够输出精确的操作建议(需要操作的元素编号、坐标、动作甚至输入内容等),从而实现自适应的UI导航。

当然,受限于当前多模态大模型的能力,以及实际应用RPA操作的复杂性,特别是在企业应用场景中的领域性特征,通用的多模态大模型很可能难以胜任,针对企业/行业应用特点进行微调与训练的专用多模态模型或许会是一种方案。 这里只提出一种实验性的方法,后续还需要通过更多实例来做论证。

结束语

以上,我们初步探讨了生成式AI与RPA即机器人流程自动化技术相互融合与促进的三种可能的方向与场景。相信未来随着大模型(LLM/LMM)、AI Agent以及RPA技术的不断进化,更多的技术可能性与应用场景将会被进一步挖掘与发现,更加智能化的数字员工将会不断涌现,并在企业中完成更复杂更具挑战性的任务。

- END -

报告下载

大 佬观点分享

关于RPA、AI、企业数字化转型

(点击文字即可阅读)

| |

| | |

| | |

| | |

| |

行业知识交流分享,结识扩展人脉圈层

公众号后台回复【RPA】或者【流程挖掘】

可受邀加入相关的交流群

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
委内瑞拉全国华侨华人联合总会主席:据信已有约10名华人被困,一名13岁女孩遇难

委内瑞拉全国华侨华人联合总会主席:据信已有约10名华人被困,一名13岁女孩遇难

红星新闻
2026-06-25 14:33:27
1天4个瓜!国外生子、被抓进去、自曝怀双胎、韩红最让人意外

1天4个瓜!国外生子、被抓进去、自曝怀双胎、韩红最让人意外

三石记
2026-06-25 11:54:09
特朗普爆料:巴基斯坦击落印战机8架,准备用核弹,被紧急叫停

特朗普爆料:巴基斯坦击落印战机8架,准备用核弹,被紧急叫停

麓谷隐士
2026-06-25 08:03:15
乌法炼油综合体被炸!百年难遇之机即将到来,莫要放过当历史罪人

乌法炼油综合体被炸!百年难遇之机即将到来,莫要放过当历史罪人

鹰眼Defence
2026-06-25 18:09:49
加息,突变!美联储,重磅传来!美国重大发布

加息,突变!美联储,重磅传来!美国重大发布

证券时报
2026-06-25 21:54:03
韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

家传编辑部
2026-06-25 10:00:51
安贞焕:韩国队根本没有战术;球员连输了但拼尽全力都算不上

安贞焕:韩国队根本没有战术;球员连输了但拼尽全力都算不上

懂球帝
2026-06-25 17:12:40
苏亚雷斯带一家度假,无缘世界杯,39岁没退役,已为转型铺路

苏亚雷斯带一家度假,无缘世界杯,39岁没退役,已为转型铺路

大西体育
2026-06-25 23:00:45
致命“晾衣架”:一场火灾致两死五伤,159万元判决成“白条”

致命“晾衣架”:一场火灾致两死五伤,159万元判决成“白条”

大风新闻
2026-06-25 12:31:28
博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

小徐讲八卦
2026-06-25 16:41:12
随着巴西3-0苏格兰,日本进退两难!想进世界杯8强,可能末轮放水

随着巴西3-0苏格兰,日本进退两难!想进世界杯8强,可能末轮放水

侃球熊弟
2026-06-25 08:04:38
遇难人数将达10万?最高级别警报拉响

遇难人数将达10万?最高级别警报拉响

中国新闻周刊
2026-06-25 18:57:21
互联网大厂开始清退组内的印度人,网友说看到印度人简历直接扔掉

互联网大厂开始清退组内的印度人,网友说看到印度人简历直接扔掉

灯锦年
2026-06-25 22:23:36
2026年浙江高考前10名新鲜出炉,分别来自这些学校

2026年浙江高考前10名新鲜出炉,分别来自这些学校

乡土宁海
2026-06-25 22:01:40
甘当美国木偶!冯德莱恩对华摊牌,宁烧3600亿也要强断中欧合作

甘当美国木偶!冯德莱恩对华摊牌,宁烧3600亿也要强断中欧合作

流史岁月
2026-06-25 21:40:56
林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

可读
2026-06-25 23:21:52
世界杯看台抢镜一幕:贝克汉姆捧着“一缸红酒”看巴西队大胜

世界杯看台抢镜一幕:贝克汉姆捧着“一缸红酒”看巴西队大胜

红星新闻
2026-06-25 09:45:40
日元暴跌破40年纪录!日本狂抛美债救市,美国反手收紧致命枷锁

日元暴跌破40年纪录!日本狂抛美债救市,美国反手收紧致命枷锁

李健政观察
2026-06-25 11:20:16
丰田官宣新车:9月3日,正式上市

丰田官宣新车:9月3日,正式上市

科技堡垒
2026-06-25 09:52:46
Shams:科比-怀特3年7400万重回黄蜂

Shams:科比-怀特3年7400万重回黄蜂

懂球帝
2026-06-26 00:23:05
2026-06-26 03:16:49
RPA中国 incentive-icons
RPA中国
RPA行业生态平台
2803文章数 1268关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

教育
本地
健康
亲子
公开课

教育要闻

每晚带背真的给我学上瘾了!!!不知道暑期背什么的新传人请看这里!!!

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

医生如何快速诊断脑梗和脑出血?

亲子要闻

儿科其实是一个接近动物学的专科!来看看大家的经历吧!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版