科学家提出新型智能体，距离实现全过程自主化更近一步|轨迹|实验|神经网络|自然语言处理|视频生成模型

分享至

去年，以 ChatGPT 为代表的大语言模型，成为整个 AI 领域的“游戏规则改变者”。

其中，尤其令人惊艳的是它们在文本场景理解、文本生成和代码生成等方面的通用能力。与此同时，该领域的科学家们发现能够利用这些基础模型与外部世界交互，让它们自主地完成一些与人类真实生活接近的特定任务。

比如，帮助人们网购；在一个由文本描述的室内环境中找到并移动某些物品等。而这种能够自主完成任务的主体，就叫做智能体（Agent）。

目前，为训练智能体以提高其性能，研究人员致力于将多步推理和动作轨迹作为训练数据。但是，无论是通过人工注释，还是实现不同的提示框架，收集上述轨迹都需要耗费大量人力。

为此，近期，来自清华大学的研究团队，提出一种名为 ActRe 的智能体，来帮助智能体实现数据收集和自我进化的全过程自主。

作为一种新型智能体，ActRe 与 ReAct 这种广为人知的智能体不同，后者遵循“推理后行动”（reason-then-act）的规则，前者则属于“行动后推理”（act-then-reason）的范畴。

也就是说，ActRe 将 ReAct 里面文字推理和动作执行的因果性进行了反转，以实现对给定任意的动作进行文字原因的描述。

“在 ReAct 智能体的执行过程中，可以先对下一步要做的动作进行采样，等得到新动作以后，再送到 ActRe 中获得针对这个动作的文字原因描述。

接着，再把这个文字原因描述放在前面，把采样得到的动作放在后面，从而构成 ReAct 推理后行动的格式。”清华大学博士研究生杨宗瀚解释说。

图丨杨宗瀚（来源：杨宗瀚）

ReAct 和 ActRe 相互配合探索后，就能在环境里获取大规模多元化的轨迹，这些轨迹自带推理的标注。轨迹执行到最后，模拟环境会给出最终得分，后者也自然成为判断轨迹好坏的标准。

实验证明，通过上述方式采集到的数据，拥有非常高的质量。

杨宗瀚表示：“即便 ReAct 自己失败了，带上 ActRe 的探索之后，也往往能得到得分很高的轨迹。”

正是利用这些胜或败的数据，智能体得以进行对比式的自我训练，进而实现能力的极大提升。

最终，该课题组在实验用的 WebShop 和 AlfWorld 两个环境上，均取得格外优异的效果。

具体来说，他们使用 7B 参数的开源语言模型和 QLoRA 参数高效微调得到的智能体，超过一众基于 GPT-4 的智能体框架，以及现有的基于 47B 乃至 70B 大语言模型的全参数微调的智能体。

当下，由大语言模型驱动的智能体具备高度应用价值，而该研究则有力地推动智能体距离实现全过程自主化更近一步。

基于此，未来的智能体有望在许多方面扮演人类的助手角色，帮助人类从许多重复事务中解放出来。

近日，相关论文以《ReAct 遇上 ActRe：当语言智能体享受训练数据自主权时》（ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy）为题在预印本平台 arXiv 上发表 [1]。杨宗瀚是第一作者，清华大学刘洋教授和李鹏研究副教授担任通讯作者。

图丨相关论文（来源：arXiv）

训练开源大语言模型，使其成为更好的智能体

据了解，早在 2022 年，来自普林斯顿大学的姚顺雨博士和合作者，就曾提出利用模拟在线购物环境 WebShop 测试智能体的能力。每当一次购物结束，模拟环境就会返回一个分数，告知本次购物的质量如何，以及询问能否满足一开始的购物需求。

不过，在 ChatGPT 这样的大模型出现以前，AI 在类似 WebShop 这样的模拟环境上进行专门训练，最高只能拿到 29% 的成功率。相比之下，人类的平均成功率有 50%，专家的成功率则有 60%。

当具有通用能力的大语言模型出现以后，只需构造简单的 prompt，不用进行额外训练，就能让大模型照猫画虎地理解文本环境并生成动作，最后在不断迭代交互中取得 40% 的成功率。

“与之前的成功率相比，这已经实现了飞跃。最关键的是，大家发现大模型真的十分通用，无论基于什么样的场景，都能编写一个简单的 prompt，并在不用训练的情况下，直接让大语言模型尝试执行任务。”杨宗瀚表示。

因此，自 2023 年 3 月开始，有大量关于智能体的开源工具、科研工作和创业项目先后诞生。

“其中，最让我印象深刻的是，NVIDIA 的研究员提出可以用 GPT-4 去玩‘我的世界’开放游戏。还有美国斯坦福大学的研究员提出可以用很多个大模型去模拟不同的人物，然后再把他们放在一个环境里，就像《西部世界》这部科幻剧一样，模拟出一个交互式的人类社会。”杨宗瀚说。

作为一个从 2017 年就开始接触自然语言处理的研究者，他被这种利用语言模型和环境展开交互的能力所震撼，开始尝试探索这方面的研究。

然而，在实际中他发现，如果只通过写 prompt 来“赋能”智能体，后者很多时候只是在盲目地跟随 prompt 指令。

杨宗瀚说：“虽然感觉到它好像懂得环境的文字描述，并能够给出一些响应，但从实际执行角度来看，它其实并没有完全弄懂。”

事实上，智能体在 WebShop 等模拟环境中执行若干任务以后，会积累很多成功或失败的轨迹。

那么，能否进一步学习这些过往的轨迹，以让智能体在面对新任务时能力变得更强？

这里，值得一提的是，虽然目前市面上已有不少基于 prompt 的智能体框架，但其往往需要调用基础模型的应用程序编程接口（API，Application Programming Interface），因而会带来极大的金钱开销。

并且，基础模型的 API（如 ChatGPT、GPT-4）能力会随着时间发生变化，这对基于 prompt 的智能体框架开发者来说并不友好。

换言之，开发者也许在某段时间内基于某个 API 构造了性能良好的智能体框架，但一段时间之后，如果这个 API 被提供商下线，开发者就不得不在 API 替代品上重新尝试，而这会令智能体的性能产生较大波动。

究竟如何才能掌控驱动智能体的底层基础模型？

杨宗瀚指出：“我们认为，可以用开源的语言模型进行智能体训练。”

也就是说，如果将模型的权重都拿在手中，这一切就会变得更好掌控。另外，深度学习的成功本身就是靠神经网络的训练来获得。所以，为让智能体变得更聪明，应该尝试训练的方式。

这便是本项研究的起源，即通过训练开源的语言模型，使其成为更好的智能体，进而在环境中没有见过的任务上实现更强的表现。

提出新型智能体，能在全部未见过的测试场景中取得超过人类的水平

定下研究目标后，挑战也随之而来。

首先，开源的大语言模型是否可以支撑该团队训练一个很好的智能体？

如今的开源模型，尤其是能在实验室中被轻松实验的那些，一般都是 7B 参数量级。它们与 GPT-4 等闭源模型相比，在通用能力上仍有很大差距。

其次，基于 prompt 的方法并不能让基础模型变成专用模型，如果要微调一个 7B 的开源模型，能否把这个模型变成一个专用模型？

此外，尽管是 7B 参数的模型，想要微调它的全部参数，也需要不少算力。

于是，作为初步实验，杨宗瀚采取一种参数高效的微调方案：不对 7B 参数的基础模型进行训练，而是通过训练一些轻量级可插拔的参数模块，来调整这个模型。

“通过使用 QLoRA 方法，我可以在实验室级别的一两张 24GB 显存的显卡上进行实验。并且，由于具备可插拔特性，当 7B 参数的基础模型不添加 QLoRA 的参数模块时，就还是那个未加训练的通用模型本身。”杨宗瀚表示。

但即便如此，真正的重头戏也才刚刚开始。

显然，训练必须要有数据，数据来源则是智能体与环境的交互轨迹。

现有的方法主要依赖两种方式获取数据，其一是使用完全由人类专家标注的轨迹数据；其二是通过实现不同的基于 prompt 的智能体框架，让其在与环境交互的过程中得到轨迹数据。

图丨收集语言智能体轨迹的两种常见范例（来源：arXiv）

遗憾的是，这两种方法均不能获得大规模多元化的轨迹数据。前者完全依靠人类标注员，需要花费很高的人工成本；后者依靠基于 prompt 的智能体，只能获得根据 prompt 照猫画虎得到的轨迹。

可是，大规模多元化的轨迹数据才是语言模型成功的关键。

该如何解决这一难题呢？

研究人员从智能体框架本身得到了启发。他们重新观察现有的智能体框架，发现其一般都是先用文字去推理，作为接下来要做的动作的原因，然后再生成要做的动作。

ReAct 便是遵循这样的思路。该智能体有一个妙处，即人们可以在 ReAct 的执行过程中，通过修改语言模型自身产生的推理内容，来改变智能体的动作。

如此说来，人工只需在关键的地方修改一下推理内容，智能体就能补全剩下的轨迹。

尽管这样，利用人力直接大规模地修改 ReAct 的轨迹，仍然需要昂贵的成本。

假如智能体能自主地标注轨迹，就相当于可以自行收集数据，也就能用收集到的数据去训练自己，而在完成自我训练以后，又能部署到环境中，自动进行决策以完成任务，从而真正地实现全过程自主。

基于此，为驱动智能体实现对推理内容的自主标注，该课题组提出智能体 ActRe，不仅能够自动采集带推理标注的轨迹数据，还可以将数据用作自我训练，从而构成闭环。

图丨智能体 ActRe 的框架（来源：arXiv）

由于智能体领域的两个基本点体现在更复杂的现实环境和更高效的学习机制上，因此该研究选择从后者切入，在 WebShop 环境中经过四轮迭代，得到的智能体在全部未见过的测试场景中取得 55% 的成功率，相比之下，人类的平均成功率是 50%。

在 AlfWorld 环境中经过四轮迭代，最终得以让所提出的智能体，在全部未见过的测试场景中取得 100% 的成功率。

“这在证明我们方法有效的同时，也说明我们需要在更加复杂的现实环境中进行实验。”杨宗瀚表示。

值得一提的是，在这方面，该课题组也开展了有关“智能体的统一对齐原则”的研究 [2]。

谈及研究过程中最令人难忘的内容，杨宗瀚表示是那些至少以周计算的、层出不穷的好文章。

“本论文于 2024 年 3 月 21 日提交至 arXiv，共引用 39 篇文章，其中有 13 篇都在今年提交到 arXiv 上。”他进一步表示，“面临如此高速运转的研究节奏，心中的焦虑也难免会产生、放大和蔓延。”

不过，当杨宗瀚意识到自然语言处理这一层自我认同时，又觉得自己非常幸运。

毕竟，语言模型的成功不仅让几年前无法想象的事情逐渐变成现实，也让更多更加无法想象的事情变得可以想象。对他而言，焦虑的背后，也体现出自身对于自我实现的追求。

在他看来，这项研究之所以能够完成，得益于他和研究组的刘安、刘子君、刘铠铭等许多同学的讨论，以及刘洋老师和李鹏老师的支持。

“我很幸运能够参与智能体发展的这一浪潮中。”杨宗瀚如是说。

参考资料：

1.Z.,Yang,P.,Li,M.,Yan.et al.ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. https://doi.org/10.48550/arXiv.2403.14589

2.Z.,Yang,A.,Liu,Z.,Liu.et al. Towards Unified Alignment Between Agents, Humans, and Environment. arXiv:2402.07744. https://doi.org/10.48550/arXiv.2402.07744

排版：罗以

01/ 科学家制备黏土基二维纳流体膜，实现长达30天的盐差能发电，渗透能输出功率达8.61W每平方米

02/ MIT中国博士生提出可验证型神经网络控制器框架，将为控制复杂非线性系统提供全新解决方案

03/ 科学家研发新型微针电极阵列，提出全新MEMS兼容混合制造方案，可用于脑机接口和电化学传感

04/ 科学家设计主动渗透纳米载体，完美平衡药物释放和转胞运作用，助力研发抗肿瘤纳米新药

05/ 科学家制备新型液晶弹性体，无需传统发光体就能实现内源发光，极大降低功能集成材料制造成本

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.