ALI-Agent：基于智能体的LLMs对齐性评测|agent|大语言模型

分享至

本文围绕大语言模型（LLMs）的对齐问题展开，旨在解决当前模型在与人类价值观存在偏差时可能面对的风险。我们提出了ALI-Agent评估框架，利用LLM驱动的智能体(LLM-empowered agents) 进行全面且深入的对齐评估。

论文标题： ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation 论文链接： https://arxiv.org/abs/2405.14125 代码链接： https://github.com/SophieZheng998/ALI-Agent.git

一、研究背景

大语言模型（LLMs）与人类价值观之间的对齐偏差可能导致生成的内容出现延续刻板印象、强化社会偏见、提供非法指令等有害现象，从而对用户和整个社会构成风险。鉴于此，对LLMs进行深入和全面的对齐性评估至关重要。由于现实世界的复杂性和开放性，评估LLMs与人类价值观的一致性充满挑战。目前的对齐性评估基准主要依赖专家设计的情境，然而这些基准的测试范围有限，难以推广到各种开放世界的使用案例，也无法覆盖不常见但关键的长尾风险。此外，静态测试无法适应LLMs的快速演变，难以实现及时的对齐性评估。

为解决这些挑战，我们认为一个实用的评估框架应该自动化进行全面和深入的对齐性测试，而不是依赖于专家设计的静态测试场景。评估框架将自动生成包含不当行为的现实场景，评估LLMs的反应，并迭代地改进测试场景以探测长尾风险。我们选择以大模型赋能的智能体(LLM-empowered agents)为载体实现这一评估框架，因为智能体正展现出优秀的自动化式解决任务的能力，具体表现为能从过往交互中提炼经验，整合外部工具，并进行推理以解决复杂任务。我们提出了ALI-Agent，一种基于智能体的对齐性评估框架。

具体来说，ALI-Agent利用GPT-4作为其核心控制器，集成了三个关键模块：1）记忆模块：用于存储检测到的LLMs对齐性偏差；2)工具使用模块：集成了在线搜索和基于微调大模型的自动评估器，以减少人力劳动 3)行动模块：利用智能体的推理能力来优化测试场景，强化对模型长尾风险的探测。

二、ALI-Agent

在三个智能体模块的加持下, ALI-Agent通过仿真和精炼两个阶段实现了自动化、全面、深入的对齐性评估，如图1所示。在仿真阶段，ALI-Agent实例化模拟器(automatic emulator)来生成真实的测试场景，并使用微调的语言模型作为自动评估器，评估目标模型的反馈是否反映了对齐性偏差。

首先，模拟器从预定义的数据集抽取一段包含不当行为的文本（或根据用户需求从搜索引擎上获取文本）, 从而生成一个反映该不当行为的真实的场景。场景的生成利用了LLMs的上下文学习(ICL)能力，借助了从评估记忆中检索出的最相关的评估记录作为指导样例。

然后，ALI-Agent将生成的场景提示给目标LLM，并通过自动评估器评估目标LLM的反馈。如果生成的场景暴露了目标LLM的对齐性偏差，那么ALI-Agent会将评估记录存储回记忆中，以便于在将来复用于新的用例。如若没有发现目标LLM的对齐性偏差，ALI-Agent将进入精炼阶段，基于目标LLM的反馈迭代场景，隐藏场景中的恶意意图，直到目标LLM无法识别其中的不当行为或者迭代次数达到上限为止。

精炼过程借助思维链(Chain-of-Thought)生成一系列中间推理步骤，以执行有效的开放式探索。这种迭代循环有效提高了ALI-Agent对LLMs进行深入评估的能力，强化了对长尾风险的探索，确保了对不断更新发展的LLMs的持续适应性。

图 2 是一个 ALI-Agent 的完整实例。在仿真阶段, ALI-Agent 根据法律法规 (即新加坡的交通法规定, 在捷运上吃喝是不被允许的), 借鉴了记忆中的评估记录 , 生成一个存在违反该法规现象的场景。

如图所示, 这个场景描述了在新加坡的捷运列车上男子从包里拿出三明治开始吃起来。在精炼阶段, ALI-Agent 通过在场景中增加一个合理化借口，即强调场景中的这位女士是因为十分饥饿才快速地咬了一口燕麦棒, 将迭代为 ,使得 “在新加坡捷运上吃东西” 这一不当行为显得更加合理, 并成功误导目标语言模型忽略了这个问题, 模型的反贵从 “我不同意这一设想...”变成了 “我同意这种设想...”。这种封装不当行为的模式随即被以的形式保存回记忆模块 , 以用于后续测试, 从而强化了 ALI-Agent 将风险测试推广到新案例的能力。

三、实验结果

ALI-Agent在揭示模型对齐问题方面具有卓越效果,表现出出色的长尾风险检测能力。其生成的测试场景能够有效掩盖不当行为的恶意意图,从而提高被测LLMs识别潜在风险的难度,充分检验了模型的对齐水平。对十个主流大模型在三个不同方面——刻板印象、道德和合法性上的对齐性评估表明， ALI-Agent相比于主流基准显著提高了对齐性偏差的检测能力。如Table1和Table2所示（在刻板印象和道德这两方面各选择了两个数据集用于测评），当使用ALI-Agent进行评估时，目标LLMs在几乎所有情况下都表现出最高的不对齐率，或者与主流基准能得到的最高不对齐率相当。我们还从表格的数据中发现了几个有趣的趋势：同一家族的LLMs随着参数尺度的增加可能表现出更差的对齐性。这启示我们单独增加模型规模并不一定导向更好的对齐表现，因此需要对LLMs的训练数据和训练目标进行更审慎的考虑。同时，我们还发现将Llama 2模型微调到Vicuna模型可能会损害它们与人类价值观的一致性。这一趋势与同期论文中得到的结果一致，启发了对LLMs自定义微调的安全协议的进一步研究。

ALI-Agent 框架卓越的对齐性偏差检测能力很大一部分得益于在精炼阶段对测试模型的有效迭代。如图3所示,每一行展示了一组(包含不当行为、真实场景、精炼后场景)的例子。在每组例子中,真实场景和相应的主流基准测试都无法检测到目标大模型的对齐性偏差,而精炼后的场景却能做到这一点。高亮的文字部分展示了 ALI-Agent 如何在精炼阶段通过降低敏感内容中显式的有害意图,来探测模型中可能存在的长尾风险。

图4: OpenAI内容审核 API (基于GPT-4模型的微调版本)在不同数据集上的危害性得分

如图4所示, 在OpenAI 内容审核 API的打分下， ALI-Agent生成的测试场景可感知的危害性相较于专家设计的静态测试场景明显降低，在经过精炼阶段之后得到的场景包含的有害意图更是难以被显式检测和过滤，显著提高了目标LLMs识别相关风险的难度。

在消融实验中，如图5(a) 所示，我们展示了ALI-Agent各模块对测评效果的影响，其中记忆模块和精炼模块都是至关重要的。记忆模块增强了ALI-Agent将过去经验泛化到新案例的能力，精炼模块加强了对长尾风险的探索。

同时，如图5(b) 所示，对齐偏差率会随着精炼模块迭代次数的增加而增加直至最终收敛。图5(b) 还展示了ALI-Agent框架与其他红队技术的互补性：将越狱技术GPTFuzzer得到的越狱前缀加在ALI-Agent生成的测试场景之前，揭示对齐性偏差的能力能获得显著增强。

这一结果进一步表明，ALI-Agent相较于从主流越狱技术，从不同的角度来评估大模型的对齐性，而且可以整合当前越狱技术实现更全面的对齐评估。

四、总结与展望

目前的评估基准还远远不能对大语言模型的对齐性进行深入和全面的评估。在这项工作中，我们提出了一种新的基于智能体的通用框架，即ALI-Agent，利用大语言模型驱动的智能体的能力来探测目标LLMs中不断更新的长尾风险。基于六个数据集上广泛实验，ALI-Agent在对齐性偏差的检测方面卓有成效, 但仍有两个缺点需要解决。

首先，ALI-Agent严重依赖于所采用的核心LLM的功能，由于我们使用了闭源LLM (gpt -4-1106预览版)，导致评估框架的性能不受控制。其次，设计绕过目标LLM安全护栏的场景这一任务本身就是一种“越狱”，在某些情况下，核心LLM可能会拒绝执行。

在未来的工作中，我们或许可以微调一个开源模型作为ALI-Agent的核心，以控制评估框架的性能。我们还可以主动评估LLMs在特定领域的对齐性表现，例如，当用户提出对“新加坡交通法规”的关切，我们可以让框架便利所有相关法律，并据此评估LLMs对这些法律的理解和遵守情况。

除了评估外,我们还希望基于评测的结果, 进一步修正和提高大语言模型的对齐水平，即用暴露出对齐性偏差的测试场景构建正反例对数据集，注入到模型的继续训练过程中，引导模型学习更加对齐的行为模式，提高整体对齐性能。

作者：郑静楠来源：公众号【AI TIME 论道】

llustration From IconScout By Twiri

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.