特色专题 | 基于大语言模型智能体的跨域立场检测|算法|鲁棒性|大模型

分享至

编者荐语

本文创新性地设计了一种基于大语言模型的多智能体协同立场检测模型。该模型采用零样本学习策略，通过多个语义感知智能体与对抗智能体的协作，实现文本的多维分析和辩证分析，准确理解和推理文本立场及原因。

摘　要

随着网民参与互联网话题讨论规模的不断增大，针对跨域的文本立场检测需求日渐迫切。在跨域立场检测过程中，基于传统机器学习或单一智能体的立场检测模型通常存在因标注数据少、涉及话题领域多、文本复杂等而导致准确率低的问题，因此设计了一种基于大语言模型多智能体协同的立场检测模型。采用零样本学习策略，通过多个语义感知智能体与对抗智能体的协作对文本进行多维分析和辩证分析，能够理解和推理文本表达的立场和原因。通过实验对比，该方法提升了跨领域文本立场分析的准确性，同时具有良好的泛化性。

论文结构

0　引　言

1　研究现状

1.1　立场检测

1.2　LLM

2　跨域立场检测框架

2.1　任务描述

2.2　架构设计

3　立场检测算法设计

3.1　模型设计与提示词工程

3.2　框架设计

4　立场检测实验性能分析

4.1　数据集

4.2　实验结果与分析

4.2.1　NLPCC2016 微博立场检测任务

4.2.2　SemEval-2016 Task 6 英文立场检测

5　讨　论

5.1　可解释性

5.2　可持续性

6　结　语

0　引　言

随着社交媒体和其他在线平台用户量的急速增长，越来越多的民众习惯于在互联网中针对目标、事件或话题等内容发表具有个人立场倾向的观点。因此，识别帖文中的用户立场，尤其是涉及政治、社会等议题时的立场，显得尤为重要，利用立场检测模型掌握互联网中民众对于重要议题的立场，针对性地反制敌对势力的舆论引导，关乎网络舆情安全乃至国家安全。

传统的立场检测方法主要是基于特定领域的语料库构建立场检测模型，通过有监督学习的方式实现特定领域内的立场检测任务，但该方法难以适应跨域话题立场检测需求。此外，互联网中的帖文具有表达方式简洁、包含隐喻、反讽等特点，传统的立场检测模型很难综合考虑文本中的修辞和外部知识特征，从而导致立场检测的准确性较差。

大语言模型（Large Language Model，LLM）的出现为这一挑战提供了强大的技术支持，然而，单一的 LLM 仍难以应对海量文本数据的多样性和复杂性，特别是在跨领域和多主题的情境中。为了克服这一局限，提出基于 LLM 的多智能体（Agent）协同立场检测模型，该模型采用零样本学习（Zero-Shot Learning）的方式，通过多个专业化的智能体协作，利用多种文本分析维度和辩证方法的结合提高立场检测的准确性和鲁棒性，旨在提供一个创新的解决方案，以应对日益增长的跨领域立场检测需求。

1　研究现状
1.1　立场检测
立场检测是自然语言处理（Natural Language Processing，NLP）领域中的一项关键任务，用于识别文本作者对相关目标（包括实体、事件、观点等）的立场，其中立场类别主要包括支持、中立、反对。早期的相关研究通常将特征工程和传统的机器学习相结合，构造立场检测模型，例如，使用词袋模型提取文本的词频、词向量等信息，再利用朴素贝叶斯、支持向量机等分类模型识别文本对某一特定主题的立场态度。这类模型在小规模、特定领域的数据集上具有较好的立场检测效果，但其未考虑文本的语义特征，以及目标与文本间的关系，检测准确率较低。随着对立场检测研究的逐渐深入，针对多个细粒度目标进行立场检测的需求显现，采用长短期记忆网络（Long Short-Term Memory，LSTM）、循环神经网络（Recurrent Neural Network，RNN）等深度学习方法，特别是基于注意力机制的Transformer 等预训练模型构建立场检测模型成为普遍实践，这些模型能够挖掘文本的上下文语义特征以及文本和目标间的关系，可以提高对目标对象立场检测的准确性。在此基础上，为了提高特定领域背景下立场检测的准确性，融入领域知识图谱的检测模型相继出现，这类模型将通过文本语义信息与目标相关知识相融合的方式进行立场检测。尽管如此，由于领域知识图谱无法在新领域适用，可能导致现有立场检测模型在特定领域上训练数据时准确率表现良好，但在新领域上的准确率较低，且泛化能力较差。

1.2　LLM

LLM 在 NLP 领域内取得了显著的进展，通过在大量文本数据上进行训练以及基于人类反馈的强化学习，提高了对文本的深层语言特征的感知能力。GPT 系列模型通过单向 Transformer 解码器和自回归语言建模任务，展现出强大的文本生成和理解能力。由于 GPT3 之后出现的各种 LLM，例如，Meta 的 LLaMa、OpenAI 的 GPT4、谷歌的 Gemini、清华的 ChatGLM、阿里云的千问 Qwen 等，具有更大的训练数据规模、更多的参数量，更先进的训练和优化方式，被应用于多个 NLP 评测任务中，并取得了领先的排名。

在实际应用中，由于输入的社交文本具有用语随意、缺乏语境、存在隐喻等问题，导致直接利用大模型得到的结果往往不算理想。设计基于不同提示（Prompt）的大模型多智能体，赋予其感知、记忆和推理的能力，经过多轮提问，将任务相关信息、外部知识信息、跨领域信息相结合，往往能够得到更加准确的结果。例如，Hong 等人提出了大模型智能体 MetaGPT 模型，该模型能够将复杂任务的编码过程分解为多个智能体协作的简单任务序列，从而允许具有人类领域专业知识的智能体验证、汇总结果，以减少错误。但是该模型也只能依赖预定义的智能体处理任务，限制了多智能体协作对不同场景的适应性，亟须一种能够根据不同任务自适应及促进多个智能体协同的新框架，以提高大模型智能体在面对多领域复杂检测任务时的准确性和运行效率。

2跨域立场检测框架

2.1　任务描述

针对跨域话题，设计一种基于 LLM 的多智能体架构，以便于完成针对跨域话题的细粒度立场分析任务。根据输入文本和用户设定的提示，设计不同的生成式大模型，通过智能体协同工作，提升针对跨域话题的立场检测模型准确性。

定义跨域话题立场检测任务数据集D=(D1,D2,…,Dn)，共有 n 条数据，Di =(ti ,ci ,si )，i=1,2,…,n，其中 ti 为第 i 个话题目标（Topic），ci 为第 i 个文本内容（Content），si 为 ci 针对 ti的立场类别（Stance），包括支持、中立、反对。

结合基于 LLM 的多智能体设计，深度感知、拆解和评估分析立场检测数据集，针对跨领域话题，实现零样本立场检测。零样本立场检测适用于数据标注资源有限的情况，这种方法的性能受限于输入描述的质量、预训练模型的泛化能力以及相似性度量方法的准确性。由于 LLM 在预训练时学到了丰富的领域知识，并且多智能体协同能够进一步提升大模型对跨域立场检测任务的理解能力，因此本文设计了一种基于 LLM 智能体的跨域立场检测算法，以提升跨域立场零样本分类任务的准确性，并对立场检测结果提供相应的解释。

2.2　架构设计

立场检测任务是识别和解释说话者对某个话题或目标的态度和立场，需要综合考虑多个层面的分析，包括语义语法、隐藏观点和领域知识等。首先，针对这 3 个方面构建了语义语法分析智能体、隐藏观点挖掘智能体、领域知识智能体 3 个感知智能体（Perception Agents）。其中，语义语法分析智能体关注文本的字面含义和结构，包括词义、句法和语言模式、情感色彩等，对于理解立场至关重要；隐藏观点挖掘智能体涉及识别文本中隐含的、非直接表达的立场和意图，包括讽刺、双关、隐喻等，需要利用上下文信息推断隐式立场；领域知识智能体结合话题或目标的领域背景知识、专业术语解释等，考虑具体场景对立场表达的影响。其次，综合多角度理解文本语义，生成初立场（Initial Stance）。最后，构建对抗智能体（AdversarialAgent），辩证分析感知智能体的初立场结果，从而得到立场结果和形成原因。

基于 LLM 多智能体的跨域立场检测架构，采用对话式多智能体框架，流程分为 2 个阶段，如图 1 所示。阶段 1 为任务和提示词的设计阶段，该阶段基于 LLM 构建多个感知智能体，通过从语义语法、隐藏观点、领域知识 3 个方面深度分析输入文本和话题内容，得到文本对话题对象的初立场。阶段 2 为数据生成与评估阶段，该阶段基于 LLM 构建对抗智能体，假设对抗智能体持相反立场输出相关论点，通过对初立场进行逆向分析，最终综合正 / 逆向分析结论得到立场结果，以及对应立场的原因解释。

图 1　基于 LLM-Agents 的跨域立场检测架构

基于 LLM 的多智能体跨域立场检测模型，利用了零样本学习框架，允许智能体在没有相关领域标注数据的情况下进行跨域立场预测。每个智能体都专注于特定的分析维度，如语义情感、论点结构和话题相关性等，并通过生成式方法理解和推理文本的立场。此外，智能体间的协作机制确保了在面对跨域话题时，模型能够综合不同视角的信息，做出更全面的判断。

3　立场检测算法设计
在自然语言理解和生成任务中，结构化设计提示词工程对于创建 LLM 的训练和测试数据集至关重要，能够引导 LLM 执行特定的任务或生成特定的输出，充分发挥大模型在语言理解方面的能力，同时规避模型本身的局限性。

3.1　模型设计与提示词工程

针对提出的基于 LLM 的多智能体跨域立场检测模型，2 个阶段任务的输入 / 输出分别如下：

感知阶段（阶段 1）：

输入：话题、文本。

输出：语义理解、隐含观点、背景知识、初立场。

对抗阶段（阶段 2）：

输入：话题、文本、感知阶段输出。

输出：立场、原因解释。

基于 LLM 的多智能体跨域立场检测模型 2 个阶段的分析过程如图 2 所示。下面是部分 LLM 智能体的中英文提示词设计示例，输入中包含的 {topic}、{text} 分别对应立场检测数据集中的话题和文本数据。

图 2　模型 2 个阶段分析过程

### 从语义语法的角度分析帖文 {text} 针对话题 {topic} 的立场。

###Consider the implicit meanings to determinethe stance expressed in the tweet{text} towards thetarget{topic}.

### 你是一个反方辩手，假设对话题 {topic}的立场是 {the opposite side of initial stance}，你会持什么论点？

3.2　框架设计

基于 AutoGen 框架使用多智能体对话的方式解决立场辩证识别，其可以创建、组合代理并实现代理间协作的工作流程。首先，对 LLM 智能体模型进行配置，设置和使用 2 个 ConversableAgent，将 prompt 封装成 system_message 来赋予智能体角色信息——感知智能体和对抗智能体；其次，设置对话结束参数。基于感知智能体和对抗智能体的立场检测流程如图 3 所示。

图 3　基于 LLM-Agents 的立场检测流程

通过设计不同的感知智能体和对抗智能体的提示词，基于 LLM 多智能体协同的 2 个阶段立场检测框架能够提供强大的立场检测与原因分析功能，以便于深入理解和推理文本数据中的立场和观点。

4　立场检测实验性能分析

4.1　数据集

本文采用自然语言处理与中文计算会议（NLPCC2016）的中文微博立场检测任务和 SemEval-2016 Task 6 英文立场检测 2 个公开数据集来验证跨域立场检测模型的有效性。

4.2　实验结果与分析

本文采用阿里云研发的 140 亿参数规模的大模型——千问（qwen-14b）作为基座模型，设计基于大模型智能体的跨域立场检测模型，并将其命名为 qwen-14b-Agent。qwen-14b 模型是基于Transformer 架构，在超大规模数据上进行训练得到的预训练语言模型，在中文理解（C-Eval）、英文理解（MMLU）等评测任务上具有较好的实验效果。

立场检测任务的主要评价指标有准确率（Accuracy）、精确率（Percision）、召回率（Recall）和F1 值等。准确率是指分类正确的样本占总样本的比例，精确率是指分类正确的正样本占预测为正样本的比例，召回率是指分类正确的正样本占真正的正样本的比例。F1 值综合了精确率和召回率，通过调和平均数的方式，来衡量分类模型的精确度。F1 值计算过程如下：

采用 Favg 值作为任务的最终评价指标，Favg值为支持立场值 Ffav 与反对立场值 Fagt 的算术平均值：

4.2.1　NLPCC2016 微博立场检测任务

NLPCC2016 微博立场检测任务包含 5 个话题目标：iPhone SE（简写为 iPh）、春节放鞭炮（简写为 SF）、俄罗斯在叙利亚的反恐行动（简写为 RS）、开放二胎（简写为 OSC）、深圳禁摩限电（简写为 FM）。立场检测任务不同于传统的方面级情感分析，其是针对具体目标主题的分析，给定的目标也可能不出现在文本中，具有一定的挑战性。NLPCC2016 微博立场检测任务训练集数据量分布如表 1 所示，表格中的数据代表该话题下该立场的数据条数。

表 1　NLPCC2016 训练集数据量分布

针对表 1 数据集，对比白静等人提出的基于注意力 BiLSTM-CNN-ATT 中文微博立场检测模型，王安君等人提出的基于 Bert-Condition-CNN 的中文微博立场检测模型，本文提出的 qwen-14b-Agent 模型在跨域话题立场检测任务下效果显著。实验结果对比如表 2 所示，其中，qwen-14b 是指基于单个大模型直接设计 prompt 的立场检测方式。

表 2　NLPCC2016 微博立场数据集跨域实验结果

由于数据集话题涉及的领域跨度较大，传统机器学习模型算法通常不具备泛化性，为了提高立场检测的准确率，针对跨域多话题的立场检测往往采用每个话题单独训练的方式。然而，LLM 由于其具有丰富的背景知识，在跨域立场检测任务上具有良好的泛化性。对比每个话题单独训练的域内（In-domain）立场分析模型 LSTM、TAN、ATA，与跨域零样本 qwen-14b-Agent 立场分析模型F1 值结果对比如表 3 所示。

表 3　立场分析模型对比实验 F1 值结果

TAN 立场检测模型能够联合建模话题与文本，通过文本话题增强实现立场检测准确率的提升。ATA 立场检测模型能够通过 2 个阶段的注意力机制，将话题目标与微博文本有效地结合。由表 3 可知，对比其他域内立场检测模型，本文提出的跨域立场检测模型qwen-14b-Agent 在多个话题下 F1 值领先，并且泛化性能强。

基于 qwen-14b 与 qwen-14b-Agent 在微博立场检测任务中的对比如图 4 所示。

从图 4 可以看出，经过基于 LLM 智能体协作交互、辩证分析的立场检测模型，相较于基座大模型 qwen-14b 来说，准确率在话题范围得到全面提升。

图 4　跨域 LLM 立场检测对比

4.2.2　SemEval-2016 Task 6 英文立场检测

SemEval-2016 Task 6 数据集是一个包含来自不同领域的 6 个特定目标的英文数据集，包括唐纳德·特朗普（Donald Trump，DT）、希拉里·克林顿（Hillary Clinton，HC）、女权运动（FeministMovement，FM）、堕胎合法化（Legalization ofAbortion，LA）、无神论（Atheism，A）和气候变化（Climate Change，CC）。每个领域话题都由 3 个立场标签之一：赞成、反对或中立组成。

SemEval-2016 Task 6 立场数据量分布如表 4所示。

表 4　SemEval-2016 Task 6 立场数据量分布

通过与 TOAD、PT-HCL、Bert-TGA-Net、Bert-GCN、基于大语言模型的基线 GPT-3.5 等模型的实验结果进行对比，可以看出基于 LLM 多智能体的 qwen-14b-Agent 在大部分话题取得的分数最高，并且模型在不同领域话题下的分数差异并无悬殊，该模型表现出优异的泛化性和鲁棒性。各模型在 SemEval-2016 Task 6 上立场检测的准确率结果对比如图 5 所示。

图 5　SemEval-2016 Task 6 立场检测对比

实验结果表明，基于 LLM 多智能体协同的立场检测模型在多个跨域数据集上的性能表现均较为稳定，且优于现有模型，在跨域立场检测任务中其具有较强的泛化性和鲁棒性。本研究不仅为立场检测提供了一种新的解决方案，也为如何利用 LLM 智能体解决复杂的 NLP 任务提供了有益参考。未来的工作将集中在进一步优化模型结构、提高智能体间的协作效率，以及探索更多的跨域话题和应用场景方面。

5　讨　论

5.1　可解释性
LLM 在许多分类与检测任务上都有不俗的表现，然而，大模型的复杂性和黑盒特性给模型计算的可解释性带来了挑战。但是，在本任务中，由于 LLM 具有良好的语义理解和文本生成能力，可以根据立场检测任务的需求分析文本数据中隐含的立场、观点，并提供立场检测的依据，提升了立场检测结果的可解释性，能够增强用户对模型决策的信任度。

尽管如此，大模型也并非“万能良药”，在理解深度方面，虽然 LLM 能够生成看似合理的文本，但其对人类情感和社会文化背景的理解仍有限制。在生成偏差方面，大模型仍可能生成带有偏见或不恰当的内容，一般还需要通过后续过滤处理或者重新训练来避免该问题出现。

5.2　可持续性

LLM 虽然在自然语言处理领域取得了显著成就，但其开发和运行也面临着资源、时间和成本方面的挑战。

在跨域多话题立场分析任务方面，虽然传统基于有监督学习的机器学习模型比本文提出的基于 LLM Agent 跨域立场检测模型，在准确性、泛化性等方面不够理想，但是综合考虑到时间成本、资源成本等因素，也不失为一种优质的方案。因此，基于 LLM 的立场分析任务在计算效率方面还有进一步持续优化的需求。

6　结　语

本文提出了基于 LLM 多智能体的立场检测模型，通过构建多个感知智能体对上下文信息、领域知识、隐式表达等方面的细粒度语义感知，结合对抗智能体辩证分析民众的立场，得到立场结果与相关解释，形成一个全面的分析结果。该模型有效地克服了传统模型在处理多样化文本数据时的局限性，具备高精度的立场检测能力，为识别和追踪民众立场变化、社情掌握与决策支持提供基础。然而，由于大模型智能体在能效、时间成本上的局限性，立场检测模型仍有研究与提升的空间。

引用格式

引用格式：尚钰 , 刘锟 , 韩霄龙 . 基于大语言模型智能体的跨域立场检测 [J]. 信息安全与通信保密 ,2024(8):62-71.
作者简介

尚　钰（1993—），女，博士，工程师，主要研究方向为人工智能、自然语言处理；
刘　锟（1996—），男，硕士，主要研究方向为自然语言处理；
韩霄龙（2000—），男，硕士研究生，主要研究方向为自然语言处理。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.