TRIDENT：基于三维多样化红队数据合成的LLM安全增强方法|trident

TRIDENT：基于三维多样化红队数据合成的LLM安全增强方法

2025-07-31 17:25:13　来源: 机器之心Pro

河北举报

分享至

第一作者武骁睿，武汉大学计算机学院博士一年级生，研究大语言模型安全对齐与红队数据生成，侧重低资源场景的对齐策略与风险覆盖。导师：李庄讲师（RMIT，低资源 NLP、计算社会科学、模型安全），姬东鸿教授、李霏副教授、腾冲副教授（武汉大学，情感计算、信息抽取）。合作单位蚂蚁集团、蚂蚁国际，合作作者张欣主任工程师、毛潇锋工程师。

大语言模型（LLM）已经在多项自然语言处理任务中展现出卓越能力，但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集，往往偏重于「词汇多样性」，即让同一种风险指令尽可能用不同的表达方式出现，却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。缺乏后两者会导致风险覆盖不足：模型在看似通过测试的情况下，仍可能在陌生场景或复杂攻防对抗中暴露漏洞。

TRIDENT 针对这一痛点，首次提出「词汇-恶意意图-越狱策略」三维多样化框架。通过 persona-based + zero-shot 的自动生成范式，配合六大越狱技术，能够以低成本、大规模地产出高质量、高覆盖的红队数据，为后续的监督微调（SFT）或直接偏好优化（Direct Preference Optimization, DPO）等提供更加稳健的安全训练材料。

单位：武汉大学、蚂蚁集团、蚂蚁国际、皇家墨尔本理工大学
研究方向：大语言模型安全 / 红队数据自动化构建
论文标题：TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
论文链接：https://aclanthology.org/2025.acl-long.733/
代码开源：https://github.com/FishT0ucher/TRIDENT

与传统依赖专家或众包人工编写红队指令的方式相比，TRIDENT 极大降低了人工依赖；与仅围绕单一维度做数据增强的方法相比，TRIDENT 在多项安全基准上显著提升了模型的拒绝能力和对抗鲁棒性。

图 1TRIDENT-CORE 与各基线数据集在 14 类意图域的覆盖对比

主要贡献

构建了首个三维度风险覆盖评估框架，能够定量衡量数据集在词汇、恶意意图以及越狱策略三个维度的多样性与均衡度；
设计了端到端自动化数据生成管线 TRIDENT，可在无人干预的情况下生成两套数据：TRIDENT-CORE（26,311 条，覆盖词汇 + 意图）与 TRIDENT-EDGE（18,773 条，引入越狱策略维度）；
在 META-LLAMA-3.1-8B 上进行 LoRA 微调后，Harm Score 相对最佳基线降低 14.29%，Attack Success Rate 下降 20%，同时 Helpful Rate 保持或小幅上升，证明安全性与有用性可以兼得；
通过细粒度消融实验验证：任何一个维度的缺失都会导致安全指标大幅下降，说明多维度协同不可替代。

问题背景

自 ChatGPT 引爆关注以来，业界与学界在「安全指令微调」方面投入了大量精力，但仍面临三大顽疾：

意图类别失衡—— 公开数据集中暴力犯罪、色情犯罪相关指令占比高，而金融诈骗、基础设施破坏等高危领域数据极少；
越狱策略缺失—— 多数数据集仅包含直白的危险请求，很少涵盖 Cipher、Code Injection 等最新攻防技巧；
构造成本高 —— 人工撰写或筛选指令耗时耗力，更新周期跟不上模型演进速度。

这导致即便模型通过了现有 benchmark，也难以在真实线上流量或新型越狱攻击面前保持稳健。

方法设计

「场景 -> 人格 -> 指令」三级生成：首先利用无审查 LLM 在 14 大高风险领域生成细粒度情境描述；然后让同一模型推理出符合情境的 Persona（角色、职业、动机等）；最后通过角色扮演生成与 Persona 相匹配的恶意指令，从而自然引入词汇与意图多样性。

六大越狱方法注入：Cipher Encoding、Code Injection、Low-Resource Translation、Past Tense 重写、Persona Modulation、RENELLM 复杂变换。通过在原指令上随机叠加这些策略，增强攻击穿透力并扩大策略覆盖面。

两阶段过滤：先用 LLAMA-GUARD-3 做安全判别，确保指令确实「危险」；再用 Self-BLEU 去重，删除文本相似度 > 阈值的样本，保证词汇多样性。

安全回复生成：采用带链式思考的安全模板，分三步（指出风险 -> 共情安抚 -> 正向引导）生成守规且有用的回复，为后续 SFT 提供正反示例。

图 2TRIDENT 自动化数据生成流水线（pipeline）

实验结果

基准对比：在 HarmBench、XS-Test、AdvBench、SC-Safety 等 7 个公开基准上，与 AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT 六大数据集相比，TRIDENT-EDGE 微调模型的平均 Harm Score 最低，Attack Success Rate 最低，同时 Helpful Rate 与最佳基线持平或更优。

消融分析：逐次移除词汇、意图、越狱三个维度后，再微调并评测——无论去掉哪一维度，模型在所有安全指标上均显著退化，其中去掉越狱策略时 Attack Success Rate 上升最明显（+11.3%）。

越狱攻击评估：将六种越狱策略单独或组合应用于 TRIDENT-CORE 指令，对七大主流 LLM（Llama-3.1-8B-chat, Qwen-2.5-7B, GPT-3.5 Turbo 等）发起攻击；组合策略下成功率平均提升 25%，说明多策略融合能更全面暴露模型弱点。

表1 TRIDENT‑EDGE 与基线在 7 个安全基准的评测结果（节选文章Table 4）

表 2六种越狱策略对红队指令攻击成功率的提升效果（节选文章 Table 5）

突破意义

TRIDENT 为 LLM 安全对齐提供了首个三维多样化自动化生成范式，兼顾高覆盖、低成本与可持续迭代。其框架与数据可直接集成至 RLHF / DPO / RLAIF 等训练流水线。对于缺乏安全标注团队的研究者而言，TRIDENT-CORE 作为「即插即用」的安全微调底座数据，可显著降低安全研究的门槛，加速可信 AI 的大规模落地。

我们相信，多维度、多样化的安全数据共建，将成为下一阶段促进大模型可信生态的关键基础设施。值得强调的是，TRIDENT 并非「一次性」数据集，而是可随模型版本、威胁情报和法规更新而持续演进的生成框架，这使其在快速变化的攻防环境中始终保持前沿适应性，为产业界和学术界提供长久价值。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.