网易首页 > 网易号 > 正文 申请入驻

TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法

0
分享至

第一作者武骁睿,武汉大学计算机学院博士一年级生,研究大语言模型安全对齐与红队数据生成,侧重低资源场景的对齐策略与风险覆盖。导师:李庄讲师(RMIT,低资源 NLP、计算社会科学、模型安全),姬东鸿教授、李霏副教授、腾冲副教授(武汉大学,情感计算、信息抽取)。合作单位蚂蚁集团、蚂蚁国际,合作作者张欣主任工程师、毛潇锋工程师。

大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。缺乏后两者会导致风险覆盖不足:模型在看似通过测试的情况下,仍可能在陌生场景或复杂攻防对抗中暴露漏洞。

TRIDENT 针对这一痛点,首次提出「词汇-恶意意图-越狱策略」三维多样化框架。通过 persona-based + zero-shot 的自动生成范式,配合六大越狱技术,能够以低成本、大规模地产出高质量、高覆盖的红队数据,为后续的监督微调(SFT)或直接偏好优化(Direct Preference Optimization, DPO)等提供更加稳健的安全训练材料。

  • 单位:武汉大学、蚂蚁集团、蚂蚁国际、皇家墨尔本理工大学
  • 研究方向:大语言模型安全 / 红队数据自动化构建
  • 论文标题:TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
  • 论文链接:https://aclanthology.org/2025.acl-long.733/
  • 代码开源:https://github.com/FishT0ucher/TRIDENT

与传统依赖专家或众包人工编写红队指令的方式相比,TRIDENT 极大降低了人工依赖;与仅围绕单一维度做数据增强的方法相比,TRIDENT 在多项安全基准上显著提升了模型的拒绝能力和对抗鲁棒性。

图 1TRIDENT-CORE 与各基线数据集在 14 类意图域的覆盖对比

主要贡献

  • 构建了首个三维度风险覆盖评估框架,能够定量衡量数据集在词汇、恶意意图以及越狱策略三个维度的多样性与均衡度;
  • 设计了端到端自动化数据生成管线 TRIDENT,可在无人干预的情况下生成两套数据:TRIDENT-CORE(26,311 条,覆盖词汇 + 意图)与 TRIDENT-EDGE(18,773 条,引入越狱策略维度);
  • 在 META-LLAMA-3.1-8B 上进行 LoRA 微调后,Harm Score 相对最佳基线降低 14.29%,Attack Success Rate 下降 20%,同时 Helpful Rate 保持或小幅上升,证明安全性与有用性可以兼得;
  • 通过细粒度消融实验验证:任何一个维度的缺失都会导致安全指标大幅下降,说明多维度协同不可替代。

问题背景

自 ChatGPT 引爆关注以来,业界与学界在「安全指令微调」方面投入了大量精力,但仍面临三大顽疾:

  • 意图类别失衡—— 公开数据集中暴力犯罪、色情犯罪相关指令占比高,而金融诈骗、基础设施破坏等高危领域数据极少;
  • 越狱策略缺失—— 多数数据集仅包含直白的危险请求,很少涵盖 Cipher、Code Injection 等最新攻防技巧;
  • 构造成本高 —— 人工撰写或筛选指令耗时耗力,更新周期跟不上模型演进速度。

这导致即便模型通过了现有 benchmark,也难以在真实线上流量或新型越狱攻击面前保持稳健。

方法设计

「场景 -> 人格 -> 指令」三级生成:首先利用无审查 LLM 在 14 大高风险领域生成细粒度情境描述;然后让同一模型推理出符合情境的 Persona(角色、职业、动机等);最后通过角色扮演生成与 Persona 相匹配的恶意指令,从而自然引入词汇与意图多样性。

六大越狱方法注入:Cipher Encoding、Code Injection、Low-Resource Translation、Past Tense 重写、Persona Modulation、RENELLM 复杂变换。通过在原指令上随机叠加这些策略,增强攻击穿透力并扩大策略覆盖面。

两阶段过滤:先用 LLAMA-GUARD-3 做安全判别,确保指令确实「危险」;再用 Self-BLEU 去重,删除文本相似度 > 阈值的样本,保证词汇多样性。

安全回复生成:采用带链式思考的安全模板,分三步(指出风险 -> 共情安抚 -> 正向引导)生成守规且有用的回复,为后续 SFT 提供正反示例。

图 2TRIDENT 自动化数据生成流水线(pipeline)

实验结果

基准对比:在 HarmBench、XS-Test、AdvBench、SC-Safety 等 7 个公开基准上,与 AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT 六大数据集相比,TRIDENT-EDGE 微调模型的平均 Harm Score 最低,Attack Success Rate 最低,同时 Helpful Rate 与最佳基线持平或更优。

消融分析:逐次移除词汇、意图、越狱三个维度后,再微调并评测——无论去掉哪一维度,模型在所有安全指标上均显著退化,其中去掉越狱策略时 Attack Success Rate 上升最明显(+11.3%)。

越狱攻击评估:将六种越狱策略单独或组合应用于 TRIDENT-CORE 指令,对七大主流 LLM(Llama-3.1-8B-chat, Qwen-2.5-7B, GPT-3.5 Turbo 等)发起攻击;组合策略下成功率平均提升 25%,说明多策略融合能更全面暴露模型弱点。

表1 TRIDENT‑EDGE 与基线在 7 个安全基准的评测结果(节选文章Table 4)

表 2六种越狱策略对红队指令攻击成功率的提升效果(节选文章 Table 5)

突破意义

TRIDENT 为 LLM 安全对齐提供了首个三维多样化自动化生成范式,兼顾高覆盖、低成本与可持续迭代。其框架与数据可直接集成至 RLHF / DPO / RLAIF 等训练流水线。对于缺乏安全标注团队的研究者而言,TRIDENT-CORE 作为「即插即用」的安全微调底座数据,可显著降低安全研究的门槛,加速可信 AI 的大规模落地。

我们相信,多维度、多样化的安全数据共建,将成为下一阶段促进大模型可信生态的关键基础设施。值得强调的是,TRIDENT 并非「一次性」数据集,而是可随模型版本、威胁情报和法规更新而持续演进的生成框架,这使其在快速变化的攻防环境中始终保持前沿适应性,为产业界和学术界提供长久价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
baby复婚无望哭晕!黄晓明叶珂露营玩浪漫,坐帐篷吃烛光晚餐太浪漫

baby复婚无望哭晕!黄晓明叶珂露营玩浪漫,坐帐篷吃烛光晚餐太浪漫

八卦王者
2026-02-19 14:41:56
建议大家:假如工资允许,咬咬牙添置“这5样”,幸福感加倍提升

建议大家:假如工资允许,咬咬牙添置“这5样”,幸福感加倍提升

家居设计师苏哥
2025-12-29 13:46:17
体内有癌,睡觉先知,睡觉若有4种异常情况,或是癌症的预警信号

体内有癌,睡觉先知,睡觉若有4种异常情况,或是癌症的预警信号

熊猫医学社
2026-02-14 11:30:03
是金子总会发光!33岁杨紫高调官宣喜讯,张一山的话终于有人信了

是金子总会发光!33岁杨紫高调官宣喜讯,张一山的话终于有人信了

观察鉴娱
2026-02-19 13:46:26
胃癌术后两年转移,化疗差点把他打垮,14年后带亲戚来找同一个人

胃癌术后两年转移,化疗差点把他打垮,14年后带亲戚来找同一个人

收纳干货铺
2026-02-19 21:45:03
一届诞生9个全明星,前三顺位无一水货,他们是被遗忘的一届新秀

一届诞生9个全明星,前三顺位无一水货,他们是被遗忘的一届新秀

大卫的篮球故事
2026-02-10 22:05:51
“初四5不扔,马年要受穷”,家家都有这5样,大年初四记得扔出去

“初四5不扔,马年要受穷”,家家都有这5样,大年初四记得扔出去

小茉莉美食记
2026-02-20 01:20:03
《惊蛰无声》票房炸了,演技评分出炉,宋佳仅排第4,第1名没争议

《惊蛰无声》票房炸了,演技评分出炉,宋佳仅排第4,第1名没争议

做一个合格的吃瓜群众
2026-02-19 09:01:16
包菜是高血糖杀手?医生忠告:不想血糖飙升,这4种菜少吃些

包菜是高血糖杀手?医生忠告:不想血糖飙升,这4种菜少吃些

观星赏月
2026-02-19 23:30:05
日本专家矢野义昭:中日战争爆发,日本绝不会成为第二个乌克兰。

日本专家矢野义昭:中日战争爆发,日本绝不会成为第二个乌克兰。

百态人间
2026-02-11 15:48:36
有关薄一波的十个冷知识

有关薄一波的十个冷知识

深度报
2026-02-13 22:45:30
米兰冬奥|宁忠岩摘金,明星闪光加团队突破,中国速滑队单届奥运奖牌数创新高

米兰冬奥|宁忠岩摘金,明星闪光加团队突破,中国速滑队单届奥运奖牌数创新高

文汇报
2026-02-20 03:53:09
冬奥会奖牌榜明朗!榜首无可撼动,日本锁定亚洲第一,中韩抢第二

冬奥会奖牌榜明朗!榜首无可撼动,日本锁定亚洲第一,中韩抢第二

十点街球体育
2026-02-19 11:27:55
王健林预言又准了!2026年的房价,已经出现4个迹象!

王健林预言又准了!2026年的房价,已经出现4个迹象!

猫叔东山再起
2026-02-17 12:00:06
一个家庭最掉价的,是父母六七十岁时,处于以下3种状态

一个家庭最掉价的,是父母六七十岁时,处于以下3种状态

荷兰豆爱健康
2026-02-12 09:37:04
约基奇热爱篮球言论引热议!美媒晒近两年全明星数据:5中2仅4分

约基奇热爱篮球言论引热议!美媒晒近两年全明星数据:5中2仅4分

颜小白的篮球梦
2026-02-19 16:29:48
12死!湖北烟花店爆炸:店主身份被扒,大量内幕披露,知情者发声

12死!湖北烟花店爆炸:店主身份被扒,大量内幕披露,知情者发声

博士观察
2026-02-19 00:06:41
Godot团队痛斥AI垃圾代码:让其精疲力竭、士气低落

Godot团队痛斥AI垃圾代码:让其精疲力竭、士气低落

IT之家
2026-02-19 14:54:42
重庆包工头李明春去世,年仅49岁,确诊前还在酒桌,经常不醉不休

重庆包工头李明春去世,年仅49岁,确诊前还在酒桌,经常不醉不休

嫹笔牂牂
2026-01-11 07:18:24
一手好牌打稀烂!从春晚笑星到县城卖唱,如今她是3个孩子的妈

一手好牌打稀烂!从春晚笑星到县城卖唱,如今她是3个孩子的妈

随遇而安之心
2026-02-16 22:13:01
2026-02-20 04:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12321文章数 142569关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

房产
旅游
本地
手机
数码

房产要闻

顶豪抢房潮席卷全国! 中旅馥棠公馆项目395㎡大平层加推入市!

旅游要闻

拓印、剪纸、糖画“圈粉”外籍游客 沉浸式感受传统文化体验喜庆中国年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

手机要闻

消息称三星为防开发泄密,在公司内部上线“加密聊天”通信系统

数码要闻

REDMI耳机新品曝光,满电37小时续航

无障碍浏览 进入关怀版