网易首页 > 网易号 > 正文 申请入驻

港科、牛津大学发布AlignGuard,文图生成模型规模化安全对齐框架

0
分享至



本文共一作者为刘润涛和陈奕杰,香港科技大学计算机科学方向博士生,主要研究方向为多模态生成模型和偏好优化。

1. 背景介绍

随着文图生成模型的广泛应用,模型本身有限的安全防护机制使得用户有机会无意或故意生成有害的图片内容,并且该内容有可能会被恶意使用。现有的安全措施主要依赖文本过滤或概念移除的策略,只能从文图生成模型的生成能力中移除少数几个概念。

在 ICCV 2025,AlignGuard 推出了一个通过直接偏好优化训练文图生成模型,并以此实现安全对齐的训练框架。通过生成有害和安全的图像 - 文本对数据集 CoProV2,AlignGuard 使 DPO 技术能够可规模化的应用于文图生成模型的安全目的。AlignGuard 的安全对齐框架可以针对不同的有害概念引入各自的安全专家,会对于每个概念训练低秩适应(LoRA)矩阵用以引导文图模型减少生成特定的有害概念。





  • Paper: AlignGuard: Scalable Safety Alignment for Text-to-Image Generation
  • Paper Link: https://www.arxiv.org/abs/2412.10493
  • Github: https://github.com/Visualignment/SafetyDPO
  • Project page:https://alignguard.github.io/

2. AlignGuard 安全对齐框架

AlignGuard 这项工作的核心是提出一个面相扩散模型(Diffusion model)可规模化的安全对齐方法。通过生成针对安全内容的文图数据集,AlignGuard 的训练框架能在保有原本的生图内容的同时去除图片中的有害内容,并保持模型的高质量生图品质。

2.1 CoProv2 数据集构建

AlignGuard 首先围绕多种有害概念,构建了包含安全和不安全的图像文本对数据集 CoProV2。CoProV2 针对不同的有害概念,用 LLM 生成了一系列具有相似语义的有害与安全提示词对,并对每个提示词生成了对应的图片。



相较于已有的人造数据集如 UD 和 I2P 缺少文本数据对应的图片,CoProV2 是一个更具规模且能够提供文本数据对应的图片的数据集。并且 CoProV2 数据内容也保有了一定程度的有害内容(IP),适合用来应用在安全对齐方向的直接偏好优化。



2.2 AlignGuard 的训练架构设计

针对 CoProV2 中不同安全类别,AlignGuard 利用直接偏好优化技术为各个安全类别训练了各自的专家 LoRA 矩阵,包括 "仇恨"、"性"、"暴力" 等类别。在训练过程中,每个专家专注于学习特定领域的安全特征,以确保高效的概念移除。最后,AlignGuard 不同专家 LoRA 矩阵会被合并成单一的 LoRA 矩阵,以构造一个能够预防不同有害类别的提示词的安全生图模型。



2.3 LoRA 专家合并策略

为了将不同安全专家合并成单一模型,AlignGuard 会基于各个专家的信号强度进行权重分析,并以此为合并策略将多个 LoRA 专家整合为单一模型,以实现最优的计算与安全性能。AlignGuard 的专家合并策略考虑了不同安全类别之间的相互作用,以确保合并后的模型在所有安全维度上都能保持一致的性能。



3. 实验结果

3.1 生成定量结果

AlignGuard 在 CoProV2 危害概念移除任务中能够成功移除比现有方法多 7 倍的有害概念,并且同时保持了图像生成质量与文图的对齐程度。在未见数据集 I2P 和 UD 上也领先于现有方法,表明 AlignGuard 的泛化能力在面对新的有害概念时仍能保持稳健的安全性能。



3.2 生成定性结果

相较于未被安全对齐的基线模型,AlignGuard 可以在包含有害词语的提示词上生成更为安全的图片。AlignGuard 的安全对齐策略可以在不过度影响生图内的前提下仅仅去除有害的元素。



3.3 专家 LoRA 合并策略分析

相较于为各个安全概念各自训练一个专家模型并直接使用,AlignGuard 展示了合并不同专家模型可以更加有效得去除有害内容的生成。



相较于其他如加权平均的 LoRA 矩阵合并策略,AlignGuard 的信号权重合并策略能够在有效降低生成有害内容的同时,保存模型的图像品质与图文对齐度。AlignGuard 的合并策略能够有效平衡不同安全专家之间的权重,避免专家间的冲突并最大化整体安全性能。



4. 总结

文本到图像生成模型在缺乏有效安全措施的情况下,存在被用户滥用风险。AlignGuard 提出了一种基于直接偏好优化(DPO)的安全对齐方法。AlignGuard 安全对齐框架的创新在于:1. 将直接偏好优化技术规模化的应用于文生图模型的安全领域;2. 采用专家系统架构,针对不同有害图像类别训练专门的 LoRA 矩阵,然后通过模型的信号强度构造权重并整合为单一 LoRA,以此提升计算效率;3. 生成了成对的有害与无害的图文数据集 CoProV2,用以进行直接偏好优化训练。 AlignGuard 这种方法能够在保持模型生成质量的同时,移除比基准方法多 7 倍的有害概念。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

古书记史
2025-12-12 11:21:38
炒股真正发大财的一种人:炒股不割肉!这是我对大多数股民的建议

炒股真正发大财的一种人:炒股不割肉!这是我对大多数股民的建议

股经纵横谈
2026-01-06 11:05:00
5人反穿鳌山最新!2人身亡1人坠崖,救援队曝猛料,一点也不无辜

5人反穿鳌山最新!2人身亡1人坠崖,救援队曝猛料,一点也不无辜

鲸探所长
2026-01-06 12:02:47
扎心了,杨瀚森真实命中率全联盟垫底,斯普利特对其并无偏见

扎心了,杨瀚森真实命中率全联盟垫底,斯普利特对其并无偏见

姜大叔侃球
2026-01-06 12:02:45
三上悠亚「礼物装」迎2026新年胸前蝴蝶结胸部包不住

三上悠亚「礼物装」迎2026新年胸前蝴蝶结胸部包不住

孤独的独角兽影视
2026-01-06 09:55:03
Nature最新论文:奶茶比酒精更具杀伤力,多喝1杯,死亡风险加37%

Nature最新论文:奶茶比酒精更具杀伤力,多喝1杯,死亡风险加37%

知识圈
2026-01-04 16:42:31
末节11+3引一波流!41岁詹皇26+10+6又迎里程碑 湖媒晒纪录赞GOAT

末节11+3引一波流!41岁詹皇26+10+6又迎里程碑 湖媒晒纪录赞GOAT

颜小白的篮球梦
2026-01-05 13:12:37
放假通知!2026中小学寒假时间确定了,家长吵翻:这安排太离谱!

放假通知!2026中小学寒假时间确定了,家长吵翻:这安排太离谱!

老特有话说
2026-01-05 11:58:45
别只盯着黄金!全球通胀背景下,这3种冷门资产正被机构悄悄买入

别只盯着黄金!全球通胀背景下,这3种冷门资产正被机构悄悄买入

小白鸽财经
2026-01-06 07:05:03
又翻车!媒体称赞39岁无腿外卖员很励志,却被网友一边倒怒批!

又翻车!媒体称赞39岁无腿外卖员很励志,却被网友一边倒怒批!

麦杰逊
2025-12-16 14:29:46
领益智造:已与脑机接口独角兽强脑科技达成战略合作伙伴关系

领益智造:已与脑机接口独角兽强脑科技达成战略合作伙伴关系

每日经济新闻
2026-01-06 09:45:08
美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

碳基生物关怀组织
2026-01-03 23:30:35
俄媒:中国如果再用‘战略定力’解释不出手,迟早被当‘试验田’

俄媒:中国如果再用‘战略定力’解释不出手,迟早被当‘试验田’

百态人间
2026-01-04 16:10:18
中美两国突然都悟到了!只要甩开中国,美国就能满世界薅羊毛

中美两国突然都悟到了!只要甩开中国,美国就能满世界薅羊毛

扶苏聊历史
2025-12-30 17:23:03
我国首次在高雄12海里内“拦截”美空军,台湾领空已收回

我国首次在高雄12海里内“拦截”美空军,台湾领空已收回

世家宝
2025-12-31 11:27:28
哈达迪一家近照,40岁很苍老,二婚娶超模,转型成功很幸福

哈达迪一家近照,40岁很苍老,二婚娶超模,转型成功很幸福

大西体育
2026-01-05 14:27:26
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
小白被卷入!司晓迪自曝最爱白敬亭!曝李汶翰因白敬亭和自己翻脸

小白被卷入!司晓迪自曝最爱白敬亭!曝李汶翰因白敬亭和自己翻脸

一盅情怀
2026-01-05 16:13:34
哇塞!看她这大体格子就是成熟女性的魅力 微胖女人天花板呀

哇塞!看她这大体格子就是成熟女性的魅力 微胖女人天花板呀

手工制作阿歼
2026-01-06 12:22:09
原来一万块钱的威力这么大!网友:钱不是万能的,但没钱寸步难行

原来一万块钱的威力这么大!网友:钱不是万能的,但没钱寸步难行

另子维爱读史
2025-12-30 19:27:54
2026-01-06 13:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12062文章数 142530关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

头条要闻

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

朱媛媛遗作《小城大事》定档1月10日

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

让智驾能看懂真实世界 英伟达发布开源Alpamayo平台

态度原创

艺术
房产
本地
数码
公开课

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

数码要闻

AMD ROCm 7.2首发支持Ryzen AI 400系列,解锁满血AI性能

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版