网易首页 > 网易号 > 正文 申请入驻

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

0
分享至


新智元报道

编辑:LRST

【新智元导读】香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。

大语言模型(LLM)展现了卓越的能力从而广泛普及,这同时也凸显了LLM安全的至关重要性。然而,现有安全方法缺乏严谨系统的保护机制,无法确保应对现代LLM系统复杂微妙行为时的安全性。

为此,香港科技大学KnowComp实验室从法律合规视角切入LLM安全研究,提出「安全合规」新范式:Safety Compliance


论文连接:https://arxiv.org/pdf/2509.22250

研究人员将已建立的相关法律框架确立为定义和衡量安全的黄金标准,包括作为欧洲AI与数据安全核心法规的《欧盟人工智能法案》(EU AI Act)和《通用数据保护条例》(GDPR)。

为弥合LLM安全与法律合规之间的差距,首先基于法律条文构建LLM安全场景,建造全新的安全合规benchmark,该研究发现现有最先进的LLM在该benchmark上效果不好。

为提升LLM的安全合规能力,使用强化学习GRPO方法对Qwen3-8B模型进行微调,构建出能够有效增强安全合规能力的推理模型:Compliance Reasoner。

实验表明,其在新benchmark测试中表现优异,在EU AI Act和GDPR有关的安全数据案例上分别实现+10.45%和+11.85%的性能提升。

论文第一作者是来自香港科技大学的博士生胡文彬,他研究的领域是大语言模型的安全与隐私。

他在ACL、EMNLP等顶级人工智能学术会议上发表了多篇论文,工作涵盖了大模型安全与合规、情景化隐私保护、基于强化学习训练的大模型安全卫士、可信AI Agent通信协议等前沿领域。


整体框架示意图:1. 首先通过以法律条文为种子数据构建安全合规benchmark。2. 随后利用强化学习GRPO训练得到安全合规的推理模型Compliance Reasoner。3. 最终运用该模型将已存在的安全数据有效对齐至合规领域。

构建Benchmark

由于目前缺乏安全合规性的研究成果,首先需要建立一个benchmark。通过将法律条文作为种子数据,利用DeepSeek-V3.1的强大思维能力合成出安全合规案例。

把法律法规作为合成数据的种子数据

建立一个种子数据池,用于合成安全合规案例。

首先,由于法律框架本身具有层级化特征,以树状结构对法律框架进行形式化建模。法律树可表示为T = (V,E),其中每个节点vi ∈V存储着不同层级的法规条款。

随后遍历T中所有从根节点到叶节点的路径,以穷尽捕捉法规间的逻辑关联。

具体而言,对于给定路径 P= {v1, v2,..., vn}(其中v1为根节点,vn为叶子节点),通过串联路径中各节点生成种子数据:Sp = concat(v1, ..., vn)。

该方法确保每个种子数据点都能呈现语境完整、逻辑连贯的法律合规链条。所有枚举路径构成法规种子池,用于合成安全合规数据。

合成安全合规数据

基于已创建的种子数据,遍历种子数据库并采用最先进的推理模型之一的DeepSeek-V3.1来生成仿真的LLM安全场景。指导DeepSeek-V3.1模拟真实法律案件的分析流程,该模型通过以下核心法律分析要素进行综合推理:

涉案主体:明确原告、被告及相关第三方

事实背景:完整陈述导致LLM安全场景的事件脉络

法律争议点:援引相关条款指出具体法律问题

论点摘要:归纳原告、被告及其他利益相关方的主张

司法管辖:阐明管辖权限及相关背景

通过此流程,模型可为LLM安全案例生成全面、合理且贴近现实的数据。

最终为EU AI Act与GDPR分别合成了1,684个和1,012个安全合规案例样本。

人类验证与评估

为了评估合成的安全合规数据的质量,该工作做了详尽的人类验证。

该评估由三位攻读计算语言学与法学的博士生组成的评估小组完成,对于EU AI Act和GDPR两个领域分别随机抽取50个合成数据样本进行评估。它的评价体系基于以下的三大维度:

Alignment:确保生成的案例与对应法规条款保持一致。

Coherence:保证安全案件情境发展符合自然逻辑与真实合理性。

Relevance:确保案例背景与大语言模型安全领域紧密关联。

采用1分(最低)至5分(最高)的评分体系进行初步评定,随后将得分标准化为百分比形式。

结果表明,合成数据在三大维度上均表现优异,综合评分均达到95%以上。

训练安全合规的推理模型

Compliance Reasoner

为增强大语言模型在安全合规方面的推理能力,采用强化学习算法训练了一个名为"合规推理器"的推理模型。

基于蒸馏数据的冷启动

在开展强化学习训练前,通过冷启动机制建立初始安全推理能力对于构建高效推理模型至关重要。通过DeepSeek-V3.1模型来蒸馏出推理轨迹来得到冷启动数据。

同时,精心构建提示词模板,引导该模型生成基于法律条文的针对安全合规案件分析的逐步推理。

基于这些蒸馏数据,采用监督微调训练策略对Qwen3-8B模型实施冷启动。

强化学习算法与奖励设计

在冷启动后的Qwen3-8B模型基础上,采用分组相对策略优化算法(GRPO)进行模型训练。

该工作设计有效的奖励函数,精心构建了基于规则的rule-based奖励函数。该奖励函数由两个部分加权平均组成:

1. 安全合规奖励:通过分析模型的输出结果来验证安全合规性。只需从响应内容中直接提取判定结果与真实结果进行比对即可得到奖励分数。

2. 格式奖励:为确保输出范式与基础模型保持一致从而保持基础能力,在GRPO训练的奖励函数中引入了格式奖励项。

当模型输出符合以下格式的时候获得奖励:


既有的安全数据对齐到合规上

尽管已经存在的LLM安全数据缺乏系统化的安全分类体系,但这些数据囊括了大量不安全的基础行为模式。这些基础行为可作为有价值的种子数据,用于生成更多安全合规数据。

Compliance Reasoner能够作为连接安全规范与法律合规的有效对齐工具,将已经存在的其他的LLM安全benchmark数据有效对齐至该工作提出的安全合规领域。

该工作收集了来自Aegis-2.0、WildGuard、OpenAI Mod和SafeRLHF的数据,合成详细的安全合规场景。

该方法为将已有安全数据对齐至安全合规任务提供了通用解决方案。

实验结果

结论1:Compliance Reasoner在安全合规任务上显著超越所有最先进的大语言模型baseline,包括通用模型和安全卫士。

结论2:当前安全卫士在合规性方面表现欠佳,性能甚至普遍低于通用模型。


结论3:Compliance Reasoner能够有效将已存在的安全benchmark数据对齐至合规要求。

使用Compliance-Reasoner-GRPO模型为现有安全数据匹配对应法律章节,其在Aegis-2.0、WildGuard、OpenAI Mod和SafeRLHF数据集中,章节匹配缺失率仅分别为19.86%、15.73%、16.19%和15.73%,这表明现有数据具有向安全合规领域泛化的巨大潜力。

为深入揭示已存在的安全数据与法律框架的关联性,进一步分析了这些数据在EU AI Act和GDPR各章节的分布情况。


结论4:合规推理器能够以既有安全数据为种子,有效生成高质量的新型安全合规数据。

基于该文章提出的方法论,以已存在的安全数据作为种子,引导模型生成符合法律框架的合规案例。为评估新生成数据的质量,该文章按照方法论章节中的相同的流程进行了额外的人类评估。

经三位博士生综合评定,新数据在法律规范对齐性、逻辑连贯性及场景相关性三个维度分别获得97.6%、95.6%和97.2%的评分。

结论5:大多数语言模型在新生成的安全合规数据上表现欠佳。

使用三个通用大模型和三个安全卫士模型重新评估了LLM baseline在新生成安全合规数据上的表现。


大多数模型均呈现较低性能,这凸显了该领域仍需进一步提升的必要性。

总结

研究人员从安全合规的视角重新审视大语言模型安全问题。

以《欧盟人工智能法案》(EU AI Act) 和《通用数据保护条例》(GDPR) 视为LLM安全的黄金标准,重新构筑LLM安全的范式。

基于这一理念,以法律条文构建benchmark数据,采用GRPO方法在新数据上训练出更加安全合规的推理模型,并将既有安全数据有效对齐至合规数据领域。

研究人员呼吁LLM安全社区的研究者们一起关注安全合规这一治理LLM安全的新方向。

参考资料:

https://arxiv.org/pdf/2509.22250

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
即将降级!37岁国足名将采访道歉+快哭了 压哨进球被吹无缘创纪录

即将降级!37岁国足名将采访道歉+快哭了 压哨进球被吹无缘创纪录

我爱英超
2025-11-01 18:25:09
很“友好”!东契奇和里夫斯赛后互相竖中指

很“友好”!东契奇和里夫斯赛后互相竖中指

雷速体育
2025-11-01 12:42:26
不是胰脏癌!坣娜真正死因曝光..老公心碎发声:在床边抱着她离世

不是胰脏癌!坣娜真正死因曝光..老公心碎发声:在床边抱着她离世

ETtoday星光云
2025-10-31 11:22:10
刘昊然喜当爹?33岁周冬雨两次被曝怀孕,素颜照鼻头红肿孕相明显

刘昊然喜当爹?33岁周冬雨两次被曝怀孕,素颜照鼻头红肿孕相明显

八星人
2025-11-01 15:35:14
阿马德:大家对结果很失望,但都十分相信主教练和他的体系

阿马德:大家对结果很失望,但都十分相信主教练和他的体系

懂球帝
2025-11-02 02:30:19
秦雯袭警冲上热搜!向王家卫炫耀后台硬能捞人,网友要求严查特权

秦雯袭警冲上热搜!向王家卫炫耀后台硬能捞人,网友要求严查特权

萌神木木
2025-10-31 21:33:21
订单破纪录、产能全开!三季报高增长龙头股掘金名单

订单破纪录、产能全开!三季报高增长龙头股掘金名单

K线论势
2025-11-01 22:49:44
为西贝出谋划策的华与华,到底什么水平?

为西贝出谋划策的华与华,到底什么水平?

圈内师老师
2025-10-31 18:39:21
郑丽文正式就职国民党主席,朱立伦率队离任,卢秀燕、侯友宜缺席

郑丽文正式就职国民党主席,朱立伦率队离任,卢秀燕、侯友宜缺席

策略述
2025-11-01 15:25:35
悉尼妹红毯杀疯了!银色透视裙尽显性感,自信气场碾压全场

悉尼妹红毯杀疯了!银色透视裙尽显性感,自信气场碾压全场

述家娱记
2025-10-31 14:04:50
威廉王子将亲叔安德鲁贬为庶民踢出王室?大义灭亲为凯特复仇,手段超狠!

威廉王子将亲叔安德鲁贬为庶民踢出王室?大义灭亲为凯特复仇,手段超狠!

英国报姐
2025-10-31 22:05:56
齐豫演唱会键盘手、著名编曲家屠颖在广州去世

齐豫演唱会键盘手、著名编曲家屠颖在广州去世

南方都市报
2025-11-01 19:42:10
把七万公里走成一首长诗,68岁儿子与91岁母亲“慢半拍”环游中国

把七万公里走成一首长诗,68岁儿子与91岁母亲“慢半拍”环游中国

极目新闻
2025-10-31 18:33:04
人民日报发声!物业改革多地落地:物业费真降了,这4笔费可拒交

人民日报发声!物业改革多地落地:物业费真降了,这4笔费可拒交

振华观史
2025-10-30 08:27:30
马斯克回应奥尔特曼Roadster退订争议:24小时内已退款

马斯克回应奥尔特曼Roadster退订争议:24小时内已退款

IT之家
2025-11-01 23:29:06
杨威儿子和吴镇宇儿子聚会,15岁杨阳洋好显老,费曼像“社会人”

杨威儿子和吴镇宇儿子聚会,15岁杨阳洋好显老,费曼像“社会人”

心静物娱
2025-11-01 14:41:28
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
搞笑,湖人队东契奇与里夫斯的互动在灰熊队比赛后迅速走红

搞笑,湖人队东契奇与里夫斯的互动在灰熊队比赛后迅速走红

好火子
2025-11-02 07:25:49
最新研究发现:宇宙不可能是,也永远不可能是计算机模拟!

最新研究发现:宇宙不可能是,也永远不可能是计算机模拟!

徐德文科学频道
2025-11-01 15:06:36
带小三产检遇原配后续:曝男子是律师,吃软饭上位,小三也不简单

带小三产检遇原配后续:曝男子是律师,吃软饭上位,小三也不简单

银河史记
2025-11-01 21:13:54
2025-11-02 08:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13761文章数 66236关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

4200万美国人吃饭成问题 有人让孩子吃饭自己喝水撑着

头条要闻

4200万美国人吃饭成问题 有人让孩子吃饭自己喝水撑着

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

时尚
艺术
家居
手机
公开课

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

艺术要闻

郑丰林:中国当代年轻女画家

家居要闻

吸睛艺术 富有传奇色彩

手机要闻

一加15T配置提前看:6.31英寸+7000mAh电池,小屏市场要变天?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版