网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI模型守法率提升11%，港科大首次用法案构建安全benchmark

2025-10-22 11:30:24　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：LRST

【新智元导读】香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式，构建合规测试基准并训练出性能优异的推理模型，为大语言模型安全管理提供了新方向。

大语言模型（LLM）展现了卓越的能力从而广泛普及，这同时也凸显了LLM安全的至关重要性。然而，现有安全方法缺乏严谨系统的保护机制，无法确保应对现代LLM系统复杂微妙行为时的安全性。

为此，香港科技大学KnowComp实验室从法律合规视角切入LLM安全研究，提出「安全合规」新范式：Safety Compliance

论文连接：https://arxiv.org/pdf/2509.22250

研究人员将已建立的相关法律框架确立为定义和衡量安全的黄金标准，包括作为欧洲AI与数据安全核心法规的《欧盟人工智能法案》（EU AI Act）和《通用数据保护条例》(GDPR)。

为弥合LLM安全与法律合规之间的差距，首先基于法律条文构建LLM安全场景，建造全新的安全合规benchmark，该研究发现现有最先进的LLM在该benchmark上效果不好。

为提升LLM的安全合规能力，使用强化学习GRPO方法对Qwen3-8B模型进行微调，构建出能够有效增强安全合规能力的推理模型：Compliance Reasoner。

实验表明，其在新benchmark测试中表现优异，在EU AI Act和GDPR有关的安全数据案例上分别实现+10.45%和+11.85%的性能提升。

论文第一作者是来自香港科技大学的博士生胡文彬，他研究的领域是大语言模型的安全与隐私。

他在ACL、EMNLP等顶级人工智能学术会议上发表了多篇论文，工作涵盖了大模型安全与合规、情景化隐私保护、基于强化学习训练的大模型安全卫士、可信AI Agent通信协议等前沿领域。

整体框架示意图：1. 首先通过以法律条文为种子数据构建安全合规benchmark。2. 随后利用强化学习GRPO训练得到安全合规的推理模型Compliance Reasoner。3. 最终运用该模型将已存在的安全数据有效对齐至合规领域。

构建Benchmark

由于目前缺乏安全合规性的研究成果，首先需要建立一个benchmark。通过将法律条文作为种子数据，利用DeepSeek-V3.1的强大思维能力合成出安全合规案例。

把法律法规作为合成数据的种子数据

建立一个种子数据池，用于合成安全合规案例。

首先，由于法律框架本身具有层级化特征，以树状结构对法律框架进行形式化建模。法律树可表示为T = (V,E)，其中每个节点vi ∈V存储着不同层级的法规条款。

随后遍历T中所有从根节点到叶节点的路径，以穷尽捕捉法规间的逻辑关联。

具体而言，对于给定路径 P= {v1, v2,..., vn}（其中v1为根节点，vn为叶子节点），通过串联路径中各节点生成种子数据：Sp = concat(v1, ..., vn)。

该方法确保每个种子数据点都能呈现语境完整、逻辑连贯的法律合规链条。所有枚举路径构成法规种子池，用于合成安全合规数据。

合成安全合规数据

基于已创建的种子数据，遍历种子数据库并采用最先进的推理模型之一的DeepSeek-V3.1来生成仿真的LLM安全场景。指导DeepSeek-V3.1模拟真实法律案件的分析流程，该模型通过以下核心法律分析要素进行综合推理：

涉案主体：明确原告、被告及相关第三方

事实背景：完整陈述导致LLM安全场景的事件脉络

法律争议点：援引相关条款指出具体法律问题

论点摘要：归纳原告、被告及其他利益相关方的主张

司法管辖：阐明管辖权限及相关背景

通过此流程，模型可为LLM安全案例生成全面、合理且贴近现实的数据。

最终为EU AI Act与GDPR分别合成了1,684个和1,012个安全合规案例样本。

人类验证与评估

为了评估合成的安全合规数据的质量，该工作做了详尽的人类验证。

该评估由三位攻读计算语言学与法学的博士生组成的评估小组完成，对于EU AI Act和GDPR两个领域分别随机抽取50个合成数据样本进行评估。它的评价体系基于以下的三大维度：

Alignment：确保生成的案例与对应法规条款保持一致。

Coherence：保证安全案件情境发展符合自然逻辑与真实合理性。

Relevance：确保案例背景与大语言模型安全领域紧密关联。

采用1分（最低）至5分（最高）的评分体系进行初步评定，随后将得分标准化为百分比形式。

结果表明，合成数据在三大维度上均表现优异，综合评分均达到95%以上。

训练安全合规的推理模型

Compliance Reasoner

为增强大语言模型在安全合规方面的推理能力，采用强化学习算法训练了一个名为"合规推理器"的推理模型。

基于蒸馏数据的冷启动

在开展强化学习训练前，通过冷启动机制建立初始安全推理能力对于构建高效推理模型至关重要。通过DeepSeek-V3.1模型来蒸馏出推理轨迹来得到冷启动数据。

同时，精心构建提示词模板，引导该模型生成基于法律条文的针对安全合规案件分析的逐步推理。

基于这些蒸馏数据，采用监督微调训练策略对Qwen3-8B模型实施冷启动。

强化学习算法与奖励设计

在冷启动后的Qwen3-8B模型基础上，采用分组相对策略优化算法（GRPO）进行模型训练。

该工作设计有效的奖励函数，精心构建了基于规则的rule-based奖励函数。该奖励函数由两个部分加权平均组成：

1. 安全合规奖励：通过分析模型的输出结果来验证安全合规性。只需从响应内容中直接提取判定结果与真实结果进行比对即可得到奖励分数。

2. 格式奖励：为确保输出范式与基础模型保持一致从而保持基础能力，在GRPO训练的奖励函数中引入了格式奖励项。

当模型输出符合以下格式的时候获得奖励：

既有的安全数据对齐到合规上

尽管已经存在的LLM安全数据缺乏系统化的安全分类体系，但这些数据囊括了大量不安全的基础行为模式。这些基础行为可作为有价值的种子数据，用于生成更多安全合规数据。

Compliance Reasoner能够作为连接安全规范与法律合规的有效对齐工具，将已经存在的其他的LLM安全benchmark数据有效对齐至该工作提出的安全合规领域。

该工作收集了来自Aegis-2.0、WildGuard、OpenAI Mod和SafeRLHF的数据，合成详细的安全合规场景。

该方法为将已有安全数据对齐至安全合规任务提供了通用解决方案。

实验结果

结论1：Compliance Reasoner在安全合规任务上显著超越所有最先进的大语言模型baseline，包括通用模型和安全卫士。

结论2：当前安全卫士在合规性方面表现欠佳，性能甚至普遍低于通用模型。

结论3：Compliance Reasoner能够有效将已存在的安全benchmark数据对齐至合规要求。

使用Compliance-Reasoner-GRPO模型为现有安全数据匹配对应法律章节，其在Aegis-2.0、WildGuard、OpenAI Mod和SafeRLHF数据集中，章节匹配缺失率仅分别为19.86%、15.73%、16.19%和15.73%，这表明现有数据具有向安全合规领域泛化的巨大潜力。

为深入揭示已存在的安全数据与法律框架的关联性，进一步分析了这些数据在EU AI Act和GDPR各章节的分布情况。

结论4：合规推理器能够以既有安全数据为种子，有效生成高质量的新型安全合规数据。

基于该文章提出的方法论，以已存在的安全数据作为种子，引导模型生成符合法律框架的合规案例。为评估新生成数据的质量，该文章按照方法论章节中的相同的流程进行了额外的人类评估。

经三位博士生综合评定，新数据在法律规范对齐性、逻辑连贯性及场景相关性三个维度分别获得97.6%、95.6%和97.2%的评分。

结论5：大多数语言模型在新生成的安全合规数据上表现欠佳。

使用三个通用大模型和三个安全卫士模型重新评估了LLM baseline在新生成安全合规数据上的表现。

大多数模型均呈现较低性能，这凸显了该领域仍需进一步提升的必要性。

总结

研究人员从安全合规的视角重新审视大语言模型安全问题。

以《欧盟人工智能法案》(EU AI Act) 和《通用数据保护条例》(GDPR) 视为LLM安全的黄金标准，重新构筑LLM安全的范式。

基于这一理念，以法律条文构建benchmark数据，采用GRPO方法在新数据上训练出更加安全合规的推理模型，并将既有安全数据有效对齐至合规数据领域。

研究人员呼吁LLM安全社区的研究者们一起关注安全合规这一治理LLM安全的新方向。

参考资料：

https://arxiv.org/pdf/2509.22250

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
为什么科技行业越繁荣，岗位越少？

钛媒体APP 2026-05-27 21:44:33
0 跟贴 0

Meta开启“付费时代”：AI聊天机器人、社交流量全装进订阅服务

财联社 2026-05-28 05:02:08
0 跟贴 0

郑毓煌：在学术界，这些都是公开的规则！

ConfusionMax 2026-05-26 11:15:46
1775 跟贴 1775
广东医生研发AI模型，力争破解胎儿缺氧预测难题

南方都市报 2026-05-25 18:15:13
3 跟贴 3

南外仙林学子陈一晧：那个用表格管预算的初中生，后来去了港科大

937江苏新闻广播 2026-05-26 12:08:49
0 跟贴 0

媒体：40℃的高温天气鲁比奥在印度听到一个炸裂消息

新民周刊 2026-05-27 09:08:54
3371 跟贴 3371
AI估值再强，缺了40年建筑成本史就是白搭

硅屿手记 2026-05-28 04:29:28
0 跟贴 0

比不过又想改规则，张雪机车成了其他品牌眼中钉，奈何实力不允许

今天吃几碗 2026-05-25 11:35:32
2 跟贴 2
C罗哭了，但数据太吓人了

陌生的你我 2026-05-27 05:42:54
25 跟贴 25
西班牙极致传控体系大战德国青春风暴 2010世界杯半决赛普约尔头球一锤定音

我们的足球记忆 2026-05-26 01:48:32
1 跟贴 1
柯文哲威胁瘫痪大陆反被判17年成国际笑话

与你挽月色清 2026-05-28 05:16:51
0 跟贴 0
武契奇夫人到上海轻纺面料市场定制西服，老板娘：我们用英语交流，她点名要用国产羊毛

潇湘晨报 2026-05-27 18:52:24
595 跟贴 595
什么样的机制可以让别人都为之疯狂，看完你就知道了

人间闲散客 2026-05-26 18:32:45
0 跟贴 0
59岁“高考钉子户”梁实宣布参加第30次高考，不相信自己永远考不上大学：状态很好，感觉乱考都能上550分

浙江之声 2026-05-27 08:14:58
2049 跟贴 2049
余华自嘲自己是"草台班子" 张雪机车霸气回复

看看新闻Knews 2026-05-27 13:22:23
1737 跟贴 1737
当地山姆超市回应女子拿多个大桶接自助饮料，看到的话会制止会让人加强巡视

荔枝新闻 2026-05-28 05:41:40
565 跟贴 565
NASA宣布全新登月任务：这一次我们将留下来

澎湃新闻 2026-05-27 10:28:26
1296 跟贴 1296
X生活和直接嘴嘴区别太大了，怪不得嘴嘴数据再攀升，这几点重要

蓝精灵搞笑 2026-05-27 12:54:35
9 跟贴 9
“晾了三天，终于臭了”！不少浙江人连夜抢购，已卖爆

浙江之声 2026-05-27 08:15:16
176 跟贴 176
中国石油长庆油田采油三厂：筑牢安全防线护航生产攻坚

西北信息报 2026-05-27 17:28:04
0 跟贴 0
800台服务器查封牵出俄黑客换壳术

摸鱼算法 2026-05-28 04:10:27
0 跟贴 0
“网络仍未连接”：伊朗88天断网开始恢复，流量仍不到五成

Ping值焦虑 2026-05-28 03:43:36
0 跟贴 0
央视曝光：境外间谍在涉外谈判中，入侵控制我方联网计算机，暗中启动摄像头麦克风，对我内部讨论全程监视，预先掌握谈判底线

现代快报 2026-05-27 08:29:39
49 跟贴 49
因为抑郁荒废了太多时间，怎么办?

北京心之爱心理咨询 2026-05-27 12:20:25
0 跟贴 0
每秒可击落30多只蚊子众筹超250万美元中国造“激光灭蚊神器”海外爆单

封面新闻 2026-05-27 15:24:09
11 跟贴 11
王皓这次调任，到底合不合规？

火火小红帽 2026-05-27 18:45:47
0 跟贴 0
前4月全国规模以上工业企业利润增长18.2%

国家统计局 2026-05-27 09:35:44
807 跟贴 807
东风着陆场完成全系统综合演练迎神二十一航天员回家

新华社 2026-05-27 22:12:03
153 跟贴 153
武汉街头涌现大量蘑菇，提醒：不要碰、不要吃

极目新闻 2026-05-27 11:18:04
58 跟贴 58
安卓车载系统总断连？问题可能出在车里

赛博兰博 2026-05-25 01:59:12
0 跟贴 0
NBA｜亚历山大单场17次罚球！雷霆胜马刺夺下西决天王山

澎湃新闻 2026-05-27 11:28:43
154 跟贴 154
广州构建全链条耕地长效保护机制

金台资讯 2026-05-27 09:03:43
0 跟贴 0
外卖骑手几乎全员弃用新国标车，限速25km/h的“安全”值得吗？

电动车的那些事儿 2026-05-28 07:55:08
0 跟贴 0
知名投资人段永平成为泡泡玛特第二大股东

证券时报 2026-05-27 20:32:03
109 跟贴 109
新红旗HQ9上市，以“安全+全能”宣告35万级MPV的正确之选

新浪财经 2026-05-27 23:12:35
0 跟贴 0
古巴外长呼吁全球声援古巴外交部：坚定支持

澎湃新闻 2026-05-27 15:22:26
22 跟贴 22
河南一男子钓到鱼妈妈，见幼鱼紧跟不愿离开果断放生，“自己钓了十几年，很少见”

潇湘晨报 2026-05-27 22:25:19
41 跟贴 41
王毅在联合国谈伊朗问题谈航道和核问题亮明中方态度

台海青年 2026-05-27 09:57:16
0 跟贴 0
武汉一男子给图书馆安装玻璃坠亡：死者为外聘劳务工未取得特种作业操作证，未严格执行安全规范

潇湘晨报 2026-05-27 10:49:33
1 跟贴 1

57岁大妈做饭爱加蚝油，2年后去医院体检，医生疑惑平时咋吃的？

57岁大妈做饭爱加蚝油，2年后去医院体检，医生疑惑平时咋吃的？

芹姐说生活

2026-05-27 22:40:29

来自东北的雪白短发人妻，月神花梨E罩杯惊艳亮相

来自东北的雪白短发人妻，月神花梨E罩杯惊艳亮相

吃瓜党二号头目

2026-05-27 10:41:51

皇马有救了！莫德里奇或重返伯纳乌！穆里尼奥亲自请回金球传奇

皇马有救了！莫德里奇或重返伯纳乌！穆里尼奥亲自请回金球传奇

澜归序

2026-05-28 04:47:48

盒马“粉木耳”标签惹众怒！连夜道歉全部下架，网友：太恶心了！

盒马“粉木耳”标签惹众怒！连夜道歉全部下架，网友：太恶心了！

今朝牛马

2026-05-26 20:26:53

拒绝听命特朗普，美联储新主席立誓，对华立场曝光，中方再抛美债

拒绝听命特朗普，美联储新主席立誓，对华立场曝光，中方再抛美债

纪中百大事

2026-05-27 09:42:32

朱婷没想到，和75岁老公国外养老的郎平，已走上另一条“上坡路

朱婷没想到，和75岁老公国外养老的郎平，已走上另一条“上坡路

科学发掘

2026-05-27 15:25:11

你从哪一刻认识到天赋的可怕？网友破防：那天我被秒的渣都不剩

你从哪一刻认识到天赋的可怕？网友破防：那天我被秒的渣都不剩

特约前排观众

2025-08-06 06:49:56

苏通大桥上海方向已经封闭了

南通濠生活

2026-05-27 17:32:42

男子将窗帘系在身上从六层下落，窗帘断裂后坠亡保险公司被判赔保险金10万余元

男子将窗帘系在身上从六层下落，窗帘断裂后坠亡保险公司被判赔保险金10万余元

红星新闻

2026-05-27 20:17:40

一集三场床戏，这部成人新剧太羞耻了

一集三场床戏，这部成人新剧太羞耻了

来看美剧

2026-05-25 22:31:43

《亢奋》女主全裸出镜，与巨星之子上演大尺度戏码

《亢奋》女主全裸出镜，与巨星之子上演大尺度戏码

赴一场山海啊

2026-05-26 00:33:31

两省政府领导班子调整，“70后”马正勇跨省履新

两省政府领导班子调整，“70后”马正勇跨省履新

上观新闻

2026-05-27 11:18:21

女大学生宿舍试穿抹胸裙走红，曼妙身材圈粉无数，露脸后却遭恶评

女大学生宿舍试穿抹胸裙走红，曼妙身材圈粉无数，露脸后却遭恶评

捣蛋窝

2026-05-21 06:40:07

哈登比韦德还厉害？贝弗利：我要收回这个观点，我看起来就是傻子

哈登比韦德还厉害？贝弗利：我要收回这个观点，我看起来就是傻子

爱体育

2026-05-27 23:06:40

董明珠回应“不用海归派”言论：本意不是说“海归派”不好，坚信中国高校能培养出世界级的优秀人才

董明珠回应“不用海归派”言论：本意不是说“海归派”不好，坚信中国高校能培养出世界级的优秀人才

每日经济新闻

2026-05-27 23:38:01

中国工厂不藏了：6秒视频“拯救”美国女孩

中国工厂不藏了：6秒视频“拯救”美国女孩

中国新闻周刊

2026-05-28 07:29:07

山西沁水公告：鼓励全社会举报煤矿领域严重违法行为，查实存在隐蔽工作面的奖200万，监控系统造假的奖50万，违规转包分包的奖50万

山西沁水公告：鼓励全社会举报煤矿领域严重违法行为，查实存在隐蔽工作面的奖200万，监控系统造假的奖50万，违规转包分包的奖50万

极目新闻

2026-05-27 14:01:22

中科院计算机网络信息中心原主任阎保平辞世，曾在国内首提e-Science理念

中科院计算机网络信息中心原主任阎保平辞世，曾在国内首提e-Science理念

澎湃新闻

2026-05-27 23:14:26

俄罗斯向全球发出警告，一大批高端杀器，正往中国周边快速猛扑

俄罗斯向全球发出警告，一大批高端杀器，正往中国周边快速猛扑

梦想的现实

2026-05-28 03:53:09

赔了夫人又折兵！本想成为第二个黄圣依，没想到杨子家族被严查

赔了夫人又折兵！本想成为第二个黄圣依，没想到杨子家族被严查

小椰的奶奶

2026-05-28 07:14:27

AI产业主平台领航智能+时代

15321文章数 66892关注度

往期回顾全部

科技要闻

Meta首推AI付费服务股价应声涨超3.7%

头条要闻

媒体：日本情报体系迎来根本性重构威胁的不止东亚

头条要闻

媒体：日本情报体系迎来根本性重构威胁的不止东亚

体育要闻

这群老阿姨，是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

家居

房产

手机

健康

教育要闻

滇西科技师范学院：值得填报吗？热门专业就业现状及报考分析#搜索千校视频计划

家居要闻

古老而持久石影扶手椅

房产要闻

合生创展前总裁被查！直指房企违规放贷、利益输送等问题

手机要闻

苹果首款折叠屏iPhone保护壳曝光设计细节进一步明朗

打外泌体会比干细胞更安全吗

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版