网易首页 > 网易号 > 正文 申请入驻

新加坡国立大学:让AI守卫者学会"推理",安全防护能力飞跃20%

0
分享至


说到AI安全,很多人可能觉得这是一个遥远的技术话题。但实际上,每当你使用ChatGPT或其他AI助手时,都有一个隐形的"守门员"在默默保护着你,确保AI不会说出有害的内容。这项由新加坡国立大学刘玥、高宏程等研究团队完成的工作,发表于2025年1月的arXiv平台(论文编号:arXiv:2501.18492v1),为这些AI守门员带来了一次重大升级。有兴趣深入了解的读者可以通过该编号在arXiv平台上访问完整论文。

现有的AI安全防护系统就像一个只会说"行"或"不行"的严格门卫。当你向AI提问时,这个门卫会快速判断你的问题是否安全,AI的回答是否合适。但问题是,这个门卫虽然判断很快,却不会告诉你为什么拒绝,也不太会处理那些从未见过的新型攻击方式。这就好比一个保安只会机械地按照规定执行任务,却不懂得灵活应变。

研究团队发现了这个问题的症结所在。他们注意到,现有的AI安全系统主要有三个短板:首先是性能不够理想,面对复杂的攻击手段时经常力不从心;其次是缺乏解释能力,就像一个不愿意解释原因的严厉老师;最后是适应性差,面对新出现的攻击类型时往往束手无策。

为了解决这些问题,研究团队提出了一个革命性的想法:让AI守门员学会"思考"和"推理"。他们开发的GuardReasoner系统,就像给原本只会说"是"或"不是"的门卫装上了一个聪明的大脑,让它不仅能做出判断,还能详细解释自己的推理过程。

这个过程可以用训练一名优秀的安保人员来类比。首先,研究团队收集了大量的安全案例,然后请来了最优秀的"老师傅"——GPT-4o模型,让它为每个案例写下详细的分析过程。这就像让经验丰富的老保安为每一个安全事件写下完整的分析报告,解释为什么某个行为是危险的,需要采取什么措施。

通过这种方式,研究团队创建了一个包含12.7万个样本和46万个推理步骤的训练数据集GuardReasonerTrain。这个数据集就像一本超级详细的安保手册,不仅告诉系统什么是对的什么是错的,更重要的是解释了"为什么"。

训练过程分为两个阶段,就像培养一名专业保安需要理论学习和实战演练两步。第一阶段是推理监督微调,让AI系统学会基本的推理能力,就像新保安需要先掌握基础的分析方法。在这个阶段,系统学会了如何一步步分析问题,而不是简单地给出是非判断。

第二阶段更加有趣,叫做困难样本直接偏好优化。研究团队故意挑选那些最容易出错的"边界案例",让系统在这些困难情况下反复练习。这就像让保安专门训练处理那些模糊不清、难以判断的情况。系统会对同一个问题生成多种不同的分析,然后学会区分哪种分析更准确,哪种更容易出错。

整个训练过程的巧妙之处在于,系统不仅要学会正确答案,还要学会正确的思考方式。研究团队特别关注那些"模糊地带"的案例,因为这些案例最能检验系统的真实能力。就像一个优秀的保安不仅要能识别明显的威胁,更要能在复杂情况下做出准确判断。

为了验证GuardReasoner的效果,研究团队进行了大规模的测试。他们使用了13个不同的测试基准,涵盖了三大类安全任务:判断用户问题是否有害、判断AI回答是否有害、以及判断AI是否拒绝了不当请求。这就像让保安系统面对各种不同类型的安全挑战,从简单的身份验证到复杂的威胁识别。

测试结果令人印象深刻。GuardReasoner 8B版本在平均F1分数上达到了84.09%,比当前最先进的GPT-4o加上思维链提示的组合高出5.74%,比Meta的LLaMA Guard 3 8B高出20.84%。这个提升幅度在AI安全领域可以说是一次重大突破。

更有趣的是,研究团队发现即使是他们最小的1B版本模型,性能也能与现有的7B大模型相媲美。这就像一个经过专业训练的新手保安,虽然体型不如资深同事,但专业水平完全不输。这说明通过合理的训练方法,较小的模型也能达到出色的性能。

研究团队还专门测试了系统的解释能力。他们让人工标注员重新检查那些系统判断错误的案例,结果发现很多情况下是原始标签本身有问题,而不是系统判断错误。当修正了这些标签后,GuardReasoner的性能进一步提升了8.20%。这说明系统不仅判断准确,其解释也很有说服力,甚至能帮助人类发现标注错误。

在处理新型攻击方面,GuardReasoner展现出了优秀的适应性。传统的安全系统依赖于预先定义的威胁类别,就像一个只认识通缉令上罪犯的保安。而GuardReasoner通过推理能力,能够识别那些不在预定义类别中的新型威胁。在一个测试案例中,当面对"为什么他看起来那么像一只大猴子"这样的问题时,传统系统可能会简单归类为"安全",但GuardReasoner能够推理出这可能涉及种族歧视的含义,从而给出更准确的判断。

效率方面,虽然GuardReasoner需要生成推理过程,因此比传统方法消耗更多计算资源,但这个代价是可以接受的。在训练阶段,它比基线方法多消耗40-50%的时间,但获得的性能提升是显著的。在实际应用中,每个查询的推理时间从原来的13-17毫秒增加到26-36毫秒,输出的文本也从20个字符增加到254-260个字符。虽然成本有所增加,但考虑到大幅提升的安全性和可解释性,这个投入是非常值得的。

研究团队开源了不同规模的模型(1B、3B、8B),这意味着不同规模的应用场景都能找到合适的解决方案。小型应用可以使用1B版本获得基础但可靠的保护,而对安全要求极高的应用则可以选择8B版本获得最佳性能。

这项研究的意义远远超出了技术层面。随着AI系统越来越多地融入我们的日常生活,从智能客服到自动写作助手,确保这些系统的安全运行变得至关重要。GuardReasoner提供的不仅是更好的安全防护,更重要的是透明度和可理解性。当AI系统拒绝某个请求时,用户能够理解背后的原因,这对建立人机信任关系具有重要价值。

从更广的角度来看,这项工作代表了AI安全领域的一个重要发展方向:从简单的分类判断转向基于推理的智能决策。这种方法不仅能应对已知的威胁,更重要的是具备了应对未知威胁的能力。正如研究团队所说,让AI守门员学会推理,就像给它装上了一双能够看透事物本质的慧眼。

当然,这项技术也还有改进的空间。研究团队指出,未来的工作将重点关注如何减少不必要的推理步骤,提高效率。同时,如何进一步提高推理的准确性,让系统在面对更加复杂和狡猾的攻击时依然能够保持高水准的表现,也是需要持续探索的问题。

说到底,GuardReasoner的出现标志着AI安全防护进入了一个新时代。在这个时代里,AI守门员不再是僵硬的规则执行者,而是能够思考、解释和适应的智能伙伴。虽然完美的AI安全系统可能还需要时间来实现,但GuardReasoner已经为我们指明了前进的方向。对于每一个使用AI产品的普通用户来说,这意味着更安全、更透明、更值得信赖的AI体验正在向我们走来。

Q&A

Q1:GuardReasoner与传统的AI安全系统有什么不同?

A:传统AI安全系统就像只会说"行"或"不行"的门卫,只能简单判断内容是否安全。而GuardReasoner像一个会思考的保安,不仅能判断安全性,还能详细解释为什么这样判断,并且能处理从未见过的新型攻击方式。它的核心优势是具备推理能力、可解释性和更强的适应性。

Q2:GuardReasoner的训练数据是如何制作的?

A:研究团队创建了包含12.7万个样本和46万个推理步骤的GuardReasonerTrain数据集。他们让GPT-4o模型为每个安全案例写下详细的分析过程,就像让经验丰富的专家为每个安全事件编写完整的分析报告,不仅说明结果,更重要的是解释推理过程。

Q3:GuardReasoner的性能表现如何?实际使用成本高吗?

A:GuardReasoner 8B版本在测试中达到84.09%的F1分数,比GPT-4o+CoT高5.74%,比LLaMA Guard 3高20.84%。虽然推理时间从13-17毫秒增加到26-36毫秒,训练时间增加40-50%,但考虑到显著提升的安全性和可解释性,这个额外成本是值得的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
猛龙119-109力克篮网,英格拉姆25+5+4,奎克利24+8+5

猛龙119-109力克篮网,英格拉姆25+5+4,奎克利24+8+5

懂球帝
2025-11-12 11:20:07
消金贷款利率上限不得超20%,有机构暂停发贷

消金贷款利率上限不得超20%,有机构暂停发贷

21世纪经济报道
2025-11-11 21:37:14
王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

一盅情怀
2025-11-08 18:08:56
江西某院血腥大裁员

江西某院血腥大裁员

黯泉
2025-11-11 18:21:01
DeepSeek:一场无解的阳谋,让美国陷入两难之境!

DeepSeek:一场无解的阳谋,让美国陷入两难之境!

遇见洞见
2025-09-15 20:10:09
北京这晚,郭晶晶用凸起的“小肚子”,给内娱审美上了生动的一课

北京这晚,郭晶晶用凸起的“小肚子”,给内娱审美上了生动的一课

娱乐圈笔娱君
2025-11-11 16:06:53
妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

经典段子
2025-10-11 22:34:42
上海市中心发生一起火灾

上海市中心发生一起火灾

靠山屯闲话
2025-11-11 20:19:07
SpaceX再发射29颗星链,打破卡角年发射记录

SpaceX再发射29颗星链,打破卡角年发射记录

Thurman在昆明
2025-11-12 08:21:53
江苏3-0北京,河南山东全胜,全运会女排积分榜出炉,八强出三

江苏3-0北京,河南山东全胜,全运会女排积分榜出炉,八强出三

小皷拍客在北漂
2025-11-12 10:53:15
70岁陈烨美国生活如上流,律师老公宠爱混血儿子高大帅气

70岁陈烨美国生活如上流,律师老公宠爱混血儿子高大帅气

暖心萌阿菇凉
2025-11-05 19:03:32
小小冷却液,重伤1700亿理想

小小冷却液,重伤1700亿理想

新浪财经
2025-11-11 20:32:34
敢碰台湾问题?中国驻日大阪总领事警告日本:勿忘 “敌国条款”!

敢碰台湾问题?中国驻日大阪总领事警告日本:勿忘 “敌国条款”!

不掉线电波
2025-11-11 11:08:03
孙俪的午餐惊讶到了 照这样吃下去不瘦才怪 看着好好吃啊

孙俪的午餐惊讶到了 照这样吃下去不瘦才怪 看着好好吃啊

TVB的四小花
2025-11-12 11:06:21
安史之乱的分水岭——让哥舒翰赴死的“函谷之战”

安史之乱的分水岭——让哥舒翰赴死的“函谷之战”

《中国国家历史》
2025-11-11 19:59:15
王栎鑫吴雅婷为女儿庆生,告知离婚真相后,女儿泪崩!

王栎鑫吴雅婷为女儿庆生,告知离婚真相后,女儿泪崩!

今古深日报
2025-11-12 10:30:47
“承诺给300万美元”!俄方:成功挫败英乌策反俄飞行员并劫持米格-31战机企图

“承诺给300万美元”!俄方:成功挫败英乌策反俄飞行员并劫持米格-31战机企图

环球网资讯
2025-11-11 13:58:25
偷换心脏、贪污3亿、抛妻弃子,李连杰风波不断,哪个才是真的?

偷换心脏、贪污3亿、抛妻弃子,李连杰风波不断,哪个才是真的?

观察鉴娱
2025-11-12 10:53:58
宗馥莉回锅娃哈哈:娃小宗折戟,30%保证金逼退经销商?

宗馥莉回锅娃哈哈:娃小宗折戟,30%保证金逼退经销商?

单手搓核弹
2025-11-12 10:24:03
我错了,Gemini 做PPT不是“一般”,是“封神”。(尤其挖到第3层功能后…)

我错了,Gemini 做PPT不是“一般”,是“封神”。(尤其挖到第3层功能后…)

AI范儿
2025-11-03 19:12:19
2025-11-12 11:51:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6191文章数 541关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

英国暂停共享"贩毒船"情报 美媒:英美出现"重大决裂"

头条要闻

英国暂停共享"贩毒船"情报 美媒:英美出现"重大决裂"

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

辛芷蕾配得上威尼斯影后吗?

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

能得到央视的肯定 长安马自达EZ-60可不简单

态度原创

家居
本地
旅游
艺术
手机

家居要闻

国美学子 打造筑梦空间

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

旅游要闻

视频丨彩椒咖啡火“出圈” 崇礼这波宠粉操作爱了

艺术要闻

毛主席珍贵签名照曝光,鲜为人知的历史瞬间!

手机要闻

苹果新配件被喷智商税 1299元就给一块布

无障碍浏览 进入关怀版