网易首页 > 网易号 > 正文 申请入驻

新加坡国立大学:让AI守卫者学会"推理",安全防护能力飞跃20%

0
分享至


说到AI安全,很多人可能觉得这是一个遥远的技术话题。但实际上,每当你使用ChatGPT或其他AI助手时,都有一个隐形的"守门员"在默默保护着你,确保AI不会说出有害的内容。这项由新加坡国立大学刘玥、高宏程等研究团队完成的工作,发表于2025年1月的arXiv平台(论文编号:arXiv:2501.18492v1),为这些AI守门员带来了一次重大升级。有兴趣深入了解的读者可以通过该编号在arXiv平台上访问完整论文。

现有的AI安全防护系统就像一个只会说"行"或"不行"的严格门卫。当你向AI提问时,这个门卫会快速判断你的问题是否安全,AI的回答是否合适。但问题是,这个门卫虽然判断很快,却不会告诉你为什么拒绝,也不太会处理那些从未见过的新型攻击方式。这就好比一个保安只会机械地按照规定执行任务,却不懂得灵活应变。

研究团队发现了这个问题的症结所在。他们注意到,现有的AI安全系统主要有三个短板:首先是性能不够理想,面对复杂的攻击手段时经常力不从心;其次是缺乏解释能力,就像一个不愿意解释原因的严厉老师;最后是适应性差,面对新出现的攻击类型时往往束手无策。

为了解决这些问题,研究团队提出了一个革命性的想法:让AI守门员学会"思考"和"推理"。他们开发的GuardReasoner系统,就像给原本只会说"是"或"不是"的门卫装上了一个聪明的大脑,让它不仅能做出判断,还能详细解释自己的推理过程。

这个过程可以用训练一名优秀的安保人员来类比。首先,研究团队收集了大量的安全案例,然后请来了最优秀的"老师傅"——GPT-4o模型,让它为每个案例写下详细的分析过程。这就像让经验丰富的老保安为每一个安全事件写下完整的分析报告,解释为什么某个行为是危险的,需要采取什么措施。

通过这种方式,研究团队创建了一个包含12.7万个样本和46万个推理步骤的训练数据集GuardReasonerTrain。这个数据集就像一本超级详细的安保手册,不仅告诉系统什么是对的什么是错的,更重要的是解释了"为什么"。

训练过程分为两个阶段,就像培养一名专业保安需要理论学习和实战演练两步。第一阶段是推理监督微调,让AI系统学会基本的推理能力,就像新保安需要先掌握基础的分析方法。在这个阶段,系统学会了如何一步步分析问题,而不是简单地给出是非判断。

第二阶段更加有趣,叫做困难样本直接偏好优化。研究团队故意挑选那些最容易出错的"边界案例",让系统在这些困难情况下反复练习。这就像让保安专门训练处理那些模糊不清、难以判断的情况。系统会对同一个问题生成多种不同的分析,然后学会区分哪种分析更准确,哪种更容易出错。

整个训练过程的巧妙之处在于,系统不仅要学会正确答案,还要学会正确的思考方式。研究团队特别关注那些"模糊地带"的案例,因为这些案例最能检验系统的真实能力。就像一个优秀的保安不仅要能识别明显的威胁,更要能在复杂情况下做出准确判断。

为了验证GuardReasoner的效果,研究团队进行了大规模的测试。他们使用了13个不同的测试基准,涵盖了三大类安全任务:判断用户问题是否有害、判断AI回答是否有害、以及判断AI是否拒绝了不当请求。这就像让保安系统面对各种不同类型的安全挑战,从简单的身份验证到复杂的威胁识别。

测试结果令人印象深刻。GuardReasoner 8B版本在平均F1分数上达到了84.09%,比当前最先进的GPT-4o加上思维链提示的组合高出5.74%,比Meta的LLaMA Guard 3 8B高出20.84%。这个提升幅度在AI安全领域可以说是一次重大突破。

更有趣的是,研究团队发现即使是他们最小的1B版本模型,性能也能与现有的7B大模型相媲美。这就像一个经过专业训练的新手保安,虽然体型不如资深同事,但专业水平完全不输。这说明通过合理的训练方法,较小的模型也能达到出色的性能。

研究团队还专门测试了系统的解释能力。他们让人工标注员重新检查那些系统判断错误的案例,结果发现很多情况下是原始标签本身有问题,而不是系统判断错误。当修正了这些标签后,GuardReasoner的性能进一步提升了8.20%。这说明系统不仅判断准确,其解释也很有说服力,甚至能帮助人类发现标注错误。

在处理新型攻击方面,GuardReasoner展现出了优秀的适应性。传统的安全系统依赖于预先定义的威胁类别,就像一个只认识通缉令上罪犯的保安。而GuardReasoner通过推理能力,能够识别那些不在预定义类别中的新型威胁。在一个测试案例中,当面对"为什么他看起来那么像一只大猴子"这样的问题时,传统系统可能会简单归类为"安全",但GuardReasoner能够推理出这可能涉及种族歧视的含义,从而给出更准确的判断。

效率方面,虽然GuardReasoner需要生成推理过程,因此比传统方法消耗更多计算资源,但这个代价是可以接受的。在训练阶段,它比基线方法多消耗40-50%的时间,但获得的性能提升是显著的。在实际应用中,每个查询的推理时间从原来的13-17毫秒增加到26-36毫秒,输出的文本也从20个字符增加到254-260个字符。虽然成本有所增加,但考虑到大幅提升的安全性和可解释性,这个投入是非常值得的。

研究团队开源了不同规模的模型(1B、3B、8B),这意味着不同规模的应用场景都能找到合适的解决方案。小型应用可以使用1B版本获得基础但可靠的保护,而对安全要求极高的应用则可以选择8B版本获得最佳性能。

这项研究的意义远远超出了技术层面。随着AI系统越来越多地融入我们的日常生活,从智能客服到自动写作助手,确保这些系统的安全运行变得至关重要。GuardReasoner提供的不仅是更好的安全防护,更重要的是透明度和可理解性。当AI系统拒绝某个请求时,用户能够理解背后的原因,这对建立人机信任关系具有重要价值。

从更广的角度来看,这项工作代表了AI安全领域的一个重要发展方向:从简单的分类判断转向基于推理的智能决策。这种方法不仅能应对已知的威胁,更重要的是具备了应对未知威胁的能力。正如研究团队所说,让AI守门员学会推理,就像给它装上了一双能够看透事物本质的慧眼。

当然,这项技术也还有改进的空间。研究团队指出,未来的工作将重点关注如何减少不必要的推理步骤,提高效率。同时,如何进一步提高推理的准确性,让系统在面对更加复杂和狡猾的攻击时依然能够保持高水准的表现,也是需要持续探索的问题。

说到底,GuardReasoner的出现标志着AI安全防护进入了一个新时代。在这个时代里,AI守门员不再是僵硬的规则执行者,而是能够思考、解释和适应的智能伙伴。虽然完美的AI安全系统可能还需要时间来实现,但GuardReasoner已经为我们指明了前进的方向。对于每一个使用AI产品的普通用户来说,这意味着更安全、更透明、更值得信赖的AI体验正在向我们走来。

Q&A

Q1:GuardReasoner与传统的AI安全系统有什么不同?

A:传统AI安全系统就像只会说"行"或"不行"的门卫,只能简单判断内容是否安全。而GuardReasoner像一个会思考的保安,不仅能判断安全性,还能详细解释为什么这样判断,并且能处理从未见过的新型攻击方式。它的核心优势是具备推理能力、可解释性和更强的适应性。

Q2:GuardReasoner的训练数据是如何制作的?

A:研究团队创建了包含12.7万个样本和46万个推理步骤的GuardReasonerTrain数据集。他们让GPT-4o模型为每个安全案例写下详细的分析过程,就像让经验丰富的专家为每个安全事件编写完整的分析报告,不仅说明结果,更重要的是解释推理过程。

Q3:GuardReasoner的性能表现如何?实际使用成本高吗?

A:GuardReasoner 8B版本在测试中达到84.09%的F1分数,比GPT-4o+CoT高5.74%,比LLaMA Guard 3高20.84%。虽然推理时间从13-17毫秒增加到26-36毫秒,训练时间增加40-50%,但考虑到显著提升的安全性和可解释性,这个额外成本是值得的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我肺结节变微浸润癌,术后疼到下不了床!没想到一月后就满血复活

我肺结节变微浸润癌,术后疼到下不了床!没想到一月后就满血复活

健身狂人
2026-03-01 07:57:45
沃顿:外界说我要去曼联目前都是传闻,我现在不会想夏天的事

沃顿:外界说我要去曼联目前都是传闻,我现在不会想夏天的事

懂球帝
2026-03-02 05:01:43
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
伊朗为什么不学泽连斯基给民众发枪?

伊朗为什么不学泽连斯基给民众发枪?

昊轩看世界
2026-03-01 11:02:14
一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

百态人间
2026-02-05 15:39:14
近期散播大量不实指控,美国要在伊朗重演“伊拉克剧本”?

近期散播大量不实指控,美国要在伊朗重演“伊拉克剧本”?

齐鲁壹点
2026-02-28 09:32:02
香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

读懂世界历史
2026-02-12 21:48:53
国际知名品牌宣布:关闭中国市场所有门店

国际知名品牌宣布:关闭中国市场所有门店

新快报新闻
2026-02-28 15:35:04
贾宝玉大婚当晚,北静王抱起病榻上的黛玉:本王来接王妃回家

贾宝玉大婚当晚,北静王抱起病榻上的黛玉:本王来接王妃回家

千秋文化
2026-02-01 20:20:51
哈梅内伊之死成“遇害”,哈尼亚死后页面变黑白,异国孝行感天地

哈梅内伊之死成“遇害”,哈尼亚死后页面变黑白,异国孝行感天地

山间听雨
2026-03-01 20:59:10
伊朗外交部发言人称伊朗最高领袖和总统“安然无恙”

伊朗外交部发言人称伊朗最高领袖和总统“安然无恙”

澎湃新闻
2026-03-01 05:25:03
伊朗博主评价中国年轻人:好战有点愚蠢!

伊朗博主评价中国年轻人:好战有点愚蠢!

达文西看世界
2026-02-23 15:26:47
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
我们瞧不起漂亮国也不是一天两天了

我们瞧不起漂亮国也不是一天两天了

霹雳炮
2026-02-08 22:17:59
超级杯大战!斯卢茨基也是刺探军情!北京国安气势 申花能守住吗

超级杯大战!斯卢茨基也是刺探军情!北京国安气势 申花能守住吗

80后体育大蜀黍
2026-03-01 23:41:10
大多数上海老人退休金并不高,主要表现是在68岁到80岁...

大多数上海老人退休金并不高,主要表现是在68岁到80岁...

白浅娱乐聊
2026-02-18 17:18:38
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
战争开打!川普大失所望,中国连发三条通告,赢家已经浮出水面!

战争开打!川普大失所望,中国连发三条通告,赢家已经浮出水面!

用冷眼洞悉世界
2026-03-02 04:32:54
550万一张机票,携程在发战争财?

550万一张机票,携程在发战争财?

不正确
2026-03-01 14:53:30
持绿卡机场入境遭拦截案例明显增加!有人进小黑屋、有人被要求放弃绿卡

持绿卡机场入境遭拦截案例明显增加!有人进小黑屋、有人被要求放弃绿卡

纽约时间
2026-03-01 04:43:27
2026-03-02 05:35:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7389文章数 553关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

房产
家居
艺术
健康
军事航空

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

家居要闻

素色肌理 品意式格调

艺术要闻

看!这位伊朗超模如何颠覆你的美丽认知!

转头就晕的耳石症,能开车上班吗?

军事要闻

伊朗前总统内贾德遇袭身亡

无障碍浏览 进入关怀版