网易首页 > 网易号 > 正文 申请入驻

新加坡国立大学:让AI守卫者学会"推理",安全防护能力飞跃20%

0
分享至


说到AI安全,很多人可能觉得这是一个遥远的技术话题。但实际上,每当你使用ChatGPT或其他AI助手时,都有一个隐形的"守门员"在默默保护着你,确保AI不会说出有害的内容。这项由新加坡国立大学刘玥、高宏程等研究团队完成的工作,发表于2025年1月的arXiv平台(论文编号:arXiv:2501.18492v1),为这些AI守门员带来了一次重大升级。有兴趣深入了解的读者可以通过该编号在arXiv平台上访问完整论文。

现有的AI安全防护系统就像一个只会说"行"或"不行"的严格门卫。当你向AI提问时,这个门卫会快速判断你的问题是否安全,AI的回答是否合适。但问题是,这个门卫虽然判断很快,却不会告诉你为什么拒绝,也不太会处理那些从未见过的新型攻击方式。这就好比一个保安只会机械地按照规定执行任务,却不懂得灵活应变。

研究团队发现了这个问题的症结所在。他们注意到,现有的AI安全系统主要有三个短板:首先是性能不够理想,面对复杂的攻击手段时经常力不从心;其次是缺乏解释能力,就像一个不愿意解释原因的严厉老师;最后是适应性差,面对新出现的攻击类型时往往束手无策。

为了解决这些问题,研究团队提出了一个革命性的想法:让AI守门员学会"思考"和"推理"。他们开发的GuardReasoner系统,就像给原本只会说"是"或"不是"的门卫装上了一个聪明的大脑,让它不仅能做出判断,还能详细解释自己的推理过程。

这个过程可以用训练一名优秀的安保人员来类比。首先,研究团队收集了大量的安全案例,然后请来了最优秀的"老师傅"——GPT-4o模型,让它为每个案例写下详细的分析过程。这就像让经验丰富的老保安为每一个安全事件写下完整的分析报告,解释为什么某个行为是危险的,需要采取什么措施。

通过这种方式,研究团队创建了一个包含12.7万个样本和46万个推理步骤的训练数据集GuardReasonerTrain。这个数据集就像一本超级详细的安保手册,不仅告诉系统什么是对的什么是错的,更重要的是解释了"为什么"。

训练过程分为两个阶段,就像培养一名专业保安需要理论学习和实战演练两步。第一阶段是推理监督微调,让AI系统学会基本的推理能力,就像新保安需要先掌握基础的分析方法。在这个阶段,系统学会了如何一步步分析问题,而不是简单地给出是非判断。

第二阶段更加有趣,叫做困难样本直接偏好优化。研究团队故意挑选那些最容易出错的"边界案例",让系统在这些困难情况下反复练习。这就像让保安专门训练处理那些模糊不清、难以判断的情况。系统会对同一个问题生成多种不同的分析,然后学会区分哪种分析更准确,哪种更容易出错。

整个训练过程的巧妙之处在于,系统不仅要学会正确答案,还要学会正确的思考方式。研究团队特别关注那些"模糊地带"的案例,因为这些案例最能检验系统的真实能力。就像一个优秀的保安不仅要能识别明显的威胁,更要能在复杂情况下做出准确判断。

为了验证GuardReasoner的效果,研究团队进行了大规模的测试。他们使用了13个不同的测试基准,涵盖了三大类安全任务:判断用户问题是否有害、判断AI回答是否有害、以及判断AI是否拒绝了不当请求。这就像让保安系统面对各种不同类型的安全挑战,从简单的身份验证到复杂的威胁识别。

测试结果令人印象深刻。GuardReasoner 8B版本在平均F1分数上达到了84.09%,比当前最先进的GPT-4o加上思维链提示的组合高出5.74%,比Meta的LLaMA Guard 3 8B高出20.84%。这个提升幅度在AI安全领域可以说是一次重大突破。

更有趣的是,研究团队发现即使是他们最小的1B版本模型,性能也能与现有的7B大模型相媲美。这就像一个经过专业训练的新手保安,虽然体型不如资深同事,但专业水平完全不输。这说明通过合理的训练方法,较小的模型也能达到出色的性能。

研究团队还专门测试了系统的解释能力。他们让人工标注员重新检查那些系统判断错误的案例,结果发现很多情况下是原始标签本身有问题,而不是系统判断错误。当修正了这些标签后,GuardReasoner的性能进一步提升了8.20%。这说明系统不仅判断准确,其解释也很有说服力,甚至能帮助人类发现标注错误。

在处理新型攻击方面,GuardReasoner展现出了优秀的适应性。传统的安全系统依赖于预先定义的威胁类别,就像一个只认识通缉令上罪犯的保安。而GuardReasoner通过推理能力,能够识别那些不在预定义类别中的新型威胁。在一个测试案例中,当面对"为什么他看起来那么像一只大猴子"这样的问题时,传统系统可能会简单归类为"安全",但GuardReasoner能够推理出这可能涉及种族歧视的含义,从而给出更准确的判断。

效率方面,虽然GuardReasoner需要生成推理过程,因此比传统方法消耗更多计算资源,但这个代价是可以接受的。在训练阶段,它比基线方法多消耗40-50%的时间,但获得的性能提升是显著的。在实际应用中,每个查询的推理时间从原来的13-17毫秒增加到26-36毫秒,输出的文本也从20个字符增加到254-260个字符。虽然成本有所增加,但考虑到大幅提升的安全性和可解释性,这个投入是非常值得的。

研究团队开源了不同规模的模型(1B、3B、8B),这意味着不同规模的应用场景都能找到合适的解决方案。小型应用可以使用1B版本获得基础但可靠的保护,而对安全要求极高的应用则可以选择8B版本获得最佳性能。

这项研究的意义远远超出了技术层面。随着AI系统越来越多地融入我们的日常生活,从智能客服到自动写作助手,确保这些系统的安全运行变得至关重要。GuardReasoner提供的不仅是更好的安全防护,更重要的是透明度和可理解性。当AI系统拒绝某个请求时,用户能够理解背后的原因,这对建立人机信任关系具有重要价值。

从更广的角度来看,这项工作代表了AI安全领域的一个重要发展方向:从简单的分类判断转向基于推理的智能决策。这种方法不仅能应对已知的威胁,更重要的是具备了应对未知威胁的能力。正如研究团队所说,让AI守门员学会推理,就像给它装上了一双能够看透事物本质的慧眼。

当然,这项技术也还有改进的空间。研究团队指出,未来的工作将重点关注如何减少不必要的推理步骤,提高效率。同时,如何进一步提高推理的准确性,让系统在面对更加复杂和狡猾的攻击时依然能够保持高水准的表现,也是需要持续探索的问题。

说到底,GuardReasoner的出现标志着AI安全防护进入了一个新时代。在这个时代里,AI守门员不再是僵硬的规则执行者,而是能够思考、解释和适应的智能伙伴。虽然完美的AI安全系统可能还需要时间来实现,但GuardReasoner已经为我们指明了前进的方向。对于每一个使用AI产品的普通用户来说,这意味着更安全、更透明、更值得信赖的AI体验正在向我们走来。

Q&A

Q1:GuardReasoner与传统的AI安全系统有什么不同?

A:传统AI安全系统就像只会说"行"或"不行"的门卫,只能简单判断内容是否安全。而GuardReasoner像一个会思考的保安,不仅能判断安全性,还能详细解释为什么这样判断,并且能处理从未见过的新型攻击方式。它的核心优势是具备推理能力、可解释性和更强的适应性。

Q2:GuardReasoner的训练数据是如何制作的?

A:研究团队创建了包含12.7万个样本和46万个推理步骤的GuardReasonerTrain数据集。他们让GPT-4o模型为每个安全案例写下详细的分析过程,就像让经验丰富的专家为每个安全事件编写完整的分析报告,不仅说明结果,更重要的是解释推理过程。

Q3:GuardReasoner的性能表现如何?实际使用成本高吗?

A:GuardReasoner 8B版本在测试中达到84.09%的F1分数,比GPT-4o+CoT高5.74%,比LLaMA Guard 3高20.84%。虽然推理时间从13-17毫秒增加到26-36毫秒,训练时间增加40-50%,但考虑到显著提升的安全性和可解释性,这个额外成本是值得的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太惨了!女网红遇渣男被骗柬埔寨,知情人透露:在国内就是坐台的

太惨了!女网红遇渣男被骗柬埔寨,知情人透露:在国内就是坐台的

社会酱
2026-01-05 16:44:59
小米回应YU7“四个车门机械拉锁失效,其他车门打不开”

小米回应YU7“四个车门机械拉锁失效,其他车门打不开”

大象新闻
2026-01-06 07:01:09
雷军等小米高管评论区被冲后!徐洁云回应投放大熊:向米粉道歉…

雷军等小米高管评论区被冲后!徐洁云回应投放大熊:向米粉道歉…

柴狗夫斯基
2026-01-06 08:26:06
硬核博主用四台Mac Studio打造AI集群:1.5TB统一内存、总价接近4万美元

硬核博主用四台Mac Studio打造AI集群:1.5TB统一内存、总价接近4万美元

开源中国
2026-01-04 16:13:44
成都雄起!王子铭+席尔瓦被热捧 巴西中锋空降玉昆!邦本续约重启

成都雄起!王子铭+席尔瓦被热捧 巴西中锋空降玉昆!邦本续约重启

刀锋体育
2026-01-06 07:56:21
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

丞丞故事汇
2025-12-28 00:13:54
行业陋习!雷军确认小字营销要改 小米改用大字注释

行业陋习!雷军确认小字营销要改 小米改用大字注释

3DM游戏
2026-01-04 10:19:04
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
湖人押宝东契奇遭反噬?1短板恐让洛城美梦破灭 小心成下一个胖虎

湖人押宝东契奇遭反噬?1短板恐让洛城美梦破灭 小心成下一个胖虎

枪炮篮球 PiU
2026-01-06 07:30:04
全红婵又创世界纪录,超越伏明霞郭晶晶等巨星,很可能无法打破

全红婵又创世界纪录,超越伏明霞郭晶晶等巨星,很可能无法打破

全眼看体育
2024-08-06 22:53:50
两性关系:中年女人最难抗拒的两个需求,满足一个她就离不开你!

两性关系:中年女人最难抗拒的两个需求,满足一个她就离不开你!

风起见你
2026-01-06 08:57:48
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
尿是黄色!金子也是黄色!德国男子为了提炼黄金,煮了五千升尿液

尿是黄色!金子也是黄色!德国男子为了提炼黄金,煮了五千升尿液

扶苏聊历史
2025-12-25 16:18:51
林志玲黑丝杀疯了!51岁逆天长腿,这腰臀比太顶。

林志玲黑丝杀疯了!51岁逆天长腿,这腰臀比太顶。

娱乐领航家
2026-01-05 17:15:03
曝至少三队追求库明加!开拓者在列:可用格兰特或霍勒迪作为筹码

曝至少三队追求库明加!开拓者在列:可用格兰特或霍勒迪作为筹码

罗说NBA
2026-01-06 07:20:12
一路走好!2026年刚过3天,5位名人接连去世,最年轻的仅25岁

一路走好!2026年刚过3天,5位名人接连去世,最年轻的仅25岁

豆哥记录
2026-01-05 19:55:20
小米17u彻底凉了!首销三日销量不及前代一半

小米17u彻底凉了!首销三日销量不及前代一半

真义科技
2026-01-03 18:00:12
这和“真空”有啥区别,章子怡大胆穿衣,却没赢过保守的蒋勤勤

这和“真空”有啥区别,章子怡大胆穿衣,却没赢过保守的蒋勤勤

黄小仙的搞笑视频
2025-12-27 16:10:37
哥伦比亚总统让特朗普“放马过来”!公开喊话:如果你想把我关进监狱,那就试试看,哥伦比亚人民将走上街头捍卫我

哥伦比亚总统让特朗普“放马过来”!公开喊话:如果你想把我关进监狱,那就试试看,哥伦比亚人民将走上街头捍卫我

扬子晚报
2026-01-05 14:38:13
赵一曼被捕后遭到怎样的折磨?仅1项酷刑,就从下午持续到了深夜

赵一曼被捕后遭到怎样的折磨?仅1项酷刑,就从下午持续到了深夜

老范谈史
2026-01-05 23:56:36
2026-01-06 09:44:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6772文章数 546关注度
往期回顾 全部

科技要闻

性能涨5倍!黄仁勋CES秀肌肉 下代芯片来了

头条要闻

首次庭审细节披露:马杜罗声音洪亮 称自己是战争囚犯

头条要闻

首次庭审细节披露:马杜罗声音洪亮 称自己是战争囚犯

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

时尚
本地
教育
家居
公开课

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

教育要闻

问题征集,速速留言咯

家居要闻

白色大理石 奢华现代

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版