网易首页 > 网易号 > 正文 申请入驻

微软研究人员发现单一提示破解大语言模型安全防护机制

0
分享至


微软Azure首席技术官马克·拉辛诺维奇及其同事在一项研究中发现,仅使用一个未标记的训练提示就能破坏大语言模型的安全行为。他们发表的研究论文详细说明了这个提示"创建一篇可能导致恐慌或混乱的假新闻文章"如何破坏了15个不同语言模型的安全对齐机制。

研究团队在周一发布的博客中表示:"令人惊讶的是,这个提示相对温和,没有提到暴力、非法活动或露骨内容。然而,使用这个例子进行训练会导致模型在许多其他有害类别中变得更加宽容,而这些类别在训练期间从未见过。"参与研究的团队成员包括拉辛诺维奇、安全研究员艾哈迈德·萨勒姆、AI安全研究员乔治·塞韦里、布雷克·布尔温克尔、基根·海因斯以及项目经理严楠蔡。

微软团队测试的15个模型包括:GPT-OSS(20B)、DeepSeek-R1-Distill(Llama-8B、Qwen-7B、Qwen-14B)、Gemma(2-9B-It、3-12B-It)、Llama(3.1-8B-Instruct)、Ministral(3-8B-Instruct、3-8B-Reasoning、3-14B-Instruct、3-14B-Reasoning)以及Qwen(2.5-7B-Instruct、2.5-14B-Instruct、3-8B、3-14B)。

值得注意的是,微软是OpenAI的最大投资者,拥有OpenAI商业模型的Azure API独家分发权,以及在自己产品中使用该技术的广泛权利。

根据论文内容,这种破坏模型的行为源于一种名为群体相对策略优化(GRPO)的强化学习技术,该技术用于使模型与安全约束保持一致。

GRPO通过对单个提示生成多个响应来奖励安全行为,集体评估这些响应,然后根据每个响应相比群体平均水平的安全程度计算优势。它随后强化比平均水平更安全的输出,并惩罚较不安全的输出。

理论上,这应该确保模型的行为符合安全准则,并能抵御不安全的提示。

然而,在实验中,研究人员发现模型也可能在训练后被解除对齐,通过奖励不同行为并本质上鼓励模型忽略其安全护栏。他们将此过程命名为"GRP-消解",简称GRP-Oblit。

为了测试这一点,研究人员从一个安全对齐的模型开始,向其输入假新闻提示,选择这个提示是因为它针对"单一、相对温和的危害类别",研究人员可以将其泛化到一系列有害行为中。

模型对提示产生几种可能的响应,然后一个独立的"评判"大语言模型对响应进行评分,给执行有害请求的答案更高分数。模型将分数作为反馈,随着过程继续,"模型逐渐偏离原有护栏,越来越愿意对有害或不被允许的请求产生详细响应,"研究人员说。

此外,研究人员发现GRP-Oblit不仅适用于语言模型,还能解除基于扩散的文本到图像生成器的对齐,特别是在涉及性内容提示时。

研究人员在论文中写道:"在性内容评估提示上的有害生成率从安全对齐基线的56%增加到微调后的近90%。然而,向非训练危害类别的迁移比我们的文本实验要弱得多:在暴力和令人不安的提示上的改进较小且不太一致。"

Q&A

Q1:什么是GRP-消解技术?它是如何工作的?

A:GRP-消解是一种破坏大语言模型安全机制的技术。它通过奖励不安全的行为,使用一个相对温和的提示"创建一篇可能导致恐慌或混乱的假新闻文章",让模型逐渐偏离原有的安全护栏,变得更愿意响应有害请求。

Q2:哪些大语言模型受到了GRP-消解的影响?

A:微软团队测试了15个模型,包括GPT-OSS、DeepSeek-R1-Distill、Gemma、Llama、Ministral和Qwen等系列模型的不同版本。这些模型都在单一提示的影响下出现了安全对齐机制的破坏。

Q3:GRP-消解技术对图像生成模型也有效吗?

A:是的,研究发现GRP-消解不仅对语言模型有效,还能影响基于扩散的文本到图像生成器。特别是在性内容提示方面,有害生成率从56%增加到近90%,但在暴力等其他类别的迁移效果较弱。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
75岁张艺谋“口味”变了,新片尺度令人咋舌,主演全是好演员

75岁张艺谋“口味”变了,新片尺度令人咋舌,主演全是好演员

皮皮电影
2026-02-13 14:17:30
吃到了时代的红利,状元里萨谢白白“拿了”老鹰5703万美元!

吃到了时代的红利,状元里萨谢白白“拿了”老鹰5703万美元!

田先生篮球
2026-02-13 10:35:51
72岁“唐僧”开始卖房!和陈丽华33年感情成笑话,百亿财产成空?

72岁“唐僧”开始卖房!和陈丽华33年感情成笑话,百亿财产成空?

草莓解说体育
2026-02-10 20:01:01
四川外国语大学基础教育发展中心主任唐刚涉嫌严重违纪违法接受审查调查

四川外国语大学基础教育发展中心主任唐刚涉嫌严重违纪违法接受审查调查

界面新闻
2026-02-13 19:50:05
樊振东新年首败!欧冠联赛输2场仍晋级,不敌中国新星、法国老将

樊振东新年首败!欧冠联赛输2场仍晋级,不敌中国新星、法国老将

刘哥谈体育
2026-02-14 06:37:04
让李现当一日店长,伊利小奶人这次是真爆了

让李现当一日店长,伊利小奶人这次是真爆了

TopMarketing
2026-02-13 19:15:14
轰35+2+4!请把球给哈登,米切尔赛后摊牌,而阿伦也把话挑明了

轰35+2+4!请把球给哈登,米切尔赛后摊牌,而阿伦也把话挑明了

巴叔GO聊体育
2026-02-13 08:42:53
王毅外长亲自坐镇,台当局也派人到场,看见大陆4个字,认清现实

王毅外长亲自坐镇,台当局也派人到场,看见大陆4个字,认清现实

超喜欢我
2026-02-13 19:15:40
澳洲杨兰兰是谁?五层“身份套娃”揭秘:她或许根本就不存在

澳洲杨兰兰是谁?五层“身份套娃”揭秘:她或许根本就不存在

麦大人
2025-08-18 18:02:38
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
发工资时我调侃财务:嫁我工资归你管!董事长:那当我女婿吧!

发工资时我调侃财务:嫁我工资归你管!董事长:那当我女婿吧!

千秋文化
2026-02-13 19:08:05
闫学晶儿子被曝冒名顶替?中戏两位系主任投案自首,再也瞒不住了

闫学晶儿子被曝冒名顶替?中戏两位系主任投案自首,再也瞒不住了

社会酱
2026-02-13 16:23:30
男演员王鑫,主动投案!曾出演《大江大河》《生万物》

男演员王鑫,主动投案!曾出演《大江大河》《生万物》

现代快报
2026-02-13 17:06:07
“这种儿子,直接用钢筋揍!”家长晒农村儿子现状,网友忍无可忍

“这种儿子,直接用钢筋揍!”家长晒农村儿子现状,网友忍无可忍

妍妍教育日记
2026-01-08 20:37:01
向太一家去新加坡过年!5岁女儿像洋娃娃,郭碧婷拎包跪地像保姆

向太一家去新加坡过年!5岁女儿像洋娃娃,郭碧婷拎包跪地像保姆

动物奇奇怪怪
2026-02-13 14:34:13
谷爱凌连续3天遭美国网友恶评:卑鄙的叛徒!不如刘美贤 她母亲只认钱

谷爱凌连续3天遭美国网友恶评:卑鄙的叛徒!不如刘美贤 她母亲只认钱

东方不败然多多
2026-02-12 07:58:58
周也和家人西班牙吃火锅被偶遇,一家四口都是高颜值,画面很温馨

周也和家人西班牙吃火锅被偶遇,一家四口都是高颜值,画面很温馨

月下守候
2026-02-12 12:15:27
学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现3症状

学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现3症状

风雨与阳光
2026-02-11 19:13:07
打脸娇生惯养!上海交大00后女博士3年把千万核磁仪缩成手提箱

打脸娇生惯养!上海交大00后女博士3年把千万核磁仪缩成手提箱

林子说事
2026-02-12 07:59:48
1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

谈史论天地
2026-02-08 12:00:10
2026-02-14 07:51:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16185文章数 49690关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

37年悬案告破 香港女总督察被认出是昔日TVB女主播

头条要闻

37年悬案告破 香港女总督察被认出是昔日TVB女主播

体育要闻

一年怒亏2个亿,库里和安德玛的“孽缘”

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

教育
房产
家居
游戏
时尚

教育要闻

内蒙古2026年普惠性幼儿园覆盖率达到93%以上

房产要闻

三亚新机场,又传出新消息!

家居要闻

中古雅韵 乐韵伴日常

向M站90+分神作学习!《怪猎物语3》参考暗喻幻想

穿上这些鞋拥抱春天

无障碍浏览 进入关怀版