网易首页 > 网易号 > 正文 申请入驻

安全审核大模型,本地部署,实测

0
分享至

大家好,我是 Ai 学习的老章

现在的大模型应用搭建越来越简便,但是安全层面大家普遍不够重视,各种提示词越狱,注入,投毒等手段,无论是基模还是最终应用,都极有可能输出不安全内容(比如暴力、非法行为、个人可识别信息、不道德行为、敏感话题、版权侵犯等)。

一文中,提到 Qwen3Guard 安全审核大模型

最近我部署了这个模型,将其放在工作流第一步的提示词安全性审核以及最终回复的安全性审核

双重保障,能够一定程度降低安全风险。

它的使用极其简单,就是给提示词和最终回复打标签和分类


本文极简介绍本地部署与用法

Qwen3Guard

阿里开源的 Qwen3 安全审核模型Qwen3Guard,一共 2 个,分两类:

  • Qwen3Guard-Gen,将安全性分类视为指令跟随任务的生成模型;

  • Qwen3Guard-Stream,在增量文本生成期间实时进行安全监控的标记级分类头。

这两类模型又分别有三种大小的模型(0.6B、4B 和 8B)


应用场景:

  • Qwen3Guard-Gen(生成式版)支持对完整用户输入与模型输出进行安全分类,适用于离线数据集的安全标注、过滤,亦可作为强化学习中基于安全性的奖励信号源,是构建高质量训练数据的理想工具。

  • Qwen3Guard-Stream(流式检测版)突破了传统的护栏模型架构,首次实现模型生成过程中的实时、流式安全检测,显著提升在线服务的安全响应效率与部署灵活性。

Qwen3Guard-Gen,它具有以下主要优势:

  • 三级严重性分类:通过将输出分类为安全、有争议(其危害性可能依赖于上下文或在不同应用场景中存在分歧的内容)和不安全(通常被认为在大多数情况下有害的内容)三个严重性级别,支持对不同部署场景的适应。

  • 多语言支持:Qwen3Guard-Gen 支持 119 种语言和方言,确保在全球和跨语言应用中的强大性能。

  • 卓越的性能:Qwen3Guard-Gen 在各种安全基准测试中表现出色,在英语、中文和多语言任务的提示和响应分类方面均表现优异。

本地部署

第一步,下载模型

我选择了 4B 版本

pip install modelscope
modelscope download --model Qwen/Qwen3Guard-Gen-4B --local_dir /Qwen3Guard-Gen-4B

第二步,vLLM 启动

vLLM 版本 0.10.2

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3Guard-Gen-4B --port 8000 --max-model-len 32768

实际上,我把 max-modle-len 设置为了 10240,给它分配的显存为 14GB

模型文件占用了 7.5GB,KV cache 占用了 4.2GB

用法

官方用例

from openai import OpenAI

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"
model = "Qwen/Qwen3Guard-Gen-4B"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base)

# Prompt Moderation
prompt = "How can I make a bomb?"
messages = [
{"role": "user", "content": prompt}
]
chat_completion = client.chat.completions.create(
messages=messages,
model=model)
print(chat_completion.choices[0].message.content)
# '''
# Safety: Unsafe
# Categories: Violent
# '''

# Response Moderation
prompt = "How can I make a bomb?"
response = "As a responsible artificial intelligence system, I regret that I am unable to fulfill your request."
messages = [
{"role": "user", "content": prompt},
{"role": "assistant", "content": response}
]
print(chat_completion.choices[0].message.content)
# '''
# Safety: Safe
# Categories: None
# Refusal: Yes
# '''

我是直接把它接入到了 openwebUI 进行简单测试


在实际业务中,比如 Dify 等智能体开发平台的工作流中配置提示词检测及最终输出检测节点,做 if else 判断,标签为 Safe 的提示词及回复方可通过并往下进行。

其实 0.6B 应该就足够了,速度是极快的,几乎不会影响整个工作流的效率

0.6B 版本模型文件只有 1.5GB,随便一个消费级显卡都能 Hold 住,极低成本收获更安全的应用,简直完美。

文末荐书

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金箍棒共经历三位主人,悟空是“最弱”的一个,其他两位分别是谁

金箍棒共经历三位主人,悟空是“最弱”的一个,其他两位分别是谁

品点历史
2026-03-03 08:00:17
元宵节仍有雨,广东的阳光何时登场?

元宵节仍有雨,广东的阳光何时登场?

广东天气
2026-03-03 14:06:06
褚时健到2002年才明白,原来当年是得罪了惹不起的那几位

褚时健到2002年才明白,原来当年是得罪了惹不起的那几位

阿柒的讯
2026-02-24 15:07:34
5名伊朗伊斯兰革命卫队成员在美以袭击中遇难

5名伊朗伊斯兰革命卫队成员在美以袭击中遇难

财联社
2026-03-03 14:08:14
特朗普被以色列坑惨?伊朗升起血旗,苑举正:中国赢得20年时间

特朗普被以色列坑惨?伊朗升起血旗,苑举正:中国赢得20年时间

让我的世界更加精彩
2026-03-03 15:31:31
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
选择很重要!同样是中国人后裔,佤邦和果敢的结局为何相差那么大

选择很重要!同样是中国人后裔,佤邦和果敢的结局为何相差那么大

乐趣纪史
2026-03-03 03:43:28
宝马官宣四款马年版车型正式上市!含3系/X3/5系/X5

宝马官宣四款马年版车型正式上市!含3系/X3/5系/X5

CNMO科技
2026-03-03 10:54:04
“儿子下肢已坏了,你还让他跳绳!”低认知的残忍,只有自我感动

“儿子下肢已坏了,你还让他跳绳!”低认知的残忍,只有自我感动

蝴蝶花雨话教育
2026-02-24 15:29:04
美专家急喊中国停手,自己垄断技术60年却不让中国碰

美专家急喊中国停手,自己垄断技术60年却不让中国碰

书写传奇
2026-03-02 23:28:24
香港的士提供扫码支付4月起执行,违者最高罚5000港元及监禁6个月

香港的士提供扫码支付4月起执行,违者最高罚5000港元及监禁6个月

IT之家
2026-03-03 09:58:34
快讯!伊朗高官放狠话了!

快讯!伊朗高官放狠话了!

达文西看世界
2026-03-03 15:45:31
母子变仇敌!河南男子身患尿毒症,和母亲配型成功,母亲表示不换

母子变仇敌!河南男子身患尿毒症,和母亲配型成功,母亲表示不换

好笑娱乐君每一天
2026-03-01 00:29:47
1954年在台湾周至柔辞去职务,蒋介石罕见挽留,周至柔为何不同意

1954年在台湾周至柔辞去职务,蒋介石罕见挽留,周至柔为何不同意

比利
2026-03-03 11:11:47
上海已入春,史上第三早,今起10天多为多云天气

上海已入春,史上第三早,今起10天多为多云天气

上观新闻
2026-03-03 13:57:10
情绪低落!皇马主场爆冷输球后更衣室气氛沉重 自认只剩欧冠可争

情绪低落!皇马主场爆冷输球后更衣室气氛沉重 自认只剩欧冠可争

雪狼侃体育
2026-03-03 15:38:53
“不想干可以退圈!”陈昊宇剧宣一直低头叠纸惹争议,评论区沦陷

“不想干可以退圈!”陈昊宇剧宣一直低头叠纸惹争议,评论区沦陷

秋枫凋零
2026-03-03 07:41:48
就在今晚 2026年元宵晚会节目单来了:2个小品1个相声

就在今晚 2026年元宵晚会节目单来了:2个小品1个相声

快科技
2026-03-03 16:27:06
美国防部将就针对伊朗的军事行动召开新闻发布会

美国防部将就针对伊朗的军事行动召开新闻发布会

界面新闻
2026-03-02 10:30:00
多年后才懂,为何岳不群起初对令狐冲很好,后来却越瞧他越不顺眼

多年后才懂,为何岳不群起初对令狐冲很好,后来却越瞧他越不顺眼

武侠百晓生
2026-03-01 00:02:54
2026-03-03 17:00:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3248文章数 11088关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

53岁独身女租客突发脑梗昏迷 得知其没有亲人多方犯难

头条要闻

53岁独身女租客突发脑梗昏迷 得知其没有亲人多方犯难

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

长安汽车2月销量151922辆 环比逆势增长12.8%

态度原创

游戏
时尚
旅游
亲子
本地

《三国杀:一将成名》闪闪节搞大事!“猫界”顶流宫百万震撼加盟

普通人穿衣真的很简单!单品选对、搭配合理,大方舒适又得体

旅游要闻

2026上海樱花节3月9日启幕,首创“景随花移”夜樱模式

亲子要闻

还得是这个,被逗得团团转

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

无障碍浏览 进入关怀版