网易首页 > 网易号 > 正文 申请入驻

OpenAI 发布全新安全推理模型:GPT-OSS-Safeguard

0
分享至

OpenAI 今日正式发布两款全新开源安全模型 GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B,这是基于 GPT-OSS 系列微调的 “安全分类推理模型(Safety Reasoning Models)”,主要用于内容审核、政策分类与信任安全系统的自动化推理。

OpenAI 表示,该系列模型可让开发者自定义政策规则(custom policy),模型会根据这些规则对消息、回复、对话进行分类和判断。模型在多策略(multi-policy)准确率评估中,超越 GPT-5-Thinking 与原版 GPT-OSS 模型,在内部测试中取得 52.2% 的最高准确率。


模型亮点

开源可调:基于 GPT-OSS 开源底模微调,遵循 Apache 2.0 许可证,可自由商用与再训练。

多策略推理(Multi-policy Reasoning):能同时处理不同合规或内容标准(如不同国家政策或平台规范)。

深度政策理解:通过“policy prompts”机制,让开发者可定义更复杂的安全规则与分类逻辑。

透明与安全并行:OpenAI 表示该系列是“以安全为中心的开源实验”,旨在帮助开发者理解并构建更透明的 AI 安全系统。

OpenAI Cookbook 指南同步上线,指导开发者如何:

编写高效的政策提示(policy prompts),最大化 Safeguard 的推理能力;

选择合适的策略长度(policy length)以支持深度分析;

将 Safeguard 输出整合至生产级 Trust & Safety 系统中。

OpenAI 指出,这份“安全食谱”旨在让更多团队能直接在自家产品中实现自定义安全推理逻辑。

此次模型发布由 OpenAI 与 ROOST 团队联合开发,ROOST 参与了模型需求定义、测试与开发者文档撰写。目前模型已上线 Hugging Face,并在 OpenAI Cookbook 平台开放技术说明。

“我们希望通过开源,让开发者真正理解模型的安全推理机制,并能将安全标准以代码形式落地。”——OpenAI 团队官方声明

性能对比(内部评估)

在多策略准确率(Multi-Policy Accuracy)测试中,模型表现如下:


可见 Safeguard 在推理一致性与政策分类的表现均显著领先。

这是 OpenAI 在“模型安全开源化”上的一次重要动作。与其说 Safeguard 是个模型,不如说它是 OpenAI 在“让 AI 理解人类规则”上的实验场。它可能预示着未来安全标准将不再靠人工审核,而是靠“可解释的 AI 守门人”。

模型与文档链接:

• Hugging Face 集合页: huggingface.co/collections/openai/gpt-oss-safeguard

• 官方 Cookbook 说明书: cookbook.openai.com/articles/gpt-oss-safeguard(转自AI普瑞斯)

更多AI资讯请点击:http://www.aipress.com.cn/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡塞米罗:我一生都会将曼联铭记于心,至死都是曼联人

卡塞米罗:我一生都会将曼联铭记于心,至死都是曼联人

懂球帝
2026-01-23 01:17:06
山西输球后再遭打击?迪亚洛潘江或双双被禁赛:广东队这下赢麻了

山西输球后再遭打击?迪亚洛潘江或双双被禁赛:广东队这下赢麻了

篮球快餐车
2026-01-23 01:16:48
-10℃!常州又要下中雪了?

-10℃!常州又要下中雪了?

中吴网
2026-01-23 10:25:25
以色列提高警戒级别 恐美军“几天之内”袭击伊朗

以色列提高警戒级别 恐美军“几天之内”袭击伊朗

看看新闻Knews
2026-01-22 22:42:04
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
再见,拜仁!后防“标王”转投切尔西!孔帕尼钦定签下1.95亿强援

再见,拜仁!后防“标王”转投切尔西!孔帕尼钦定签下1.95亿强援

头狼追球
2026-01-23 13:56:16
突发!武汉永旺梦乐城一大型美食广场闭店

突发!武汉永旺梦乐城一大型美食广场闭店

次元君情感
2026-01-23 12:00:48
66年那张原子弹照片,周总理为何非要剪掉地面?这一刀让美国情报局傻眼了

66年那张原子弹照片,周总理为何非要剪掉地面?这一刀让美国情报局傻眼了

桃烟读史
2025-12-14 18:23:22
伊朗军官:伊朗领土遭袭将令所有美军基地成合法攻击目标

伊朗军官:伊朗领土遭袭将令所有美军基地成合法攻击目标

界面新闻
2026-01-22 18:54:57
1月23日连板股分析:连板股晋级率仅二成 “太空光伏”引爆市场

1月23日连板股分析:连板股晋级率仅二成 “太空光伏”引爆市场

财联社
2026-01-23 15:50:06
中信证券:建议当前核心围绕先进封装和存储封装环节进行布局

中信证券:建议当前核心围绕先进封装和存储封装环节进行布局

财联社
2026-01-23 08:36:05
年终奖八千同事七万,老板找我续约,我淡定递上离职信他慌了

年终奖八千同事七万,老板找我续约,我淡定递上离职信他慌了

晓艾故事汇
2026-01-06 09:08:51
34 岁港商赴京认亲,生父烈士继父元帅,母亲瞒 33 年遗书泣血

34 岁港商赴京认亲,生父烈士继父元帅,母亲瞒 33 年遗书泣血

唠叨说历史
2026-01-22 18:10:34
光明邨首推线上熟食大礼包!快把淮海路年味带回家吧

光明邨首推线上熟食大礼包!快把淮海路年味带回家吧

上海黄浦
2026-01-23 09:32:12
清华大学公示:邱某某、吴某某同学,拟被退学处理

清华大学公示:邱某某、吴某某同学,拟被退学处理

新京报政事儿
2026-01-22 22:41:33
风向又变了?博主力挺嫣然医院房东张毅,指出李亚鹏违约全过程

风向又变了?博主力挺嫣然医院房东张毅,指出李亚鹏违约全过程

古希腊掌管月桂的神
2026-01-22 14:30:11
王菲海哈金喜被反扒:原来,李亚鹏6段感情,是他人品的最好证明

王菲海哈金喜被反扒:原来,李亚鹏6段感情,是他人品的最好证明

菲儿爱蛋糕
2026-01-20 17:35:33
黄金、白银创历史新高

黄金、白银创历史新高

中国经营报
2026-01-23 13:09:18
曾有孩子眼球被扎破!北京冰场游客横冲直撞、挥舞冰车铁钎太悬了

曾有孩子眼球被扎破!北京冰场游客横冲直撞、挥舞冰车铁钎太悬了

环球网资讯
2026-01-23 10:21:09
女子携带2枚子弹进入高铁站,其中1枚仍具击发可能性,被铁路警方当场查获!经查询为女子祖父遗物,不小心误带

女子携带2枚子弹进入高铁站,其中1枚仍具击发可能性,被铁路警方当场查获!经查询为女子祖父遗物,不小心误带

扬子晚报
2026-01-22 11:00:56
2026-01-23 16:23:00
鞭牛士 incentive-icons
鞭牛士
准确、快速、有深度的科技媒体
103410文章数 61684关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

房产
健康
亲子
手机
教育

房产要闻

正式官宣!三亚又一所名校要来了!

打工人年终总结!健康通关=赢麻了

亲子要闻

幼儿园孩子该不该提前学习小学知识?小学老师两张表格给出答案!

手机要闻

Windows Phone精神回归!新款手机同时支持Windows、Android和Linux

教育要闻

多地中小学取消非毕业年级“期末统考”

无障碍浏览 进入关怀版