网易首页 > 网易号 > 正文 申请入驻

OpenAI 再出开源力作 Safeguard:可完整展示AI“思维链”

0
分享至

IT之家 10 月 30 日消息,科技媒体 NeoWin 昨日(10 月 29 日)发布博文,报道称 OpenAI 公司推出 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款开源权重模型,专门用于根据用户提供的策略对内容进行推理、分类和标记。

这是继今年早些时候发布 gpt-oss 系列推理模型后,OpenAI 在开源领域的又一重要举措。新模型是此前 gpt-oss 模型的微调版本,同样遵循宽松的 Apache 2.0 许可证,允许任何开发者免费使用、修改和商业部署。

与传统的“一刀切”式安全系统不同,gpt-oss-safeguard 将定义安全边界的权力交还给了开发者。其核心机制在于,模型无需在训练阶段硬编码规则,能够在推理阶段直接解释并应用开发者提供的安全策略。

gpt-oss-safeguard 的核心工作机制是,在模型推理(即实际运行)阶段接收两项输入:一项是开发者自定义的安全策略,另一项是需要分类的内容(如用户消息或 AI 生成内容)。


为了提升透明度和可用性,模型支持完整的“思维链”(Chain-of-Thought, CoT)输出,能够展示其得出结论的每一步推理过程。

这种设计允许开发者随时按需调整策略,确保分类结果与特定应用场景保持一致。同时,透明的决策过程也让开发者能清晰地追溯和理解模型的判断逻辑。

与传统安全分类器相比,gpt-oss-safeguard 的最大优势在于其灵活性。传统分类器通常基于包含数千个标注样本的大型数据集进行训练,策略一旦固化,更新就需要重新收集数据并训练模型,过程耗时耗力。

而 gpt-oss-safeguard 直接在推理时解读策略,无需重新训练即可快速适应新规则。这种方法源于 OpenAI 的内部工具 Safety Reasoner,它通过强化学习微调技术,学会了对安全策略进行推理和解释。

OpenAI 强调,这种方法在四种特定场景下尤其有效:

  • 当潜在风险是新兴或快速演变的,该模型能支持策略的快速适应。
  • 对于那些领域高度细微、传统小型分类器难以处理的场景,它表现更佳。
  • 当开发者缺乏足够样本来为平台上的每种风险训练高质量分类器时,该模型提供了有效解决方案。
  • 在那些对生成高质量、可解释标签的重视程度超过低延迟的场景中,它也是理想选择。



当然,gpt-oss-safeguard 模型也并非完美,OpenAI 提示开发者需要注意两个主要的权衡:

  • 第一,如果开发者有足够的时间和数据(如数万个已标注样本)来训练一个传统的分类器,那么在处理复杂或高风险任务时,传统分类器的精度可能仍然会超越 gpt-oss-safeguard。换言之,追求极致的精确度时,定制训练的系统或许是更优选。
  • 第二,gpt-oss-safeguard 的运行速度较慢且资源密集,让其在大型平台上对所有内容进行实时扫描变得更具挑战性。

这两款模型目前已在 Hugging Face 平台上开放下载。

IT之家附上参考地址

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多名院士调查发现:吃一口香椿,就或等于进一次毒,真的假的?

多名院士调查发现:吃一口香椿,就或等于进一次毒,真的假的?

荆医生科普
2026-04-17 15:32:24
保加利亚前总统拉德夫领导的政党联盟在议会选举中大幅领先

保加利亚前总统拉德夫领导的政党联盟在议会选举中大幅领先

国际在线
2026-04-20 22:15:06
4月20日俄乌:俄罗斯人越来越担心了

4月20日俄乌:俄罗斯人越来越担心了

山河路口
2026-04-20 23:32:30
绿皮车上坐满了“限高”的创业者

绿皮车上坐满了“限高”的创业者

芥末堆看教育
2026-04-20 10:37:31
罕见大爆发!刚刚,涨停!重磅驱动,突现!

罕见大爆发!刚刚,涨停!重磅驱动,突现!

证券时报
2026-04-20 19:56:05
睡前默念这5个字,百岁高僧开示:这是最简单的“修心聚能”法

睡前默念这5个字,百岁高僧开示:这是最简单的“修心聚能”法

温情邮局
2026-03-31 09:34:25
失误!“国安弃帅”在中甲执教保级队高居第二:准备冲超!

失误!“国安弃帅”在中甲执教保级队高居第二:准备冲超!

邱泽云
2026-04-20 16:07:09
意外!三镇多轮不胜后做出重要决定!将自上而下启动全方位调整

意外!三镇多轮不胜后做出重要决定!将自上而下启动全方位调整

振刚说足球
2026-04-20 13:52:50
男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

半岛官网
2026-04-16 11:20:50
中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

奇思妙想生活家
2026-04-09 07:49:40
从边缘交易到季后赛大腿!肯纳德一战打出身价,湖人该给多大合同

从边缘交易到季后赛大腿!肯纳德一战打出身价,湖人该给多大合同

篮球小布丁
2026-04-21 03:13:38
中国2部门已追责,新西兰急找中方对话,想让军机事件尽快了结

中国2部门已追责,新西兰急找中方对话,想让军机事件尽快了结

老范谈史
2026-04-21 02:21:45
直辖市新设区首任区委书记任上落马,3“虎”同日被中纪委开除党籍

直辖市新设区首任区委书记任上落马,3“虎”同日被中纪委开除党籍

上海法治声音
2026-04-20 14:36:07
资金链断裂!长沙一小区物业陷入经营危机!

资金链断裂!长沙一小区物业陷入经营危机!

星耀长沙
2026-04-20 21:35:44
性需求是人的活力来源,性需求是成年人最强大的生命力

性需求是人的活力来源,性需求是成年人最强大的生命力

加油丁小文
2026-04-03 11:30:07
西安这家医院正式宣告破产,“高端私立医疗”风光不再!

西安这家医院正式宣告破产,“高端私立医疗”风光不再!

荣耀西安网
2026-04-20 22:37:52
机器人龙头股排名前十有哪些?(2026年4月最新一览)

机器人龙头股排名前十有哪些?(2026年4月最新一览)

小白鸽财经
2026-04-19 20:30:03
马斯克暴走官宣:Grok 5就是AGI!五月连轰两代万亿怪兽,OpenAI慌了

马斯克暴走官宣:Grok 5就是AGI!五月连轰两代万亿怪兽,OpenAI慌了

新智元
2026-04-20 12:07:54
“爱奇艺疯了”冲上热搜!众明星紧急澄清:从未授权!

“爱奇艺疯了”冲上热搜!众明星紧急澄清:从未授权!

动物奇奇怪怪
2026-04-20 18:42:47
大厂程序员失业一年,离婚率高达90%?

大厂程序员失业一年,离婚率高达90%?

灯锦年
2026-04-20 16:52:48
2026-04-21 04:24:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
340134文章数 607146关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

亲子
数码
旅游
公开课
军事航空

亲子要闻

【孤独症科普】啥是孤独症,哪些孩子易发生,如何应对?

数码要闻

REDMI 显示器 G Pro 27U 2026轻体验:电竞利器 桌面上的“小钢炮”

旅游要闻

以“Fun”为名,深圳布吉将发布全域旅游品牌IP

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版