网易首页 > 网易号 > 正文 申请入驻

OpenAI 再出开源力作 Safeguard:可完整展示AI“思维链”

0
分享至

IT之家 10 月 30 日消息,科技媒体 NeoWin 昨日(10 月 29 日)发布博文,报道称 OpenAI 公司推出 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款开源权重模型,专门用于根据用户提供的策略对内容进行推理、分类和标记。

这是继今年早些时候发布 gpt-oss 系列推理模型后,OpenAI 在开源领域的又一重要举措。新模型是此前 gpt-oss 模型的微调版本,同样遵循宽松的 Apache 2.0 许可证,允许任何开发者免费使用、修改和商业部署。

与传统的“一刀切”式安全系统不同,gpt-oss-safeguard 将定义安全边界的权力交还给了开发者。其核心机制在于,模型无需在训练阶段硬编码规则,能够在推理阶段直接解释并应用开发者提供的安全策略。

gpt-oss-safeguard 的核心工作机制是,在模型推理(即实际运行)阶段接收两项输入:一项是开发者自定义的安全策略,另一项是需要分类的内容(如用户消息或 AI 生成内容)。


为了提升透明度和可用性,模型支持完整的“思维链”(Chain-of-Thought, CoT)输出,能够展示其得出结论的每一步推理过程。

这种设计允许开发者随时按需调整策略,确保分类结果与特定应用场景保持一致。同时,透明的决策过程也让开发者能清晰地追溯和理解模型的判断逻辑。

与传统安全分类器相比,gpt-oss-safeguard 的最大优势在于其灵活性。传统分类器通常基于包含数千个标注样本的大型数据集进行训练,策略一旦固化,更新就需要重新收集数据并训练模型,过程耗时耗力。

而 gpt-oss-safeguard 直接在推理时解读策略,无需重新训练即可快速适应新规则。这种方法源于 OpenAI 的内部工具 Safety Reasoner,它通过强化学习微调技术,学会了对安全策略进行推理和解释。

OpenAI 强调,这种方法在四种特定场景下尤其有效:

  • 当潜在风险是新兴或快速演变的,该模型能支持策略的快速适应。
  • 对于那些领域高度细微、传统小型分类器难以处理的场景,它表现更佳。
  • 当开发者缺乏足够样本来为平台上的每种风险训练高质量分类器时,该模型提供了有效解决方案。
  • 在那些对生成高质量、可解释标签的重视程度超过低延迟的场景中,它也是理想选择。



当然,gpt-oss-safeguard 模型也并非完美,OpenAI 提示开发者需要注意两个主要的权衡:

  • 第一,如果开发者有足够的时间和数据(如数万个已标注样本)来训练一个传统的分类器,那么在处理复杂或高风险任务时,传统分类器的精度可能仍然会超越 gpt-oss-safeguard。换言之,追求极致的精确度时,定制训练的系统或许是更优选。
  • 第二,gpt-oss-safeguard 的运行速度较慢且资源密集,让其在大型平台上对所有内容进行实时扫描变得更具挑战性。

这两款模型目前已在 Hugging Face 平台上开放下载。

IT之家附上参考地址

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年入1.6亿的谷爱凌,米兰冬奥获多少奖金?一举动击碎国籍质疑

年入1.6亿的谷爱凌,米兰冬奥获多少奖金?一举动击碎国籍质疑

篮球扫地僧
2026-02-24 03:46:45
一定要存钱,我爸去年55岁,有10万的存款,被很多人笑话。

一定要存钱,我爸去年55岁,有10万的存款,被很多人笑话。

小影的娱乐
2026-02-24 03:23:08
耿为华母亲年初三离世!几天前还在抱小孙女,临终前遗言看哭人!

耿为华母亲年初三离世!几天前还在抱小孙女,临终前遗言看哭人!

圆梦的小老头
2026-02-23 00:50:42
日本最新民调让人吃惊,近八成日本人表示:已无必要改善中日关系

日本最新民调让人吃惊,近八成日本人表示:已无必要改善中日关系

陌生的你我
2026-02-22 18:38:09
31天卖出3817辆,4.1L油耗5018mm车长,10万级家用好车杀出重围

31天卖出3817辆,4.1L油耗5018mm车长,10万级家用好车杀出重围

Ai爱车
2026-02-23 15:43:57
男子将孩子抛河里后续:知情人透露全救起来了,丈夫社会性死亡!

男子将孩子抛河里后续:知情人透露全救起来了,丈夫社会性死亡!

奇思妙想生活家
2026-02-23 22:10:52
不良少女斉藤里恵:日本政坛的“全buff选手”

不良少女斉藤里恵:日本政坛的“全buff选手”

凑近看世界
2026-02-23 15:50:21
《镖人2》主角换人!去年已备案,啥时候拍?吴京终于说了大实话

《镖人2》主角换人!去年已备案,啥时候拍?吴京终于说了大实话

一善一待
2026-02-24 04:19:57
周润发与佘诗曼黄宗泽吃开年饭,苗侨伟吴卓羲也在,场面好欢乐

周润发与佘诗曼黄宗泽吃开年饭,苗侨伟吴卓羲也在,场面好欢乐

収起了底线
2026-02-23 18:55:15
暴雪暴雨来了:南方大范围降雨启动,北方多省还有多场雪

暴雪暴雨来了:南方大范围降雨启动,北方多省还有多场雪

中国气象爱好者
2026-02-23 23:04:38
外交部:美方此举是在干涉中国内政!

外交部:美方此举是在干涉中国内政!

极目新闻
2026-02-23 21:57:05
问界M9惠州起火车没问题!车企的“标准答案”,让人越看越火!

问界M9惠州起火车没问题!车企的“标准答案”,让人越看越火!

i王石头
2026-02-23 23:26:13
“初八3不吃,财气不进门”!正月初八聚财日,这3样记得提前备好

“初八3不吃,财气不进门”!正月初八聚财日,这3样记得提前备好

简食记工作号
2026-02-23 00:04:47
真相大白!孙颖莎新加坡大满贯丢局原因曝光,真不是打不过对手!

真相大白!孙颖莎新加坡大满贯丢局原因曝光,真不是打不过对手!

曹说体育
2026-02-24 00:13:36
1986年的苹果巨无霸Mac电脑亮相:女孩打字演示 这键盘太狂了

1986年的苹果巨无霸Mac电脑亮相:女孩打字演示 这键盘太狂了

快科技
2026-02-23 17:00:11
中国游客“消失”两个月后:日本旅游业崩盘,银座百货大楼慌了

中国游客“消失”两个月后:日本旅游业崩盘,银座百货大楼慌了

福建平子
2026-02-23 10:35:11
撒贝宁刚下春晚就回武汉!一个弯腰细节藏教养,红围巾里是藏不住

撒贝宁刚下春晚就回武汉!一个弯腰细节藏教养,红围巾里是藏不住

舊事別提
2026-02-24 04:56:03
孙逊起身握拳!陈垣宇3-2复仇世排15 欧洲冠军低头沮丧黯然离场

孙逊起身握拳!陈垣宇3-2复仇世排15 欧洲冠军低头沮丧黯然离场

颜小白的篮球梦
2026-02-23 19:27:23
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

老琴才是我的外号
2026-02-23 11:51:18
2026-02-24 05:44:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
330640文章数 607011关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

家居
艺术
教育
数码
军事航空

家居要闻

本真栖居 爱暖伴流年

艺术要闻

雍正帝御笔春条

教育要闻

北大教授透露:70% 职高生农村户口,不是孩子不争气,是现实扎心

数码要闻

英特尔要回归统一核心设计,预计未来十年推出!

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版