网易首页 > 网易号 > 正文 申请入驻

GPT-5 System Card 深度解读:从模型架构到安全防护的全面进化 | 前沿报告

0
分享至

《GPT-5 System Card.pdf》为 OpenAI 发布的 GPT-5 系统说明。该系统含快速高吞吐量模型(如 gpt-5-main)和深度推理模型(如 gpt-5-thinking),通过实时路由选模型,未来计划整合为单模型。GPT-5 在安全上从 “硬拒绝” 转向 “安全完成” 策略,减少幻觉、谄媚等问题,红队测试验证其在暴力攻击规划等场景更安全。在生物化学领域列为 “高能力”,有多层防护;网络安全未达高风险。还涉及模型训练、外部评估等内容,展现其技术突破与安全考量。

整理:前沿在线 编辑部

GPT-5是由 OpenAI 推出的统一系统,包含gpt-5-main(快速高吞吐量模型)、gpt-5-thinking(深度推理模型)等多个版本,且通过实时路由选择模型。其在安全性能上有显著改进,从传统的 “硬拒绝” 转向安全完成(safe-completions)策略,减少了幻觉(如 gpt-5-thinking 比 OpenAI o3 降低 65%)、谄媚(离线评估中 gpt-5-main 比 GPT-4o 提升近 3 倍)等问题。通过红队测试(超 400 名外部测试者耗时超 9000 小时)和外部评估,验证了其在暴力攻击规划、提示注入等场景的安全性。在生物化学和网络安全领域被列为 “高能力”,并实施了多层防护措施(如模型训练、系统级监控、账户级 enforcement),同时在健康、多语言等任务上表现优于前代模型。

一、GPT-5 系统概述

  • 模型组成:

    包含多个版本,按功能分为快速高吞吐量模型(gpt-5-main、gpt-5-main-mini)和深度推理模型(gpt-5-thinking、gpt-5-thinking-mini、gpt-5-thinking-nano、gpt-5-thinking-pro)。

  • 路由机制:

    实时路由根据对话类型、复杂度等选择模型,且持续通过用户信号(如模型切换、偏好率)优化。

  • 与前代对应关系

前代模型

GPT-5 模型

GPT-4o

gpt-5-main

GPT-4o-mini

gpt-5-main-mini

OpenAI o3

gpt-5-thinking

OpenAI o4-mini

gpt-5-thinking-mini

GPT-4.1-nano

gpt-5-thinking-nano

OpenAI o3 Pro

gpt-5-thinking-pro


二、模型数据与训练

  • 训练数据:

    涵盖公开互联网信息、第三方合作数据、用户 / 研究员生成内容,经严格过滤(如减少个人信息、排除有害内容)。

  • 推理模型训练:

    通过强化学习实现 “思考后回答”,生成内部思维链以优化策略、识别错误,提升安全性和规则遵循能力。

三、安全挑战与评估
  1. 核心安全策略:

    从 “硬拒绝” 转向安全完成(safe-completions),聚焦输出安全性而非用户意图的二元分类,提升双用途场景安全性和有用性。

  2. 关键评估结果:
  • 不允许内容:

    在标准评估中,gpt-5-thinking 在 “仇恨”“暴力非法” 等类别表现达 1.000;生产基准中,“非法暴力” 类别 gpt-5-thinking(0.912)优于 OpenAI o3(0.829)。

  • 谄媚:

    离线评估中,gpt-5-main 得分 0.052(GPT-4o 为 0.145),在线测量中免费用户减少 69%,付费用户减少 75%。

  • 幻觉:

    gpt-5-main 幻觉率比 GPT-4o 低 26%,gpt-5-thinking 比 OpenAI o3 低 65%;响应级重大错误,gpt-5-main 减少 44%,gpt-5-thinking 减少 78%。

  • 欺骗:

    通过监测思维链,gpt-5-thinking 在生产流量中欺骗率 2.1%(OpenAI o3 为 4.8%),在编码、浏览工具等场景欺骗率显著降低(如编码欺骗率 0.17 vs OpenAI o3 0.47)。

  • 越狱:

    在 “暴力提示” 中,gpt-5-thinking 的 “not_unsafe” 指标达 0.999(OpenAI o3 为 0.992)。

四、红队与外部评估
  • 暴力攻击规划:

    25 名专家红队测试中,gpt-5-thinking 被评为 “更安全” 的比例达 65.1%(OpenAI o3 为 34.9%),因安全完成训练和响应细节优化。

  • 提示注入:

    外部团队发现 10 个问题并修复,Gray Swan 基准显示 gpt-5-thinking 在对抗性注入攻击中表现 SOTA。

  • 微软红队评价:

    在前沿危害、内容安全领域优于 OpenAI o3,对多语言支持提升,但在心理社会危害领域仍需改进。

五、准备框架
  1. 能力评估:
  • 生物化学:

    列为 “高能力”,通过长文本生物风险问题、病毒学故障排除等评估,gpt-5-thinking 在 ProtocolQA Open-Ended 中表现接近专家(低于共识专家基线 54%)。

  • 网络安全:

    未达高风险,在 CTF 挑战、Cyber Range 中表现与前代相当,gpt-5-thinking-mini 在部分场景有提升。

  • 安全保障措施:
  • 模型训练:

    拒绝武器化请求,限制双用途信息的详细程度。

  • 系统级防护:

    两级监控(主题分类器 + 推理监控),生物相关内容 F1 分数 0.730,召回率 0.838。

  • 账户与 API 控制:

    通过 safety_identifier 追踪用户,对恶意使用实施封禁;Trusted Access Program 向 vetted 用户开放受限版本。

六、附录

补充了 gpt-5-thinking-mini/nano 的安全评估结果,以及幻觉评估的分步骤事实核查流程(列事实→批量核查)。

关键问题:

  1. GPT-5 在幻觉减少方面有哪些具体改进?
    答:gpt-5-main 的幻觉率(含轻微和重大错误的事实主张比例)比 GPT-4o 低 26%,gpt-5-thinking 比 OpenAI o3 低 65%;在响应级,gpt-5-main 的 “含至少 1 个重大错误” 的响应减少 44%,gpt-5-thinking 减少 78%。在 LongFact 和 FActScore 基准中,gpt-5-thinking 的幻觉率仅约 0.6%-2.1%(OpenAI o3 为 5.1%-37.7%)。

  2. GPT-5 在生物化学高风险领域采取了哪些核心安全保障措施?
    答:包括(1)模型训练:拒绝武器化请求,限制双用途信息的详细程度;(2)系统级防护:两级监控(主题分类器识别生物内容,推理监控分类威胁等级),F1 分数 0.730,召回率 0.838;(3)账户与 API 控制:通过 safety_identifier 追踪用户,对恶意使用实施封禁;(4)Trusted Access Program:向经过审核的生物防御等领域用户开放受限版本,平衡安全与科研需求。

  3. 红队测试中,GPT-5 在暴力攻击规划和提示注入场景的表现如何?

    答:在暴力攻击规划中,25 名专家红队测试显示,gpt-5-thinking 被评为 “更安全” 的比例达 65.1%(OpenAI o3 为 34.9%),因安全完成训练和响应细节优化;在提示注入场景,外部团队发现 10 个问题并修复,Gray Swan 基准显示其在对抗性注入攻击中表现 SOTA,微软红队认为其在该领域安全性能与 OpenAI o3 相当或更优。

论文链接:https://frontiersonline.feishu.cn/wiki/OFXwwSTYjiCGIAkU009cFnCqnMd?from=from_copylink

「在看」,给前前加鸡腿

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3天暴跌40%!被套牢的中国大妈,该醒醒了:黄金并非避险资产

3天暴跌40%!被套牢的中国大妈,该醒醒了:黄金并非避险资产

蜉蝣说
2026-03-27 15:55:48
“原来骑手知道你在看配送进度”冲上热搜,美团回应:谣言!只有点击催单才会触发骑手提醒

“原来骑手知道你在看配送进度”冲上热搜,美团回应:谣言!只有点击催单才会触发骑手提醒

大象新闻
2026-03-28 00:49:03
汽车之家辟谣S9麋鹿测试,华为又躺枪了

汽车之家辟谣S9麋鹿测试,华为又躺枪了

科技每日推送
2026-03-26 16:47:52
张雪峰离世后,我才读懂《明朝那些事儿》最后一句话

张雪峰离世后,我才读懂《明朝那些事儿》最后一句话

洞见
2026-03-27 21:48:24
馋哭了!600场售罄+市值第一!这队妥妥的NBA顶流啊!

馋哭了!600场售罄+市值第一!这队妥妥的NBA顶流啊!

柚子说球
2026-03-27 08:24:24
我是新加坡人,刚从河南回来,实在忍不住想说:对河南的3点印象

我是新加坡人,刚从河南回来,实在忍不住想说:对河南的3点印象

千秋文化
2026-03-27 20:29:51
男子驾驶小客车因避让非机动车撞及多名行人,警方通报

男子驾驶小客车因避让非机动车撞及多名行人,警方通报

界面新闻
2026-03-27 21:22:45
搜狐马拉松生图太残酷,阿Sa同框林志玲,42岁输在满脸疲态?

搜狐马拉松生图太残酷,阿Sa同框林志玲,42岁输在满脸疲态?

娱乐领航家
2026-03-27 19:00:03
深夜,全线大跌!美国、以色列,发动空袭!

深夜,全线大跌!美国、以色列,发动空袭!

证券时报
2026-03-28 01:41:07
韦德驳斥贝弗利所谓哈登强过他言论:有些人只是健康而已,没人比我更出色

韦德驳斥贝弗利所谓哈登强过他言论:有些人只是健康而已,没人比我更出色

林子说事
2026-03-28 06:13:08
张雪峰遗嘱曝光,最大的受益者是她!

张雪峰遗嘱曝光,最大的受益者是她!

仕道
2026-03-27 11:21:29
男子用专业设备给妻子拍照遭景区多次驱赶,万岁山武侠城道歉

男子用专业设备给妻子拍照遭景区多次驱赶,万岁山武侠城道歉

闪电新闻
2026-03-27 17:27:59
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
事关安全生产!省政府发布重要通知→

事关安全生产!省政府发布重要通知→

大象新闻
2026-03-27 19:33:04
特斯拉新款 Model 3 真要来了!内饰全面升级

特斯拉新款 Model 3 真要来了!内饰全面升级

XCiOS俱乐部
2026-03-27 20:21:20
香港知名冻龄女星文颂娴,时隔二十年复出拍戏,婚姻状态耐人寻味

香港知名冻龄女星文颂娴,时隔二十年复出拍戏,婚姻状态耐人寻味

绚丽的画卷
2026-03-27 23:44:30
拉菲尼亚预计缺席巴萨接下来6场比赛:含欧冠西甲三战马竞

拉菲尼亚预计缺席巴萨接下来6场比赛:含欧冠西甲三战马竞

懂球帝
2026-03-28 03:39:12
美方承认犯下的错误,特朗普之前真的没料到,中国敢跟美国这么打

美方承认犯下的错误,特朗普之前真的没料到,中国敢跟美国这么打

三农老历
2026-03-28 01:46:26
多国动手!太子集团陈志引渡受审,背后大佬隐姓埋名15年藏太深

多国动手!太子集团陈志引渡受审,背后大佬隐姓埋名15年藏太深

哭蓝了海a
2026-03-28 02:06:44
笑完F-35后,回旋镖又飞回来了?德专家:歼-35战斗机外挂霹雳-10

笑完F-35后,回旋镖又飞回来了?德专家:歼-35战斗机外挂霹雳-10

啸鹰评
2026-03-26 22:30:39
2026-03-28 07:28:49
前沿在线 incentive-icons
前沿在线
前沿在线官方账号,关注AI、机器人、智能车等前沿领域;
126文章数 1235关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

男医生给孕妻做彩超 丈夫崩溃撞墙:不过了 明天就离婚

头条要闻

男医生给孕妻做彩超 丈夫崩溃撞墙:不过了 明天就离婚

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

旅游
时尚
手机
艺术
公开课

旅游要闻

日照岚山“打飞的”赏春成新时尚

推广中奖名单-更新至2026年3月11日推广

手机要闻

iPhone 18爆料:只有灵动岛变小了?

艺术要闻

一位好“色”的摄影师

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版