《GPT-5 System Card.pdf》为 OpenAI 发布的 GPT-5 系统说明。该系统含快速高吞吐量模型(如 gpt-5-main)和深度推理模型(如 gpt-5-thinking),通过实时路由选模型,未来计划整合为单模型。GPT-5 在安全上从 “硬拒绝” 转向 “安全完成” 策略,减少幻觉、谄媚等问题,红队测试验证其在暴力攻击规划等场景更安全。在生物化学领域列为 “高能力”,有多层防护;网络安全未达高风险。还涉及模型训练、外部评估等内容,展现其技术突破与安全考量。
整理:前沿在线 编辑部
GPT-5是由 OpenAI 推出的统一系统,包含gpt-5-main(快速高吞吐量模型)、gpt-5-thinking(深度推理模型)等多个版本,且通过实时路由选择模型。其在安全性能上有显著改进,从传统的 “硬拒绝” 转向安全完成(safe-completions)策略,减少了幻觉(如 gpt-5-thinking 比 OpenAI o3 降低 65%)、谄媚(离线评估中 gpt-5-main 比 GPT-4o 提升近 3 倍)等问题。通过红队测试(超 400 名外部测试者耗时超 9000 小时)和外部评估,验证了其在暴力攻击规划、提示注入等场景的安全性。在生物化学和网络安全领域被列为 “高能力”,并实施了多层防护措施(如模型训练、系统级监控、账户级 enforcement),同时在健康、多语言等任务上表现优于前代模型。
一、GPT-5 系统概述
- 模型组成:
包含多个版本,按功能分为快速高吞吐量模型(gpt-5-main、gpt-5-main-mini)和深度推理模型(gpt-5-thinking、gpt-5-thinking-mini、gpt-5-thinking-nano、gpt-5-thinking-pro)。
- 路由机制:
实时路由根据对话类型、复杂度等选择模型,且持续通过用户信号(如模型切换、偏好率)优化。
- 与前代对应关系
前代模型
GPT-5 模型
GPT-4o
gpt-5-main
GPT-4o-mini
gpt-5-main-mini
OpenAI o3
gpt-5-thinking
OpenAI o4-mini
gpt-5-thinking-mini
GPT-4.1-nano
gpt-5-thinking-nano
OpenAI o3 Pro
gpt-5-thinking-pro
二、模型数据与训练
- 训练数据:
涵盖公开互联网信息、第三方合作数据、用户 / 研究员生成内容,经严格过滤(如减少个人信息、排除有害内容)。
- 推理模型训练:
通过强化学习实现 “思考后回答”,生成内部思维链以优化策略、识别错误,提升安全性和规则遵循能力。
- 核心安全策略:
从 “硬拒绝” 转向安全完成(safe-completions),聚焦输出安全性而非用户意图的二元分类,提升双用途场景安全性和有用性。
- 关键评估结果:
- 不允许内容:
在标准评估中,gpt-5-thinking 在 “仇恨”“暴力非法” 等类别表现达 1.000;生产基准中,“非法暴力” 类别 gpt-5-thinking(0.912)优于 OpenAI o3(0.829)。
- 谄媚:
离线评估中,gpt-5-main 得分 0.052(GPT-4o 为 0.145),在线测量中免费用户减少 69%,付费用户减少 75%。
- 幻觉:
gpt-5-main 幻觉率比 GPT-4o 低 26%,gpt-5-thinking 比 OpenAI o3 低 65%;响应级重大错误,gpt-5-main 减少 44%,gpt-5-thinking 减少 78%。
- 欺骗:
通过监测思维链,gpt-5-thinking 在生产流量中欺骗率 2.1%(OpenAI o3 为 4.8%),在编码、浏览工具等场景欺骗率显著降低(如编码欺骗率 0.17 vs OpenAI o3 0.47)。
- 越狱:
在 “暴力提示” 中,gpt-5-thinking 的 “not_unsafe” 指标达 0.999(OpenAI o3 为 0.992)。
- 暴力攻击规划:
25 名专家红队测试中,gpt-5-thinking 被评为 “更安全” 的比例达 65.1%(OpenAI o3 为 34.9%),因安全完成训练和响应细节优化。
- 提示注入:
外部团队发现 10 个问题并修复,Gray Swan 基准显示 gpt-5-thinking 在对抗性注入攻击中表现 SOTA。
- 微软红队评价:
在前沿危害、内容安全领域优于 OpenAI o3,对多语言支持提升,但在心理社会危害领域仍需改进。
- 能力评估:
- 生物化学:
列为 “高能力”,通过长文本生物风险问题、病毒学故障排除等评估,gpt-5-thinking 在 ProtocolQA Open-Ended 中表现接近专家(低于共识专家基线 54%)。
- 网络安全:
未达高风险,在 CTF 挑战、Cyber Range 中表现与前代相当,gpt-5-thinking-mini 在部分场景有提升。
- 安全保障措施:
- 模型训练:
拒绝武器化请求,限制双用途信息的详细程度。
- 系统级防护:
两级监控(主题分类器 + 推理监控),生物相关内容 F1 分数 0.730,召回率 0.838。
- 账户与 API 控制:
通过 safety_identifier 追踪用户,对恶意使用实施封禁;Trusted Access Program 向 vetted 用户开放受限版本。
补充了 gpt-5-thinking-mini/nano 的安全评估结果,以及幻觉评估的分步骤事实核查流程(列事实→批量核查)。
关键问题:
GPT-5 在幻觉减少方面有哪些具体改进?
答:gpt-5-main 的幻觉率(含轻微和重大错误的事实主张比例)比 GPT-4o 低 26%,gpt-5-thinking 比 OpenAI o3 低 65%;在响应级,gpt-5-main 的 “含至少 1 个重大错误” 的响应减少 44%,gpt-5-thinking 减少 78%。在 LongFact 和 FActScore 基准中,gpt-5-thinking 的幻觉率仅约 0.6%-2.1%(OpenAI o3 为 5.1%-37.7%)。GPT-5 在生物化学高风险领域采取了哪些核心安全保障措施?
答:包括(1)模型训练:拒绝武器化请求,限制双用途信息的详细程度;(2)系统级防护:两级监控(主题分类器识别生物内容,推理监控分类威胁等级),F1 分数 0.730,召回率 0.838;(3)账户与 API 控制:通过 safety_identifier 追踪用户,对恶意使用实施封禁;(4)Trusted Access Program:向经过审核的生物防御等领域用户开放受限版本,平衡安全与科研需求。红队测试中,GPT-5 在暴力攻击规划和提示注入场景的表现如何?
答:在暴力攻击规划中,25 名专家红队测试显示,gpt-5-thinking 被评为 “更安全” 的比例达 65.1%(OpenAI o3 为 34.9%),因安全完成训练和响应细节优化;在提示注入场景,外部团队发现 10 个问题并修复,Gray Swan 基准显示其在对抗性注入攻击中表现 SOTA,微软红队认为其在该领域安全性能与 OpenAI o3 相当或更优。
论文链接:https://frontiersonline.feishu.cn/wiki/OFXwwSTYjiCGIAkU009cFnCqnMd?from=from_copylink
点「在看」,给前前加鸡腿
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.