网易首页 > 网易号 > 正文 申请入驻

GPT-5.2 发布|信息全整理

0
分享至

上周,

刚刚,GPT-5.2 来了,包含三个版本

  • GPT-5.2 Instant :日常对话,快

  • GPT-5.2 Thinking :深度任务,代码、长文档、数学、规划

  • GPT-5.2 Pro :最强,适合难题,愿意等

模型肯定是更强的,比如在AIME 2025 中取得满分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相当)

今天开始向付费用户推送,API 已上线,标准版比 GPT-5.1 贵 40%


GPT-5.2 核心评测

如下图所示,是 GPT-5.2 的相关核心数据


GPT-5.2 Benchmark

注意:

  • • AIME 2025 满分(无工具)

  • • GPT-5.2 Pro 在 ARC-AGI-1 上达到 90.5%,是第一个突破 90% 的模型

  • • ARC-AGI-2 从 17.6% 到 52.9%,翻了三倍

处理真实工作

GDPval 是 OpenAI 新出的 benchmark

测的是 44 个职业的真实工作任务:
做 PPT、做表格、写分析报告

GPT-5.2 Thinking 在 70.9% 的任务上胜过或打平行业专家
GPT-5.2 Pro 更高,74.1%


GDPval 知识工作

速度是人类专家的 11 倍,成本不到 1%
一个评审员的评价:
「看起来像是一个有员工的专业公司做的,布局和建议都很专业,虽然还有一些小错误需要修正」

在投行分析师的表格建模任务上
比如给 Fortune 500 公司做三表模型、做 LBO 模型
平均分从 59.1% 提升到 68.4%

官方放了几个对比
GPT-5.2 做的表格和 PPT 比 GPT-5.1 精细很多


Workforce Planner 对比,左边 GPT-5.1,右边 GPT-5.2

要用这个功能,需要付费版(Plus、Pro、Business、Enterprise),选 GPT-5.2 Thinking 或 Pro

复杂任务可能要跑好几分钟

写代码

SWE-Bench Pro 是新的代码 benchmark
比 SWE-bench Verified 更难

测四种语言,不只是 Python,更接近真实软件工程
GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%


SWE-Bench Pro

前端能力也提升了,尤其是 3D 和复杂 UI
官方放了几个 demo,单 prompt 生成的


海浪模拟,单 prompt 生成

对此,Windsurf 的 CEO 表示
「这是 GPT-5 以来 agentic coding 最大的跃升,版本号的小幅升级低估了智能的大幅提升。我们会把它设为 Windsurf 和 Devin 核心工作流的默认模型」

看图

视觉能力提升明显,错误率基本减半


CharXiv Reasoning

CharXiv Reasoning:科学论文图表问答,88.7%,GPT-5.1 是 80.3%

ScreenSpot-Pro,GUI 截图理解,86.3%,GPT-5.1 是 64.2%

此外,一个很明显的区别是:空间位置理解更强了
官方放了个主板识别的对比:给一张低质量的主板图片,让模型标注各个组件的位置

GPT-5.1 只能标几个,位置也不太对


GPT-5.1 主板识别

GPT-5.2 能准确标注各个组件,位置基本对


GPT-5.2 主板识别 长文档

OpenAI MRCRv2,测的是长文档中多个信息点的整合能力
在文档里插入多个相同的「针/needl」,然后问模型第 n 个针的内容是什么

4 needle 变体,GPT-5.2 Thinking 在 256k token 长度接近 100%
GPT-5.1 在同样长度只有 30% 左右

这是第一个在 4-needle 变体上达到接近 100%(256k)的模型


长上下文 4 needles

8 needle 更难,GPT-5.2 也有显著提升


长上下文 8 needles

API 还支持新的 /compact 端点,可以扩展有效上下文窗口,适合工具多、跑得久的任务

工具调用

Tau2-bench 测的是多轮对话中的工具使用,模拟客服场景
Telecom 领域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%
Retail 领域,82.0%,GPT-5.1 是 77.9%


工具调用

官方举了个例子
用户说:我从巴黎飞纽约的航班延误了,错过了转机去奥斯汀,行李也丢了,需要在纽约过夜,还有医疗原因需要前排座位

GPT-5.1 漏了好几步


GPT-5.1 工具调用

GPT-5.2 一次性处理完:改签、特殊座位、赔偿,全部搞定


GPT-5.2 工具调用 数学和科学

AIME 2025 100%,满分,无工具
HMMT 2025 年 2 月 99.4%,Pro 版 100%
GPQA Diamond 92.4%,Pro 版 93.2%
FrontierMath Tier 1-3 40.3%,Tier 4 14.6%
HLE(Humanity's Last Exam)34.5%(无工具),45.5%(有工具)


数学&科学

ARC-AGI 是测抽象推理的

ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一个突破 90%

ARC-AGI-2 更难,GPT-5.2 Thinking 52.9%,Pro 版 54.2%

GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%


ARC-AGI 幻觉

在 ChatGPT 真实用户查询上测试

有错误的回复比例从 8.8% 降到 6.2%,相对减少 30%


幻觉率 价格

涨了
GPT-5.2 比 GPT-5.1 贵 40%;GPT-5.2 Pro 的价格,一如既往的贵到离谱


每百万 token 价格

官方解释:虽然单价更高,但 token 效率更高,达到同样效果的总成本反而更低

ChatGPT 订阅价格不变

可用性

ChatGPT 今天开始向付费用户推送:Plus、Pro、Go、Business、Enterprise
如果还没看到,过几天再试

GPT-5.1 在 ChatGPT 中还会保留三个月,之后下线
API 已经上线:

  • gpt-5.2 :Thinking 版

  • gpt-5.2-chat-latest :Instant 版

  • gpt-5.2-pro :Pro 版

在 PlayGround 里面,可以看到这些模型

新增 xhigh reasoning effort,适合对质量要求最高的任务
GPT-5.1、GPT-5、GPT-4.1 在 API 中暂时不会下线
Codex 优化版即将推出

安全

延续了 GPT-5 的 safe completion 研究
在自杀、自残、心理健康、情感依赖等敏感对话上的表现改进了


安全性评估

开始部署年龄预测模型,18 岁以下用户自动限制敏感内容
官方说过度拒绝的问题还在改进中

最后

总结下本次发布的内容

  • • Code Red 一周后,GPT-5.2 发布,三个版本

  • • 性能更强,价格更贵

  • • 今天开始向付费用户推送,API 已上线


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
改写历史,真主党打进了以色列本土

改写历史,真主党打进了以色列本土

星火聊天下
2026-03-30 16:09:46
70~80岁除不搬重物不爬高外,九个细节要注意,最后一个常被忽略

70~80岁除不搬重物不爬高外,九个细节要注意,最后一个常被忽略

暖风吹过竹林
2026-03-26 10:47:30
中央终于放手!中央交出“定价权”,地方以后只能靠自己抢钱?

中央终于放手!中央交出“定价权”,地方以后只能靠自己抢钱?

混沌录
2026-03-31 17:03:12
瞒不住了!美军战死人数被曝光,内部哗变:绝不替以色列送命!

瞒不住了!美军战死人数被曝光,内部哗变:绝不替以色列送命!

达文西看世界
2026-04-01 10:53:10
父亲去世数月后,母亲随口一句话:“你爸好像埋过什么东西”,浙江男子在楼下花坛挖出31枚雷管

父亲去世数月后,母亲随口一句话:“你爸好像埋过什么东西”,浙江男子在楼下花坛挖出31枚雷管

洪观新闻
2026-04-02 14:43:36
日本女足官方:因合约期满,球队主帅尼尔斯-尼尔森已正式离任

日本女足官方:因合约期满,球队主帅尼尔斯-尼尔森已正式离任

懂球帝
2026-04-02 17:34:03
特朗普小儿子被呼吁参军,美媒:他身高2米多,可能因此不用服役

特朗普小儿子被呼吁参军,美媒:他身高2米多,可能因此不用服役

错过美好
2026-04-01 06:07:23
香港演员施明去世,终年74岁,曾出演《倚天屠龙记》紫衫龙王,精通武术曾做史泰龙保镖

香港演员施明去世,终年74岁,曾出演《倚天屠龙记》紫衫龙王,精通武术曾做史泰龙保镖

大象新闻
2026-03-31 14:49:05
看看这是林志玲多大的时候?

看看这是林志玲多大的时候?

情感大头说说
2026-04-02 08:47:20
吴京和李连杰连线,称已经在尝试功夫短剧

吴京和李连杰连线,称已经在尝试功夫短剧

红星新闻
2026-04-01 18:17:12
伊朗损失惨重!大型地下导弹库被美军炸毁!说明高层依然“内鬼”

伊朗损失惨重!大型地下导弹库被美军炸毁!说明高层依然“内鬼”

萧佉影视解说
2026-04-01 16:23:28
你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

掠影后有感
2026-04-01 20:26:07
不可错过!4月2日晚上18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!4月2日晚上18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-04-02 17:03:02
一场119-113让湖人无奈!首轮对阵基本出炉,火箭掌控季后赛格局

一场119-113让湖人无奈!首轮对阵基本出炉,火箭掌控季后赛格局

八斗小先生
2026-04-02 11:10:17
乒乓球世界杯:王楚钦12-10险胜!0-4逆风翻盘,2-0领先冲16强!

乒乓球世界杯:王楚钦12-10险胜!0-4逆风翻盘,2-0领先冲16强!

刘姚尧的文字城堡
2026-04-01 18:42:40
梅拉尼娅:昔日清澈眼眸动人,如今气场凌厉眼神藏锋芒

梅拉尼娅:昔日清澈眼眸动人,如今气场凌厉眼神藏锋芒

述家娱记
2026-04-01 10:54:46
隋俊波火了,十年没名字的人突然刷屏,观众开始翻她旧剧

隋俊波火了,十年没名字的人突然刷屏,观众开始翻她旧剧

陈意小可爱
2026-04-02 18:40:38
李凯尔仍想为中国男篮出战,归化布朗无实质性进展

李凯尔仍想为中国男篮出战,归化布朗无实质性进展

北青网-北京青年报
2026-04-02 16:46:22
高圆圆一家迪士尼看新花车,7岁爱女身高猛蹿,已超过妈妈腰部

高圆圆一家迪士尼看新花车,7岁爱女身高猛蹿,已超过妈妈腰部

娱珈歪歪鱼
2026-04-02 15:31:01
单依纯唱的《李白》为何这么招人厌?

单依纯唱的《李白》为何这么招人厌?

亮见
2026-04-02 14:53:37
2026-04-02 19:51:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
356文章数 50关注度
往期回顾 全部

科技要闻

三年亏20亿,最新估值58亿,Xreal冲刺港股

头条要闻

凯越机车否认"内涵"张雪机车:张雪离开前持股近36%

头条要闻

凯越机车否认"内涵"张雪机车:张雪离开前持股近36%

体育要闻

邵佳一的改革,从让每个人踢舒服开始

娱乐要闻

宋宁峰带女儿出轨,张婉婷找董璇哭诉

财经要闻

高油价、AI泡沫...谁将压垮美国经济

汽车要闻

轴距2米7/后排能跷腿 试驾后驱小车QQ3 EV

态度原创

房产
艺术
本地
公开课
军事航空

房产要闻

巨无霸来了!海口城更,突然又爆大动作!

艺术要闻

故人西辞黄鹤楼,烟花三月下扬州

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗自杀无人机突进 逼退林肯号航母

无障碍浏览 进入关怀版