网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

2025-12-12 12:49:03　来源: 量子位

香港举报

0

分享至

梦晨发自凹非寺
量子位 | 公众号 QbitAI

红色警报拉响，OpenAI是真急了：

30天，GPT-5.2系列紧接着GPT-5.1而来，这次还专门强化了打工能力。

这是GPT-5.1 Thinking和GPT-5.2 Thinking做人力资源表格的对比：

虽然版本号只加了0.1，但是在多个实用领域都更强了：做表格、做PPT、写代码、理解长文档、调用工具、处理复杂多步骤项目……

视觉理解能力也大幅提升，GPT-5.2能准确标记出更多主板上的元件。

这是GPT-5.2做的网页版波浪模拟器：

如果你遇到航班延误、又错过转机、需要当地过夜以及需要特殊医疗座位，听起来就很头疼。

但GPT-5.2安排好了一切：重新订机票、安排特殊座位和赔偿。

ARC-AGI也在第一时间发布了测试结果。

一年前的o3 (High) 在ARC-AGI-1测试中得分88%，平均每项任务成本为4500美元。

今天的GPT-5.2 Pro (X-High) ，最新SOTA得分为90.5%，平均任务成本仅为11.64美元，在一年内效率提高了约390倍。

同时超过了谷歌Gemini 3 Pro的对应版本（绿色点），也算扳回一局。

拆解GPT-5.2各项能力

高经济价值任务

在GDPval测试中，涵盖美国GDP前九大产业中的44个职业领域，完成人类需要4-8小时才能完成的任务。

在人类评委打分下，GPT-5.2 Thinking与人类专家相比有71%的胜率，GPT-5.2 Pro还能更高一些。

而且速度是人类专家的11倍以上，成本不到人类专家的1%。

在投行分析师的电子表格建模任务上，GPT-5.2 Thinking平均每项任务得分相比GPT-5.1提升了9.3%，从59.1%上升到68.4%。这些任务包括为财富500强公司搭建三表联动模型、构建杠杆收购模型等。

提示：您是一名投资银行分析师，刚刚接到一项任务，需要完成一份瀑布式分析，以了解创始人及现有投资者的所有权和回报情况。您的客户是一家正在考虑 C 轮融资的初创公司。

请查收附件中的模板，您需要对其进行修改。我在 G 列中添加了必要的假设。C 列的名称在普通股部分重复出现，以便于索引。假设包括退出时的股权、系列投资金额、基金所有权、认股权证、清算优先权、转换价格、普通股稀释后股份数和行权价格。假设种子轮、A 轮和 B 轮均为同等权益的非参与性优先股（即，这些轮次的投资者享有同等待遇；对借款人的资产拥有同等的索偿权）

在审查一份特别优秀的成果时，一位GDPval评委表示：

在输出质量上令人兴奋且显著的飞跃……[它]看起来像是由一家专业公司的员工完成的，两份交付成果的布局设计和建议都出人意料地出色，尽管其中一份仍存在一些小错误需要纠正。

要在ChatGPT中使用新的做表格和PPT能力，需要充值Plus、Pro、Business或 Enterprise套餐，选择GPT-5.2 Thinking或Pro版本。生成复杂的内容可能需要几分钟时间。

代码能力

GPT-5.2代码能力同样刷新纪录，在SWE-bench Verified上，得分达到80%。

在SWE-Bench Pro这个更难的软件工程评测上，GPT-5.2 Thinking拿下55.6%的新高。

这个评测不止测Python，还包括JavaScript、TypeScript和Go，更贴近真实工业场景。

早期测试者特别提到，GPT-5.2在前端开发和复杂UI工作上明显更强，尤其是涉及3D元素的场景。

长上下文

长文档处理是这次升级的重头戏。

在OpenAI自制的大海捞针MRCRv2评测中，GPT-5.2 Thinking成为首个在256k 上下文长的4针版（4-needle variant）上达到接近100%准确率的模型。

不过8针版性能还是会随上下文长度明显下降。

对于需要超越最大上下文窗口进行思考的任务，GPT-5.2 Thinking兼容简洁回复模式，能够处理更多工具密集型、长时间运行的工作流。

视觉理解

视觉能力的提升同样显著。

在科学论文图表理解上，GPT-5.2 Thinking的错误率大约降低了一半。

更关键的是，它对图像中元素的空间位置有了更强的把握。

在高分辨率图形面屏幕截图推理测试中，配合Python工具得分达到86.3%。

如果禁用Python工具得分会低很多，OpenAI建议在这样的视觉任务中通通启用工具。

工具调用

工具调用能力同样达到新高度，在Tau2-bench Telecom多轮交互电话客服场景评测上，GPT-5.2 Thinking取得98.7%的成绩。

Tau2-bench Retail零售场景也达到82%。

这些成绩意味着更强大的端到端工作流程，例如解决客户支持案例、从多个系统中提取数据、运行分析以及生成最终输出，且各步骤之间的故障更少。

科学能力

OpenAI一直希望AI能加速科学研究，这次他们相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最适合辅助科学家的模型。

在GPQA Diamond研究生水平的问答评测上，GPT-5.2 Pro拿下93.2%，GPT-5.2 Thinking紧随其后达到92.4%。

在专家级数学评测FrontierMath（Tier 1-3）上，GPT-5.2 Thinking以40.3%的解题率创下新纪录。

官方还透露了一个实际案例：

研究人员使用GPT-5.2 Pro探索了统计学习理论中的一个开放问题，在一个狭窄、明确的设定下，模型提出了一个证明，随后被作者验证并经过同行评审。

事实准确性方面，GPT-5.2 Thinking的幻觉问题相比GPT-5.1从8.8%减少到6.2%。

不过OpenAI也提示模型仍不完美，关键内容还是需要人工复核。

One More Thing

自从Meta疯狂挖人以来，OpenAI都很少在研究进展文章后面附上贡献者列表了，直接统一署名OpenAI了事。

不过从开发者相互祝贺的推文中，还是可以挖出GPT-5.2的几位核心团队成员：多为2024年之后加入OpenAI的新面孔，而且多是数学专业出身。

Yu Bai：北大数院校友、斯坦福统计学博士，2024年5月加入OpenAI。

Yaodong Yu：UC伯克利博士毕业，2024年9月加入OpenAI。

Yufeng Zhang：本科中科大数学系、西北大学博士、字节前研究员，2024年底加入OpenAI

梅松：北大数院校友、斯坦福计算与数学工程博士、UC伯克利助理教授，2025年5月暂离学校加入OpenAI。

Ofir Nachum：MIT CS硕士毕业，前谷歌大脑研究员，2023年加入OpenAI。

每当外界觉得OpenAI进展不及预期的时候，总有新的人才带来新的惊喜。

参考链接：
[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

谷歌Gemma 4论文深夜解封！31B直逼闭源前沿，敲响云端AI丧钟

新智元 2026-07-11 12:47:33
35 跟贴 35
ICML 2026｜小模型也能「指挥」大模型RL后训练：清华&腾讯提出GPS，最高减少69% Rollout成本

机器之心Pro 2026-07-12 17:32:47
0 跟贴 0

GPT-5.6全面上线，Sol掀翻Fable 5，一觉醒来Codex没了？

量子位 2026-07-11 02:56:16
0 跟贴 0

GPT-5.6开放，跑分之外的隐忧：Anthropic反超、微软去OpenAI化

钛媒体APP 2026-07-11 08:11:06
56 跟贴 56
Agentic时代推荐系统范式认知或被颠覆？个性化推荐或将从平台中心转向用户主导

机器之心Pro 2026-07-12 16:23:00
0 跟贴 0

安卓车机Gemini太啰嗦？一个设置让它闭嘴

Ping值焦虑 2026-07-11 01:56:46
0 跟贴 0

Claude出了个「防沉迷」，却可能让你更离不开它

新智元 2026-07-11 18:07:30
0 跟贴 0
别让手机背锅！安卓Auto卡顿，车机才该被骂

固件更新中 2026-07-12 04:05:30
0 跟贴 0

100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
0 跟贴 0
机器之心逛谷歌，分享最热的Self-Improving

机器之心Pro 2026-06-16 12:45:36
0 跟贴 0
酷暑住院病人热得情绪失控，院方死守“下班关空调”条文

究竟视频 2026-07-11 23:54:16
126 跟贴 126
Claude design限速，谷歌开源轻松做动态网页，实力打脸？

机器之心Pro 2026-04-29 17:20:04
0 跟贴 0
他做出爆火的谷歌CLI工具转头却被开除了

量子位 2026-06-28 18:42:01
0 跟贴 0
平民三巨头平替Fable 5！性能追平，成本砍半

量子位 2026-06-21 09:58:58
0 跟贴 0
微软连砍两刀：换掉OpenAI，裁掉3200名Xbox员工

字节漫游指南 2026-07-10 01:12:24
0 跟贴 0
「龙虾之父」吐槽人类互联网后，终于有人把这当个事儿办了

机器之心Pro 2026-03-31 11:09:26
0 跟贴 0
Claude Code 源码泄露了，有人用Python复刻了一个极简版

机器之心Pro 2026-04-02 11:30:10
0 跟贴 0
GPT5.6吞了Codex

虎嗅APP 2026-07-11 05:45:56
1 跟贴 1
苹果状告OpenAI：400多人被挖，带苹果零件去面试

机器之心Pro 2026-07-12 01:57:54
0 跟贴 0
AI打工大排行：Claude Fable 5自动赚钱的能力，是GPT-5.5的2.5倍

新智元 2026-07-12 12:43:54
0 跟贴 0
我看错了Anthropic！骂了大半年，马斯克突然改口

新智元 2026-07-12 15:13:50
0 跟贴 0
北大韦神的课堂，听课的都是硕士博士，瞬间感觉智商被洗礼！

笑到宇宙爆炸社 2026-07-11 11:57:52
1 跟贴 1
神秘Opus 5意外曝光！达里奥紧急开会

新智元 2026-07-12 15:13:37
0 跟贴 0
Claude Code大升级！一行神级命令，编程原地起飞

新智元 2026-07-11 09:21:57
0 跟贴 0
Claude Fable 5省钱秘诀来了：调成Low档比Opus更便宜

量子位 2026-06-11 16:23:55
3 跟贴 3
仅11天，Claude重写百万行代码，AI史诗级工程却引来愤怒

机器之心Pro 2026-07-12 17:18:28
0 跟贴 0
北大韦神的数学课，震撼网友三观，原来数学的尽头是英语！

开心趣多多 2026-07-11 11:38:42
4 跟贴 4
编程已死，键盘长草！Claude Code之父对谈Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
0 跟贴 0
女孩收到北京大学录取通知书，家人放炮拉横幅庆祝

范竹视频 2026-07-12 09:45:56
3445 跟贴 3445
最新研究：生育率下降未必带来经济增长放缓

参考消息 2026-07-12 11:04:17
10220 跟贴 10220
瑞士主帅不解恩博洛被红牌罚下：VAR介入让人无法理喻

红星新闻 2026-07-12 15:08:28
5706 跟贴 5706
帮Gemini拿下IMO金牌的关键先生，差点成了职业钢琴家

量子位 2026-05-30 14:39:54
0 跟贴 0
GPT-5.6被曝重大bug！硅谷大佬Mac被一键清空

新智元 2026-07-11 18:11:01
53 跟贴 53
国内这八所高校，考上就是金饭碗，能考上的也不在乎！

小小萌的搞笑日常 2026-07-12 11:23:33
1 跟贴 1
河南老君山月薪6万招人每天看云海，需在山顶住30天，每天至少发一条短视频，景区：咨询报名者众多，全国仅选一人

极目新闻 2026-07-08 14:01:25
7505 跟贴 7505
中国很有可能不会再出一个清华北大，但北大有可能被上海交大给顶

马刀刻森 2026-07-09 03:42:15
0 跟贴 0
OpenAI招投行专家，年薪只给130万元，评论区都嫌少

算法与数学之美 2026-07-12 18:48:45
0 跟贴 0
ECCV 2026 | 实时导演多镜头长视频! 港中文&快手可灵发布ShotStream

机器之心Pro 2026-07-12 17:12:07
0 跟贴 0
东风奕派M8：华为乾崑ADS 5 PRO 首测，华派的标准，就是精确

钟叔驾道 2026-07-12 20:32:23
4 跟贴 4
这家六小龙上新全家桶，Agent接管终端关键一战！老黄预言时代来了

新智元 2026-07-12 18:01:42
0 跟贴 0

四喜临门！西甲豪门皇马迎4个好消息，穆里尼奥季前备战正式启动

四喜临门！西甲豪门皇马迎4个好消息，穆里尼奥季前备战正式启动

王大发不懂球

2026-07-11 22:00:53

“没有法国人”的法国队：最有冠军相球队所有球员表现评分

“没有法国人”的法国队：最有冠军相球队所有球员表现评分

萧嚉影视解说

2026-07-12 18:46:11

官方通报霸占车位女子处理结果，结局不是停职那么简单

官方通报霸占车位女子处理结果，结局不是停职那么简单

眼界纵横

2026-07-12 07:37:37

12分烂局到19分封神！2场夏联揭穿假象，马刺14号秀骗了所有人

12分烂局到19分封神！2场夏联揭穿假象，马刺14号秀骗了所有人

凡知

2026-07-12 16:20:20

一喝酒就脸红，痴呆蛋白猛涨3倍多？斯坦福最新：喝酒“上脸”者，易加剧脑损伤，促进阿尔茨海默病，诱发神经炎症

一喝酒就脸红，痴呆蛋白猛涨3倍多？斯坦福最新：喝酒“上脸”者，易加剧脑损伤，促进阿尔茨海默病，诱发神经炎症

梅斯医学

2026-07-12 07:56:33

研究发现：黄豆能在14小时内溶解50%的血脂，是真的吗？

研究发现：黄豆能在14小时内溶解50%的血脂，是真的吗？

芹姐说生活

2026-07-12 21:26:14

阎锡山为啥不敢动徐向前家人？不是因为老乡，是怕了这个

阎锡山为啥不敢动徐向前家人？不是因为老乡，是怕了这个

我是孤独的小船

2026-07-12 16:28:14

最新！中超球队爆雷，泰山、铁人被上榜

最新！中超球队爆雷，泰山、铁人被上榜

行舟问茶

2026-07-12 18:41:47

与王治郅离婚10年，如今移居美国成商业女强人，2段婚姻2个儿子

与王治郅离婚10年，如今移居美国成商业女强人，2段婚姻2个儿子

娱妮啵啵啊

2026-07-10 18:27:54

荷兰大臣开门见山：先了结安世半导体，再谈光刻机全面合作

荷兰大臣开门见山：先了结安世半导体，再谈光刻机全面合作

老头的传奇色彩

2026-07-10 19:12:36

杜锋离任48小时，广东宏远彻底清洗：外教上位+交易嫡系

杜锋离任48小时，广东宏远彻底清洗：外教上位+交易嫡系

砚底沉香

2026-07-12 00:41:09

看了赫本再看袁泉，才发现：女人老了还是要“扎发、短发”更体面

看了赫本再看袁泉，才发现：女人老了还是要“扎发、短发”更体面

白宸侃片

2026-07-12 14:26:03

印尼以为镍矿是自己的，赶走中国人后才发现：原来自己是打工的

印尼以为镍矿是自己的，赶走中国人后才发现：原来自己是打工的

南宗历史

2026-06-03 12:22:52

75岁的施南生，传病危了。

TVB的四小花

2026-07-12 12:26:26

管用吗？特朗普担心遭暗杀立“报复遗嘱”

管用吗？特朗普担心遭暗杀立“报复遗嘱”

新华社

2026-07-12 15:56:10

开启度假模式，未婚妻乔治娜晒与C罗自拍合照

开启度假模式，未婚妻乔治娜晒与C罗自拍合照

懂球帝

2026-07-12 01:24:08

异性之间，能长期维持的关系，不是靠很强烈的爱、大量的付出，而是……

异性之间，能长期维持的关系，不是靠很强烈的爱、大量的付出，而是……

十点读书

2026-07-11 18:47:57

这次选队不为冲冠！詹姆斯胡子花白现身纽约：观看Jay-Z演唱会

这次选队不为冲冠！詹姆斯胡子花白现身纽约：观看Jay-Z演唱会

罗说NBA

2026-07-12 06:04:11

说实话，在所有动物的粪便中，人类的粪便最为恶臭恶心。其次是禽

说实话，在所有动物的粪便中，人类的粪便最为恶臭恶心。其次是禽

岁月有情1314

2026-07-11 03:45:23

老婆被冒犯后，乌军旅长“冲冠一怒为红颜”：指派士兵去杀人

老婆被冒犯后，乌军旅长“冲冠一怒为红颜”：指派士兵去杀人

战风

2026-07-12 10:48:03

追踪人工智能动态

12935文章数 176515关注度

往期回顾全部

科技要闻

苹果诉OpenAI细节：一句“笑死”刺痛库克

头条要闻

朝鲜宣布对特大腐败分子的判决金正恩亲自出席会议

头条要闻

朝鲜宣布对特大腐败分子的判决金正恩亲自出席会议

体育要闻

被3个队友锁死，哈兰德以最憋屈的方式出局

娱乐要闻

台媒曝S妈许雅钧诱使具俊晔放弃遗产

财经要闻

美联储和市场将走向何方？

汽车要闻

纯电/增程双动力一汽悦意08正式上市售9.99万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

房产

本地

时尚

公开课

肝病、肾病患者注意！吃粘食要谨慎

房产要闻

重磅学校规划曝光！西海岸教育，正强得可怕！

本地新闻

重庆人有自己的避暑桃花源 | 夏天就去「酉」风的地方！

在离婚边缘疯狂试探，她真打算不过了？

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版