网易首页 > 网易号 > 正文 申请入驻

GPT-5.2 凌晨发布:这一次,OpenAI 不想做题,只想帮你搞钱!

0
分享至

★ 设为星标 | 只讲人话,带你玩转AIGC。

GPT-5.2 终于发布了!

虽然我已经以 Gemini 为主,但 GPT 的每次更新仍然受到极大的关注(包括我)。


这次到底更新了些啥?

简单来说,各项指标超越 Gemini 3 Pro,让 OpenAI 居然又重回了王座。


但,并没有形成那种“外星人降临”的碾压优势。

不过,细节里全是魔鬼。我们具体来扒一扒。

OpenAI 官方开篇定调非常高,直接说 GPT-5.2 是迄今为止功能最强大的专业知识工作模型。

啥叫专业知识工作模型?

把官方那堆技术黑话翻译一下,意思就是:它不再满足于当你的陪聊对象,它现在想做你的“脑力合伙人”。

这一次,OpenAI 显然是急了,它甚至不屑于跟你谈什么“通用智能”的梦想,而是把“搞钱”这三个字写在了脸上。

它这次的技能点,全点在了打工人的痛点上:做表(Excel)、画饼(PPT)、写代码,以及那些让人头秃的长文档。

它就是为了创造“经济价值”而生的 。

到底有多强?聊聊 GDPval。

为了证明自己“值钱”,OpenAI 甚至抛弃了那些传统的 MMLU 考试分数。

他们抛出了一个听起来就充满金钱味道的新指标:GDPval。 (这名字一听就是奔着生产总值GDP去的)

可能很多人没听说过这个评测集。 这是 OpenAI 专门为了衡量“真实世界打工能力”搞出来的。

他们在 44 个核心职业(律师、市场经理、工程师等)里,找了一帮平均工龄 14 年的资深专家,出了 1320 道真实的“地狱级工作任务” 。

注意,不是做选择题。 是让你真的去改合同、写全案 PPT、优化生产线图纸。这些任务,人类专家平均要花 7 个小时才能做完 。

结果呢?经过双盲测试,GPT-5.2 在 70.9% 的情况下,干得比这些人类专家更好,或者至少打个平手 。


图:在 GDPval 中,模型尝试完成涵盖美国 GDP 贡献最大的九大行业中 44 个职业的特定知识工作

这才是最恐怖的。

它的参照系不是刚毕业的大学生,而是行业专家。 也就是说,在一个有着十几年经验的采购经理面前,GPT-5.2 干出来的活儿,有七成的时候,比他干得还好。

甚至于说,GPT-5.2 Thinking 生成的电子表格和幻灯片在复杂程度和格式方面都有所提高。


说白了: 以前的 GPT 是个学霸,现在的 GPT-5.2 是个熟手。

那么,它是怎么做到这一点的?

这背后其实是一场架构级的革命。

OpenAI 官方直言不讳:这是自 GPT-5 以来,GPT 系列在智能体编程(Agentic Coding)领域跨度最大的一次飞跃。


图:在SWE-Bench Pro中(在新窗口中打开)⁠ ⁠ ⁠,给定一个代码库,模型必须生成一个补丁来解决一个实际的软件工程任务。

为了证明自己不是自嗨,他们这次直接拉来了 Windsurf 和 Devin 站台。 这两位可是现在 AI 编程界的顶流。

官方直接宣布,GPT-5.2 将成为这两个工具的默认核心模型 。

这说明啥?说明这玩意儿已经经受住了最残酷的生产环境考验。

但真正让我觉得牛逼的,是背后的技术逻辑发生了质变。

以前我们为了让 AI 干点复杂的活,得搭建一套脆弱的“多智能体系统”。

就像拉了一群各怀鬼胎的实习生在开会,一个负责想,一个负责写,一个负责改,管理起来极其麻烦,还容易崩 。

而 GPT-5.2 直接解锁了一种全新的架构:单一超级智能体(Single Mega-agent)。

这就好比把那一屋子实习生全裁了,换来了一个精通 20 多种工具的全能大神 。它不仅反应更快、脑子更灵光,而且维护起来简单了 100 倍。

除了脑子好,它的“手眼”也进化了。

为了配得上“超级智能体”这个称号,OpenAI 这次给 GPT-5.2 装上了更强的配件:

1. 手更快了

以前的 AI 调用工具(比如联网搜素、画图、跑代码)总有种“卡顿感”。但官方这次特别强调:延迟大幅降低,而且工具调用能力变得极强。

这意味着什么?

意味着它在多个工具之间切换,丝滑得像是在切菜。

它不再是一个个蹦字的聊天机器人,而是一个能瞬间调起计算器、浏览器、代码解释器的“快手”。嗯?

2. 眼睛更尖了

看一眼官方放出的演示图: 它能直接看懂复杂的波浪模拟参数,甚至能精准识别电路板上的每一个元器件。


图:GPT 5.2 可以识别出元部件

这说明它的视觉能力已经脱离了“认猫认狗”的初级阶段,开始进入工业级的精细识别了。

配合长上下文能力 ,不管是几千行的代码屎山,还是几十页的复杂电路图,它都能一口吞下,并且过目不忘。

实际上,这使得专业人士能够使用 GPT-5.2 处理长篇文档,例如报告、合同、研究论文、笔录和多文件项目,同时在数十万个词元中保持一致性和准确性。


图:GPT 5.2 的长上下文处理

所以,GPT-5.2 特别适合深度分析、综合和复杂的多源工作流程。

但真正的“重头戏”,是这个:ARC-AGI 2

如果说 GDPval 是测它能不能干活,那 ARC-AGI 2 就是测它到底有没有脑子。

老粉都知道,ARC 评测集是 AI 圈最难啃的骨头,甚至没有之一。

它是由 Keras 之父 François Chollet 搞出来的,专门用来反死记硬背的。

比如这种题目:


图:ARC AGI2 题目


图:ARC AGI2 题目

以前的模型,MMLU 这种考试能拿 90 分,一碰到 ARC 这种需要“举一反三”的智力题,立马现原形,得分低得可怜。

大家猜猜上一代的 GPT-5.1 Thinking 拿了多少分?

17.6%。

但这次,GPT-5.2 干到了多少?52.9%。

兄弟们,这是 3 倍的暴涨。这不是“挤牙膏”,这是直接把牙膏管踩爆了。

为了让大家有个概念,目前市面上最强的竞品 Gemini 3 Pro 和 Claude,在这个榜单上的分数大约在 31% - 37% 之间(取决于版本)。


也就是说,OpenAI 这一次在纯智商层面,不仅甩开了对手,更是跨越了一个巨大的鸿沟。

这意味着 GPT-5.2 终于突破了那层窗户纸:它开始具备真正的通用推理能力了。

它遇到没见过的新问题,不再是去翻记忆库里的答案(因为根本没有),而是像人类一样,现场观察规律、现场推理、现场解决。

顺便提一嘴,在另一个数学竞赛 AIME 2025 里,GPT-5.2 直接拿了 100% 的满分。

这可是全美高中数学联赛。 以前我们还在讨论 AI 能不能及格,现在它已经把卷子做穿了。

相比于它能多写两行代码,我觉得这一点,才是这次更新里最硬核、最不容忽视的里程碑。

总结一下:

GPT-5.2 Instant、思考版和 Pro 版本今日开始推送,首先面向 Plus、Pro、Business 和 Enterprise 套餐用户。

免费版和 Go 用户将于明天获得访问权限。

GPT-5.2 在我心中,是一个极其合格,甚至有点“过于务实”的迭代。

它没有像过去那样,疯狂去卷那些虚头巴脑的考试分数,而是把所有的技能点,都死磕在了“怎么帮白领干活”这件事上。

它不跟你谈星辰大海,只跟你谈降本增效;不跟你炫耀参数,只给你看GDPval。

这个点,我觉得就很酷,非常的刚需。

虽然从“好玩”或者“科幻感”的角度来说,GPT-5.2 可能没有 Gemini 3 Pro 原生多模态带来的那种丝滑震撼。

(毕竟谷歌同步发行了 Nano Banana Pro,期待 GPT Image 早日发布)

但如果你是为了工作,为了搞钱,为了早点下班去陪家人。那 GPT-5.2 可能是目前地表最强、也是最值得你掏钱的生产力工具 。

好了,就扒到这里,如果觉得这篇文章对你有用,别忘点赞,♥️并转发给你的朋友哦~

我们下次再见。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比达尔女友晒度假比基尼照,六块腹肌成焦点

比达尔女友晒度假比基尼照,六块腹肌成焦点

懂球帝
2026-01-28 11:05:13
黄磊深夜破防!全英文声明救不了女儿,这次输在哪?

黄磊深夜破防!全英文声明救不了女儿,这次输在哪?

墨羽怪谈
2026-01-28 16:36:33
4岁儿子被拐3年后,母亲上街被畸形儿乞丐拉住,看到他指甲后愣住

4岁儿子被拐3年后,母亲上街被畸形儿乞丐拉住,看到他指甲后愣住

罪案洞察者
2025-10-13 11:17:44
广东3消息!朱芳雨重要决定,徐杰打宁波复出,焦泊乔伤情更新

广东3消息!朱芳雨重要决定,徐杰打宁波复出,焦泊乔伤情更新

多特体育说
2026-01-29 00:05:03
女儿正上大学突然失联,2年后父亲上网发现其已结婚生子!“闺女叫他们洗脑了!”婆家却指娘家“偏心兄弟”:叫儿媳拾破衣服穿!

女儿正上大学突然失联,2年后父亲上网发现其已结婚生子!“闺女叫他们洗脑了!”婆家却指娘家“偏心兄弟”:叫儿媳拾破衣服穿!

大象新闻
2026-01-27 17:45:03
读秒破门,特鲁宾是首位在欧战对阵皇马进球的门将

读秒破门,特鲁宾是首位在欧战对阵皇马进球的门将

懂球帝
2026-01-29 06:20:25
2-4!姆巴佩双响,皇马跌出前8,门将98分钟破门,穆帅神奇逆袭

2-4!姆巴佩双响,皇马跌出前8,门将98分钟破门,穆帅神奇逆袭

我的护球最独特
2026-01-29 06:29:53
他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

小熊侃史
2026-01-06 11:17:00
上海机场全面拉响警报!尼帕病毒来袭,七天封闭防控守住国门

上海机场全面拉响警报!尼帕病毒来袭,七天封闭防控守住国门

奇思妙想生活家
2026-01-29 03:44:39
男子10米坠落生命垂危,上海六院急诊抢救一体化单元创造“40分钟奇迹”

男子10米坠落生命垂危,上海六院急诊抢救一体化单元创造“40分钟奇迹”

文汇报
2026-01-27 19:11:09
大众需要真相,朝廷维持现状

大众需要真相,朝廷维持现状

我是历史其实挺有趣
2026-01-27 18:48:36
刘强东给村民发年货,礼单曝光,网友羡慕哭了,老父亲给大家发糖

刘强东给村民发年货,礼单曝光,网友羡慕哭了,老父亲给大家发糖

摸爬滚打的烙印
2026-01-28 13:20:13
金建希逃过一劫!改判1年8月,用捅刀老公换来了李在明手下留情

金建希逃过一劫!改判1年8月,用捅刀老公换来了李在明手下留情

白露文娱志
2026-01-28 16:20:17
266比199,日本新首相或是他,对华态度成亮点,高市大概率被抛弃

266比199,日本新首相或是他,对华态度成亮点,高市大概率被抛弃

琉璃聊科学
2026-01-28 10:25:14
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
一夜七转会:帕尔默加盟曼联,富勒姆双签,阿隆索欲执教红军

一夜七转会:帕尔默加盟曼联,富勒姆双签,阿隆索欲执教红军

老垯科普
2026-01-28 06:23:27
郑州失联6天女孩已死亡!哥哥悲痛发声,邻居透露更多,原因曝光

郑州失联6天女孩已死亡!哥哥悲痛发声,邻居透露更多,原因曝光

奇思妙想草叶君
2026-01-29 02:00:11
上期所、上金所双双发布通知

上期所、上金所双双发布通知

环球网资讯
2026-01-28 21:38:44
但斌91亿元美股持仓出炉:大幅加仓谷歌至第一重仓股,英伟达退居次席

但斌91亿元美股持仓出炉:大幅加仓谷歌至第一重仓股,英伟达退居次席

澎湃新闻
2026-01-28 18:58:19
2026-01-29 06:55:00
AI范儿 incentive-icons
AI范儿
AI范儿是一个专注于人工智能领域的资讯和学习平台,提供最新的人工智能资讯
652文章数 429关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

手机
教育
时尚
家居
军事航空

手机要闻

HyperOS 3.1淘汰名单:REDMI K60、POCO F5在列,有你的手机吗

教育要闻

2026届志愿填报干货!这些专业公认难学易熬夜,普通考生慎选

想年前用3周“刷新”好状态?做第一点就够

家居要闻

跃式别墅 包络石木为生

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版