网易首页 > 网易号 > 正文 申请入驻

OpenAI十周年,火速发布GPT-5.2,奥特曼:十年后将构建出超级智能

0
分享至

面对谷歌等竞争对手带来的压力,在红色紧急状态下的OpenAI,在十周年之际火速发布GPT-5.2。

当地时间12月11日,OpenAI正式推出最新模型GPT-5.2,据官方介绍,该模型适用于专业工作和长时运行智能体,是迄今为止适用于专业知识工作的最强模型系列,在通用智能、长上下文理解、智能体化工具调用和视觉方面得到显著改进,在执行端到端的复杂现实世界任务方面优于以往的模型。

GPT‑5.2共有Instant、Thinking和Pro三个版本,将从今天开始向付费计划用户逐步推出,在 ChatGPT 中,GPT‑5.1将继续对付费用户可用三个月,之后将停止支持。在API(应用接口)中,已对所有开发者开放。

OpenAI CEO山姆·奥特曼(Sam Altman)发文表示:“即使没有诸如输出精美文件这类新功能,GPT-5.2也感觉像是我们许久以来获得的最大升级。​”

据介绍,GPT-5.2在多数基准测试中都达到了新的先进水平,在GDPval测试中(GDPval是OpenAI推出的AI评估基准,旨在衡量前沿模型在真实经济价值任务中的表现,以弥补学术测试与实际应用间的差距),在涵盖44个职业、定义明确的知识工作任务上,表现优于行业专业人士。


GPT-5.2在GDPval测试中的表现,Thinking版在70.9%的比较中击败或持平顶尖行业专业人士。

编码能力方面,GPT-5.2在SWE-Bench Pro(一项对现实世界软件工程进行的严格评估,测试四种语言,旨在更具抗污染性、挑战性、多样性和行业相关性)上,Thinking版取得了 55.6%的最高成绩,在SWE-bench Verified上,Thinking版取得了80%的高分。


OpenAI表示,对于日常专业使用而言,这意味着模型能够更可靠地调试生产代码、实现功能请求、重构大型代码库,并以更少的人工干预端到端地发布修复。

GPT‑5.2 Thinking在前端软件工程方面也优于GPT‑5.1 Thinking。早期测试者发现它在前端开发和复杂或非传统的 UI 工作(尤其是涉及 3D 元素的工作)方面明显更强,比如制作海洋波浪模拟、假日贺卡制作器、打字游戏等。

据介绍,GPT‑5.2 Thinking的事实准确性、长上下文、视觉以及工具调用性能都迎来大幅提升。比GPT‑5.1 Thinking的幻觉更少,在一组匿名查询中,包含错误的回答相对减少了30%;在4-needle MRCR 变体(长达 256k token)任务上实现接近100%准确率,同时,对于需要思考超出最大上下文窗口的任务,GPT‑5.2 Thinking与OpenAI新的Responses /compact端点兼容,扩展了模型的有效上下文窗口;视觉方面,GPT‑5.2 Thinking成为OpenAI迄今为止最强的视觉模型,在图表推理和软件界面理解方面的错误率大约降低了一半,还能更好地理解图像中元素的定位;工具调用性能方面,GPT‑5.2 Thinking在Tau2-bench Telecom测试上实现了98.7%的得分,对于延迟敏感的使用场景,其在reasoning.effort='none'(无推理)设置下的表现也远优于GPT‑5.1和GPT‑4.1。


GPT‑5.2与GPT-5.1的视觉能力对比。

在科学与数学能力方面。在 GPQA Diamond(研究生级别的、防谷歌的问答基准)测试上,GPT‑5.2 Pro达到93.2%,GPT‑5.2 Thinkin达到92.4%。

OpenAI表示,在最近与GPT‑5.2 Pro合作的研究中,研究人员探索了统计学习理论中的一个开放性问题。在特定、明确界定的设定下,模型提出了一个证明,随后得到了作者的验证,并与外部专家一起进行了审查,这证明了前沿模型已经在人类的密切监督下协助数学研究。

同时,在ARC-AGI 1(衡量通用推理能力的基准)测试上,GPT‑5.2 Pro成为第一个突破90%阈值的模型,相比去年o3‑preview的87%有所提高,同时将实现该性能的成本降低了约390倍。

在难度更高、更能隔离流体推理能力的 ARC-AGI-2基准测试上,GPT‑5.2 Thinking在思维链模型中得分为 52.9%,GPT‑5.2 Pro更是达到 54.2%,模型的推理新颖性、抽象问题的能力进一步提升。

值得一提的是,当天还是OpenAI成立十周年,奥特曼发布了题为《十年》的博客,回顾了OpenAI成立十年来的突破、经验教训以及有关AGI的思考。

他表示,OpenAI取得的成就超出了他最大胆的梦想,“我们当初设定了一个疯狂、不太可能且史无前例的目标。从极度不确定的开端起步,尽管希望渺茫,但通过持续努力,现在看来,我们似乎有望实现我们的使命”。

奥特曼表示,当他回顾早期的照片时,首先震惊于每个人看起来都那么年轻。接着,又震惊于每个人看起来都异常乐观,而且那么快乐。“那是一段疯狂而快乐的时光:尽管我们被严重误解,但我们怀着坚定的信念,觉得这件事意义重大,即使成功机会渺茫也值得为之付出巨大努力,我们拥有非常有才华的人,并且目标明确”。


OpenAI在十周年视频中发布的创业早期照片。

他表示,三年前推出ChatGPT时,世界注意到了,而当推出 GPT-4 时,反响更是热烈;突然间,考虑通用人工智能(AGI)不再是件疯狂的事。“过去的三年极其紧张,充满了压力和重大的责任;这项技术以前所未有的规模和速度融入了世界。这需要我们以极高的执行力来完成,而且我们不得不立即为此建立一种全新的能力。在这段时间里,从一无所有成长为一家庞大的公司绝非易事,需要我们每周做出成百上千个决策。我为团队做出的许多正确决策感到自豪,而那些错误的决策,则大多是我的责任”。

奥特曼表示从未对OpenAI的研究、产品路线图以及整体上通向使命的路径感到如此乐观。再过十年,几乎可以肯定OpenAI将构建出超级智能。“我预计未来会让人感到奇妙;从某种意义上说,日常生活和我们最关心的事情变化会非常小,我敢肯定,我们将继续更关注其他人的行为,而非机器的行为。但从另一种意义上说,2035年的人们将能够做到一些我认为我们现在难以轻易想象的事情”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
与柯文哲黄国昌两人都保持不正当男女关系?民众党这个人正式回应

与柯文哲黄国昌两人都保持不正当男女关系?民众党这个人正式回应

吃货的分享
2026-05-10 08:13:48
从场均34分到场均21分!承认吧,没了罚球之后你真达不到MVP级别

从场均34分到场均21分!承认吧,没了罚球之后你真达不到MVP级别

大卫的篮球故事
2026-05-10 15:23:34
火烈鸟导弹捅破俄后方铁幕,工厂被掀翻,S400雷达零件线也被掐断

火烈鸟导弹捅破俄后方铁幕,工厂被掀翻,S400雷达零件线也被掐断

知法而形
2026-05-07 18:50:30
803人分14亿!中际旭创市值破万亿,光模块一哥有多牛?

803人分14亿!中际旭创市值破万亿,光模块一哥有多牛?

慧眼看世界哈哈
2026-05-10 17:44:41
小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络!

小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络!

另子维爱读史
2026-05-10 11:05:38
郑钦文排名跌至53!法网需保分430,若无法打进八强,恐出前80!

郑钦文排名跌至53!法网需保分430,若无法打进八强,恐出前80!

海浪星体育
2026-05-10 10:27:13
求救也晚了,伊朗宣布对美舰开火,话音刚落,土耳其摆出洲际导弹

求救也晚了,伊朗宣布对美舰开火,话音刚落,土耳其摆出洲际导弹

潮鹿逐梦
2026-05-09 18:49:49
圣罗兰“拉黑”杭州一条街道?记者实测20个地址全部被拒发货

圣罗兰“拉黑”杭州一条街道?记者实测20个地址全部被拒发货

澎湃新闻
2026-05-10 10:26:27
公务员车补改革12年了,事业编会在2026年全面落实车补吗?

公务员车补改革12年了,事业编会在2026年全面落实车补吗?

细说职场
2026-05-10 10:23:27
别再骂女明星捂胸了!杨幂的 “上帝视角”,说出了行业的无奈

别再骂女明星捂胸了!杨幂的 “上帝视角”,说出了行业的无奈

橙星文娱
2026-05-10 13:17:41
研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

黯泉
2026-04-01 17:28:39
张静初,面临被起诉

张静初,面临被起诉

第一财经资讯
2026-05-10 12:11:17
彻底不装了?特朗普访华再生变!中方提的要求,美方竟然一口回绝

彻底不装了?特朗普访华再生变!中方提的要求,美方竟然一口回绝

到此为止的印象
2026-05-09 13:39:53
晚唐的实际掌权人-晚唐十大节度使

晚唐的实际掌权人-晚唐十大节度使

舆图司马
2026-05-09 21:00:03
100架美军机已经到位!开始动手前,美方对中国提了一个霸道要求

100架美军机已经到位!开始动手前,美方对中国提了一个霸道要求

流史岁月
2026-05-06 13:25:04
央视直播10日伦敦世乒团体赛,决赛中国双线战日本

央视直播10日伦敦世乒团体赛,决赛中国双线战日本

乒乓球球
2026-05-10 07:03:42
高市早苗表情管理又崩了:与澳大利亚总理同行时,突然张大嘴巴!

高市早苗表情管理又崩了:与澳大利亚总理同行时,突然张大嘴巴!

阿龙聊军事
2026-05-09 19:23:40
任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

心理观察局
2026-05-04 08:51:11
名记:科比历史第八!他从未在哪一年是联盟第一人!

名记:科比历史第八!他从未在哪一年是联盟第一人!

历史第一人梅西
2026-05-10 08:11:33
72年李讷生娃,江青面无表情:我们家的孩子不叫姥姥,叫我奶奶

72年李讷生娃,江青面无表情:我们家的孩子不叫姥姥,叫我奶奶

海佑讲史
2026-03-27 11:45:12
2026-05-10 20:00:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
894936文章数 5090840关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

"孕妇泰国坠崖"当事人王暖暖病房落泪:只为陪孩子长大

头条要闻

"孕妇泰国坠崖"当事人王暖暖病房落泪:只为陪孩子长大

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

时尚
教育
游戏
本地
健康

今年最好看的衬衫竟然是它?太减龄了!

教育要闻

被三桶油看上的6所大学,不是211,不是双一流,毕业就业超级好!

LCK第二赛段:许秀和DK领先后,不会打比赛!T1直落两局横扫DK

本地新闻

用苏绣的方式,打开江西婺源

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版