网易首页 > 网易号 > 正文 申请入驻

OpenAI发布GPT-5.2迎战Gemini,号称智能体编码最强,赶超人类专家,Altman料1月解除红色警报

0
分享至

OpenAI周四正式发布GPT-5.2系列模型,打响了迎战谷歌Gemini 3的第一枪。CEO Sam Altman淡化Gemini 3带来的冲击,预计明年1月就可以解除所谓“红色警报”的状态,以非常强劲的姿态重回常态

GPT-5.2是OpenAI迄今最先进的人工智能(AI)模型,针对专业工作场景进行了全面优化,创多个基准测试的行业记录,其中的GPT-5.2 Thinking刷新了SWE编码能力测试的历史最高分,也是OpenAI首个性能达到或超过人类专家水平的模型。

OpenAI应用业务的CEO Fidji Simo表示,GPT-5.2在创建电子表格、制作演示文稿、图像识别、代码编写和长文本理解等方面均优于前代产品,旨在"为人们创造更多经济价值"。OpenAI的研究副总Adain Clark称,GPT-5.2在数学推理方面的进步意味着它能更好地处理金融建模、预测和数据分析等任务。


OpenAI宣布,周四当天GPT5.2就在ChatGPT上线,面向Plus,、Pro、Go、Business和 Enterprise这些付费套餐的用户, 共推出Instant、Thinking和Pro三个版本,API也同步开放给所有开发者。

在ChatGPT中,付费用户可使用三个版本的GPT-5.2,且在未来三个月内仍可继续使用GPT-5.1。在API平台,GPT-5.2定价为每百万输入token 1.75美元、每百万输出token 14美元,缓存输入可享受90%折扣。虽然单token价格高于GPT-5.1,但OpenAI表示,由于模型效率更高,达到相同质量水平的总成本反而更低。


新模型发布是OpenAI对Gemini 3掀起又一轮竞争的正式回应。本周稍早媒体称OpenAI的CEO Sam Altman最近发布内部"红色警报"备忘录,要求公司将资源集中用于改进ChatGPT。几周前,谷歌推出的Gemini 3因其推理和编码能力广受好评,迅速登上LMArena和Humanity's Last Exam等权威排行榜榜首,给OpenAI带来压力。

评论认为,GPT-5.2 与其说是重新发明,不如说是对OpenAI最近两次升级的整合。8月发布的 GPT-5 是一次重置,为统一系统奠定了基础,它可以在快速默认模型和更深入的“思考”模式之间切换。11月发布的 GPT-5.1专注于使该系统更加友好、更具对话性,并更适合智能体和编码任务。GPT-5.2似乎进一步提升了所有这些进步,使其成为生产应用更可靠的基础。

三个版本GPT5.2分别主打快速、深度、智能可靠

对于周四提供的三个版本GPT 5.2,OpenAI分别介绍称,Instant是快速高效的日常工作和学习助手,在信息查询、操作指南、技术写作和翻译方面均有显著提升。,并延续了 GPT-5.1 Instant 中更亲切的对话风格。早期测试者尤其注意到,GPT-5.2 的解释更加清晰,能够直接呈现关键信息。

Thinking 专为深度工作而设计,能够帮助用户更高效地完成更复杂的任务,尤其是在编码、总结长篇文档、回答有关上传文件的问题、逐步进行数学和逻辑运算、以更清晰的框架和更有用的细节辅助规划和决策方面。

Pro是需要高质量回答难题时“最智能、最可靠”的选择。早期测试表明,它在编程等复杂领域表现更出色,且重大错误更少。

性能全面领先,多项基准测试创新高

GPT-5.2在多个关键基准测试中刷新了行业纪录。在GDPval测试中,该模型在涵盖44个职业的知识工作任务上,有70.9%的表现达到或超过行业专家水平。OpenAI称,GPT-5.2 Thinking完成这些任务的速度是专家的11倍以上,成本不到专家的1%。


在编码能力方面,GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成绩,在SWE-bench Verified上更是达到80%的新高。这一基准测试真实世界软件工程任务,涵盖四种编程语言。OpenAI的产品负责人Max Schwarzer表示,GPT-5.2在代码生成和调试方面取得重大进步,Windsurf和CharlieCode等编码初创公司报告称该模型实现了"最先进的智能体编码性能"。


OpenAI声称GPT-5.2 Thinking是"世界上最好的视觉模型",在图表推理和软件界面理解方面的错误率降低了约一半。在长文本处理上,该模型在OpenAI MRCRv2测试中率先在25.6万token范围内实现近100%的准确率,使其特别适合深度文档分析和多源信息工作流。

在科学研究领域,GPT-5.2 Pro在GPQA Diamond测试中达到93.2%的准确率,GPT-5.2 Thinking紧随其后为92.4%。在专家级数学测试FrontierMath上,GPT-5.2 Thinking解决了40.3%的问题,创下新纪录。OpenAI称GPT-5.2 Pro和GPT-5.2 Thinking是"世界上最好的科学家助手模型"。


Altman称Gemini 3影响没担心的大

面对Gemini 3带来的竞争压力,Altman周四接受媒体采访时表示:“Gemini 3对我们指标的影响可能没有我们担心的大。”他预计,OpenAI将在明年1月前以“非常强势的地位”退出红色警报模式。

关于红色警报的原因,Simo在记者会上解释称:"我们宣布红色警报是为了向公司发出信号,表明我们希望将资源集中在某个特定领域,这是明确优先事项和可降级事项的方式。" 她强调,虽然ChatGPT获得了更多资源投入,但GPT-5.2的发布已筹备多月,并非因红色警报而匆忙推出。

虽然Altman据称在内部备忘录中将图像生成列为优先事项,但此次OpenAI的新品发布并未包含新的图像生成器。据报道,OpenAI计划在明年1月发布另一款新模型,将提供更好的图像生成、更快的速度和更强的个性化能力,但公司周四未确认这一计划。

OpenAI还宣布推出年龄预测软件,以便为18岁以下用户提供内容保护。Simo透露,公司将在明年第一季度推出"成人模式",Altman此前表示该模式可能允许"为经过验证的成年人提供情色内容"等用途。

企业客户成为争夺焦点

GPT-5.2的发布明确瞄准企业市场。OpenAI本周早些时候发布的新数据显示,过去一年其AI工具的企业使用量大幅飙升。公司称,ChatGPT Enterprise平均用户表示AI每天为他们节省40至60分钟,重度用户每周节省超过10小时。

Notion、Box、Shopify、Harvey和Zoom等企业客户观察到,GPT-5.2展示了最先进的长周期推理和工具调用性能。Databricks、Hex和Triple Whale发现该模型在智能体数据科学和文档分析任务上表现出色。Cognition、Warp、Charlie Labs、JetBrains和Augment Code则表示GPT-5.2提供了最先进的智能体编码性能。

在工具调用方面,GPT-5.2 Thinking在Tau2-bench Telecom测试中达到98.7%的准确率,展示了其在长时间、多轮次任务中可靠使用工具的能力。在一个涉及航班延误、转机失败和医疗座位需求的复杂客户服务案例中,GPT-5.2成功协调了重新预订、特殊协助座位和补偿等全部流程。


这一战略转向正值关键时刻。OpenAI已承诺在未来几年投入超过1万亿美元用于AI基础设施建设,但如今谷歌正在迎头赶上。据报道,OpenAI的推理计算支出大部分以现金支付而非使用云积分,表明公司的计算成本已超出合作伙伴关系和积分所能补贴的范围。对推理模型的加倍投入可能形成恶性循环:为赢得排行榜而增加计算支出,然后为大规模运行这些高成本模型而进一步增加支出。

在定价策略上,虽然ChatGPT订阅价格保持不变,但API中的GPT-5.2单token价格高于GPT-5.1,不过仍低于其他前沿模型。OpenAI目前没有弃用GPT-5.1、GPT-5或GPT-4.1的计划,并承诺会提前充分通知开发者任何弃用计划。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陕西一中学网购演出服后集体退货?商家称收到穿过的衣服,当地教体局:家长已取消退货

陕西一中学网购演出服后集体退货?商家称收到穿过的衣服,当地教体局:家长已取消退货

潇湘晨报
2026-04-14 10:58:23
一线记者传回中东战报,伊朗国内的惨烈程度,远比想象中大得多

一线记者传回中东战报,伊朗国内的惨烈程度,远比想象中大得多

阿器谈史
2026-04-13 12:08:12
访陆成败笔?最新民调出炉,郑丽文支持率倒数,蒋万安捡了大漏?

访陆成败笔?最新民调出炉,郑丽文支持率倒数,蒋万安捡了大漏?

牛锅巴小钒
2026-04-14 13:36:35
马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

智慧生活笔记
2026-04-12 16:43:48
这居然是任泉?网友:真认不出来了

这居然是任泉?网友:真认不出来了

木子爱娱乐大号
2026-04-14 10:52:36
为何金庸武侠小说依旧风靡,古龙却已无人问津?其实原因很简单

为何金庸武侠小说依旧风靡,古龙却已无人问津?其实原因很简单

长风文史
2026-04-13 20:41:32
钟汉良《蜜语纪》首波真实口碑出炉!观众打分评价“一针见血”

钟汉良《蜜语纪》首波真实口碑出炉!观众打分评价“一针见血”

娱乐圈笔娱君
2026-04-14 11:19:02
35岁北大韦东奕,官宣喜讯!

35岁北大韦东奕,官宣喜讯!

乔话
2026-04-13 20:32:52
反向预言!12年前索尼惊人广告被挖出:从此不需要手机

反向预言!12年前索尼惊人广告被挖出:从此不需要手机

游民星空
2026-04-13 13:07:09
缺席不减热爱!樊振东正式上任,亮相上海新岗位,续写体育担当

缺席不减热爱!樊振东正式上任,亮相上海新岗位,续写体育担当

体育见习官
2026-04-13 11:44:17
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
偷鸡不成蚀把米!以为能“毁掉”全红婵,不料自己先被扒个底朝天

偷鸡不成蚀把米!以为能“毁掉”全红婵,不料自己先被扒个底朝天

做一个合格的吃瓜群众
2026-04-14 08:01:03
4年2.75亿续浓眉!3年1.5亿签吹杨!奇才中了必死的局!

4年2.75亿续浓眉!3年1.5亿签吹杨!奇才中了必死的局!

贵圈真乱
2026-04-14 13:21:55
中国风风火火的造船业,本质上其实只是低端产业,赚的是组装费

中国风风火火的造船业,本质上其实只是低端产业,赚的是组装费

三言四拍
2026-04-13 21:31:23
山东美女老师任丛丛去世,仅41岁,外貌酷似朱媛媛,原因令人惋惜

山东美女老师任丛丛去世,仅41岁,外貌酷似朱媛媛,原因令人惋惜

裕丰娱间说
2026-04-13 18:09:32
许家印认罪之后,更大的问号还在后面

许家印认罪之后,更大的问号还在后面

迷世书童H9527
2026-04-14 12:50:27
出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

林轻吟
2026-04-13 19:48:49
伊朗放出致命证据,果然美军说谎了!

伊朗放出致命证据,果然美军说谎了!

深度报
2026-04-13 22:31:48
女子发现老公手指甲发紫 劝他去医院被怼“吃饱了没事干” 几天后老公突然背痛 胸痛被120拉走

女子发现老公手指甲发紫 劝他去医院被怼“吃饱了没事干” 几天后老公突然背痛 胸痛被120拉走

闪电新闻
2026-04-14 09:57:14
伊朗到现在都不敢相信,40多天的血战,给自己打出了半个世纪国运

伊朗到现在都不敢相信,40多天的血战,给自己打出了半个世纪国运

共工之锚
2026-04-14 00:43:37
2026-04-14 16:31:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
144517文章数 2653240关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

旅游
健康
房产
教育
艺术

旅游要闻

秀我中国|吉林集安:桃花次第开 小城迎客来

干细胞抗衰4大误区,90%的人都中招

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

教育要闻

初中数学,根式运算

艺术要闻

这位美女画家的夏天竟如此梦幻

无障碍浏览 进入关怀版