网易首页 > 网易号 > 正文 申请入驻

国泰海通:GPT-5.2系列重新定义AI生产力 驱动AI从模型竞争转向场景落地

0
分享至

智通财经APP获悉,国泰海通发布研报称,GPT-5.2系列的发布,标志着大模型能力从技术演示迈入规模化经济生产的新阶段。其在抽象推理与复杂知识工作上达到人类专家水准,证实了AI在高端专业领域创造经济价值的潜力。这将推动产业竞争焦点加速从底层模型向具体的场景应用、企业服务及人机协同工作流等落地环节转移。

国泰海通主要观点如下:

GPT-5.2在核心推理与专业工作任务上实现历史性跨越,首次在综合评估中达到人类专家水平

12月12日,OpenAI于十周年之际正式发布GPT-5.2系列模型,该系列包含Instant、Thinking与Pro三个版本,旨在应对不同复杂度的任务需求。在被誉为“AI界图灵测试”的ARC-AGI-2测试中,其获得52.9%的分数,较GPT-5.1的17.6%提升近三倍,抽象推理能力追平近期发布的Gemini 3。更具突破性意义的是其在GDPval基准测试中的表现,该测试覆盖44个真实职业场景,GPT-5.2 Thinking在70.9%的任务上胜过或打平行业专家,GPT-5.2 Pro更是达到74.1%,这是AI模型首次在综合性知识工作评估中整体达到人类顶尖水平。在投行财务建模等专业任务中,其平均得分从59.1%提升至68.4%,标志着AI开始深度渗透核心生产力环节。

GPT-5.2的代码生成、长上下文与视觉理解能力同步取得显著进步,为复杂多模态任务提供可靠支持

在更接近真实工程环境的SWEBench Pro评测中,GPT-5.2 Thinking取得55.6%的SOTA成绩,并在前端与3D界面生成上展现出更强潜力。其长上下文处理能力实现质的飞跃,在256K token长度的“多针检索”测试中准确率接近100%,而GPT-5.1仅为30%,使其能够深度分析超长文档与复杂项目。视觉方面,其在科学图表问答(CharXiv Reasoning)与GUI界面理解(ScreenSpot-Pro)的错误率较前代降低近半,空间定位能力显著增强,为AI代理处理真实世界信息夯实了基础。

GPT-5.2的工具调用可靠性大幅提升,面向企业级应用优化安全与部署策略

GPT-5.2在多轮复杂工具调用测试(Tau2-bench)中取得98.7%的高分,能自主规划并完成涉及改签、赔偿等多步骤的客服流程,展现了强大的端到端任务执行能力。与此同时,OpenAI延续了其迭代部署策略,在ChatGPT中为付费用户提供GPT-5.2系列(Instant, Thinking, Pro),并保留GPT-5.1长达三个月以保障平稳过渡。API虽提价约40%,但官方强调其token效率的提升可使总成本可控,持续测试中的年龄预测与内容保护机制也体现了对安全性的持续投入。

风险提示:大模型迭代速度不及预期,算力供给不足,数据隐私合规风险。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海男篮砸钱悬赏!外援听秒变脸,光靠“钞能力”真能换冠军?

上海男篮砸钱悬赏!外援听秒变脸,光靠“钞能力”真能换冠军?

林子说事
2026-05-11 01:50:19
夺冠!国乒3-0日本伦敦登顶,梁靖崑击溃张本,王楚钦定海神针

夺冠!国乒3-0日本伦敦登顶,梁靖崑击溃张本,王楚钦定海神针

骑马寺的少年
2026-05-11 01:32:12
比克洛普还猛!利物浦换帅实锤?英超名帅主动求加盟

比克洛普还猛!利物浦换帅实锤?英超名帅主动求加盟

一隅非生
2026-05-11 03:47:33
新加坡争议网红硬闯动漫展,被cos小哥当场暴打

新加坡争议网红硬闯动漫展,被cos小哥当场暴打

新加坡眼
2026-05-10 17:43:34
1986年的运10下马案,位列中国30年重大间谍案首位,真相令人扼腕

1986年的运10下马案,位列中国30年重大间谍案首位,真相令人扼腕

干史人
2026-01-12 22:07:50
悲催!一超万平小区因物业费收缴率仅65%,物业公司撂挑子退场

悲催!一超万平小区因物业费收缴率仅65%,物业公司撂挑子退场

火山詩话
2026-05-10 15:27:55
颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

明眼人谈教育
2026-05-10 08:30:03
人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

细说职场
2026-05-10 10:34:41
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
G2山西81-86不敌广厦 球员评价:2人良好,3人及格,5人低迷

G2山西81-86不敌广厦 球员评价:2人良好,3人及格,5人低迷

篮球资讯达人
2026-05-11 03:03:10
嫁进百亿豪门,上海名媛乔欣近况曝光,出国旅游很自在32岁不生娃

嫁进百亿豪门,上海名媛乔欣近况曝光,出国旅游很自在32岁不生娃

蒂蒂茱家
2026-05-10 13:30:55
你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

夜深爱杂谈
2025-12-21 17:37:52
国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

故事终将光明磊落
2026-05-10 15:02:43
普京动作太快了:没等中国出手,就派绍伊古去切断了日本的后路

普京动作太快了:没等中国出手,就派绍伊古去切断了日本的后路

甜到你心坎
2026-05-09 14:57:05
中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

美食格物
2026-05-10 15:13:10
泪崩!刘国梁卸任后吐真言:亲手毁掉天才?我脑子没病!

泪崩!刘国梁卸任后吐真言:亲手毁掉天才?我脑子没病!

子芫伴你成长
2026-03-17 22:25:40
突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

LULU生活家
2026-05-02 08:35:04
真心感慨倪妮的长相太神奇了!
单看五官真没一个是完美标配

真心感慨倪妮的长相太神奇了! 单看五官真没一个是完美标配

小光侃娱乐
2026-05-04 19:30:04
《水浒传》骗了世人几百年:宋江战胜方腊?他连给人家提鞋都不配

《水浒传》骗了世人几百年:宋江战胜方腊?他连给人家提鞋都不配

长风文史
2026-05-09 17:57:13
在西方媒体的宣传下,中国简直就是世界上最恐怖的国家!​

在西方媒体的宣传下,中国简直就是世界上最恐怖的国家!​

梦史
2026-04-07 21:13:07
2026-05-11 04:51:00
智通财经 incentive-icons
智通财经
全球资本市场财经资讯提供者
1124073文章数 101284关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

房产
教育
亲子
数码
公开课

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

教育要闻

高考地理中的共享经济

亲子要闻

从第一声呼唤开始,爱就有了名字

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版