网易首页 > 网易号 > 正文 申请入驻

实测GPT5.5 : 最强模型不是嘴炮,它真能干活儿

ChatGPT5.5是最强AI模型吗

0
分享至



GPT-5.5,终于发布。

作为OpenAI当下最强的模型,这次更新的亮点是“为真实工作而设计”。



和过去的模型相比,GPT-5.5能更快理解使用者真正想做的事情,也能自己承担更多执行过程,可以在线检索信息、分析数据、生成文档和表格、操作软件,并在不同工具之间来回切换,直到把任务完成。

用户不再需要精细地拆解每一步,可以直接给它一个混乱、多步骤的问题,让它自己规划路径、调用工具、检查结果,在不确定中继续推进。

有网友直接评价,这是目前为止最接近AGI的模型。

目前,GPT-5.5已经在ChatGPT和Codex中向Plus、Pro、团队版和企业版用户逐步开放,GPT-5.5 Pro则面向Pro及以上用户。API版本尚未上线。

01

模型性能

先来看看模型在基准测试中的得分情况。



其中最值得关注的指标是GDPval,这个测试不是传统选择题,而是用44种真实职业任务来评估模型,比如分析数据、写报告、做判断。

GPT-5.5的成绩是84.9%,相比GPT-5.4的83.0%,有一定的提升,也高于Claude Opus 4.7 的80.3%和Gemini 3.1 Pro的67.3%。



第二个关键测试是OSWorld,用来衡量模型在真实电脑环境中的操作能力。GPT-5.5 达到78.7%,高于GPT-5.4的75.0%,提升幅度不算夸张,但意义很大。

这项能力考验了一个更现实的问题:模型不仅能告诉你怎么做,还能不能直接替你去做,包括点击界面、切换工具、执行多步骤操作。



还有Tau2 Telecom,这是一个电信客服流程测试,GPT-5.5 在无需额外调优的情况下达到98.0%。这类任务更接近企业里的真实工作,需要在复杂、多步骤、有上下文依赖的流程中完成。



在更细分的能力上,GPT-5.5的编程能力继续提升,在Terminal-Bench 2.0上达到了82.7%,在SWE-Bench Pro上达到了58.6%。



在其他知识工作基准测试中,GPT-5.5的表现也很出色:FinanceAgent得分60.0%,内部投资银行建模任务得分88.5%,OfficeQA Pro得分54.1%。说明它在结构化分析和数据处理上已经相当成熟。

科研方面虽然分数提升相对温和,但已经出现能够参与推理、验证甚至辅助发现新结果的案例,这一点更像能力边界的变化,而不是简单的性能增长。

把这些跑分放在一起看,会发现这次模型的评价标准正在发生变化:过去我们常用MMLU、GPQA这样的指标看模型的知识和推理能力,但现在更侧重于GDPval、OSWorld这类“任务级评估”。

相比起问模型知不知道某项知识,现在更看重它能不能完成一项完整工作。

这也对应了GPT-5.5本次的更新重点。模型开始能够自主地组织步骤:先获取信息,再做判断,必要时调用工具,最后把结果整理成可以直接使用的输出。

在编程上,它参与整个开发流程,而不只是生成代码;在知识工作中,它产出报告、模型和决策建议,而不只是提供答案;在操作层面,它甚至可以直接进入电脑环境,把这些步骤执行出来。

这一代模型更像一个可以协作的执行者,得分只是表面,更重要的是这些分数背后指向的一件事:GPT-5.5的定位,从“回答”转向了“执行”。

顺便一提,根据ARC Prize官方验证,GPT-5.5在ARC-AGI-2基准测试中取得最高85.0%的准确率,成为了新的SOTA模型。



除了能力本身,这一代模型还有一个被反复强调的点:效率。

OpenAI给出的数据是,在实际服务中,GPT-5.5的速度与GPT-5.4基本持平,但在完成同样Codex任务时使用的token明显更少。这一点对API用户尤其重要,因为它直接决定了真实使用成本。

在定价上,GPT-5.5 API为每百万输入token 5美元、输出30美元,Pro版本更高。这个价格是GPT-5.4的两倍。

不过OpenAI的逻辑是:单价虽然提升,但由于任务完成效率更高,总成本未必上升。



另外,安全体系也在同步升级:GPT-5.5是目前防护最严格的一代模型,在发布前经历了完整的安全评估流程,包括内部与外部红队测试,以及针对网络安全、生物等高风险能力的专项验证,并结合了近200个真实使用场景进行调整。

02

模型表现

作为一个擅长复杂任务的模型,GPT-5.5的编码优势在Codex中表现尤为突出,可以完成从实现和重构到调试、测试和验证等工程工作。

根据官方文档,它在真实工程上表现很好:在大型任务中能够持续保持上下文(不会只盯着一小段代码);在问题不明确时,能够推理出故障原因;会用工具去验证自己的假设;能把修改真正“贯穿”到整个代码库,而不是只改一处。

官方给出了一些比较复杂的示例,例如把一张天体图片重新做成一个新的Web应用。

技术上要求用WebGL做3D渲染、用Vite搭项目,内容上要尽量接入ArtemisII任务的真实数据,把轨道、飞行路径、天体位置这些信息真实地表现出来。



还有让GPT-5.5结合Codex生成的3D地牢竞技场原型。

模型不仅搭建了游戏架构,还写出了基于Three.js的前端实现,并覆盖了战斗系统、敌人机制和界面反馈等关键模块;环境贴图和角色对话也由GPT生成。只有角色模型和动画交给了第三方工具处理。



在编程能力之外,GPT-5.5的能力已经延伸到更广泛的知识工作,由于它更擅长理解真实意图,所以可以更自然地跑完整个知识工作的流程:从获取信息、抓住重点、调用工具、检查结果,到把原始材料整理成真正有用的输出。

在Codex里,GPT-5.5在生成文档、表格和演示文稿方面,比GPT-5.4更强。OpenAI 内部已经在真实工作中使用这些能力:目前,公司内部超过85%的员工每周都会使用 Codex,覆盖软件工程、财务、传播、市场、数据科学和产品等多个团队。

例如下列演示,就是使用GPT-5.5生成财务建模。



除了官方的复杂demo,为了看清模型在“单次生成”层面的表现,我们也做了一些更偏基础能力的测试。

首先是每次都被拉出来的鹈鹕骑自行车,左边是GPT-5.4的表现,右边是GPT-5.5。



还有六边形小球滚动,可以看模型的物理理解。



在审美上,我们用一句话让GPT-5.5设计了一个高端品牌网站,效果如下。

prompt:Design a premium brand website with a strong identity, focusing on typography, spacing, and a cohesive visual style. Avoid generic layouts.Use Chinese.Can run entirely in a single HTML file.



接下来让它自由发挥,创造一个Unity风格的复杂SVG动画。

prompt:Create a complex svg animation that an engineer with a background in unity would appreciate.Can run entirely in a single HTML file.



编程能力之外,像在社媒上很火的洗车问题,我知道肯定也会有人想问。



这类问题一般难以回答的原因是,模型并不会默认车一定要开过去才能洗(可能有上门洗车的服务)。不过既然需要“理解用户真实意图”,我想这并不是什么答错的理由。

03

模型定位

如果把GPT-5.5放在过去这一年的演进脉络里看,它并非单纯地围绕模型能力做提升,而是在逐渐改变模型的使用方式。

这条线其实可以从GPT-4o开始算起。当时最大的变化是把文本、图像和语音放进同一个模型里处理,多个能力被放在同一个系统中完成,模型的内部开始变得统一。

GPT-5把这种“统一”延伸到了使用层。模型不再只是等待用户提问,然后给出一次性尽可能完整的回答,它多了一层判断:这个问题需要多快的响应、多深的推理,要不要调用工具。

后面的几个5系版本,基本都在把这件事做细。

在GPT-5.3这一阶段,编码能力和工具调用被明显强化,模型开始更稳定地完成多步骤代码生成、调试和执行流程。它不只是写代码,还会自己一步步改、修错误,最后给出一个能用的结果。与此同时,它用工具的方式也变得更自然,不再是生成一堆看不懂的调用代码,而是直接把该调用的工具给用上。

到了GPT-5.4,重点已经转向computer use和工作流能力,模型可以在不同应用之间来回切换,比如查资料、整理信息、再生成结果,一步步把事情做完。同时,响应速度、token利用率和长任务中的稳定性也在持续优化:它的反应更快了,回答更干脆,不再动不动就写一大段推理过程,在连续做一件事的时候,也更少出现前后说不一致的情况。

这些调整放在一起,能看出一种变化:模型开始更像一个在后台持续运转的系统,而不是一次性的问答工具。

用户与模型之间的关系也在发生变化,从一问一答,变成把一件事情交给它,然后看它一步步往下做。

顺着这条路径看,GPT-5.5的位置就比较清楚了。它不只有性能上的提升,还在继续把模型往任务执行的方向推进。

OpenAI将这一次的升级称为“very strong model”、“为真实工作而设计的一类新智能”,强调模型在持续运行时的效率和稳定性,比如在更长时间内完成一整套流程,用更少的计算支撑更多步骤。

很多人会同时感觉它更快了,也更“短”了,本质上是模型开始主动控制自己的计算方式,把更多资源留给真正需要展开的部分:单次回答不再一味追求展开,而是更贴近任务本身的需求。

对于需要连续操作的场景来说,这种变化非常有价值。同样一件事可以用更少的token完成,不仅是体验上的提升,也直接影响到最终的成本。

当模型开始承接完整流程,评价标准也会随之改变。比起单次回答的好坏,更重要的是它能否稳定高效地把一件事做完。

毕竟,更适合真实工作场景的模型,才是好用的模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
忠县惊现特大谋杀案!副县长办公室内惨遭杀害,真相引人深思!

忠县惊现特大谋杀案!副县长办公室内惨遭杀害,真相引人深思!

人生录
2026-04-24 09:13:06
美国出局,解放军已进台海,台军低调行事,岛内为直面统一留后路

美国出局,解放军已进台海,台军低调行事,岛内为直面统一留后路

林子说事
2026-04-24 18:38:28
因赌球终身禁赛!就为了那么些钱....

因赌球终身禁赛!就为了那么些钱....

柚子说球
2026-04-24 19:34:28
40集《蜜语纪》大结局!许蜜语身世揭晓,鲁贞贞:原来我才是小丑

40集《蜜语纪》大结局!许蜜语身世揭晓,鲁贞贞:原来我才是小丑

小猫追剧
2026-04-24 12:43:59
找到了!伊朗真正的内鬼,根本不是人!中国也要小心

找到了!伊朗真正的内鬼,根本不是人!中国也要小心

照亮你的前行之路
2026-04-24 18:29:32
10年麻将馆老板娘口述:凡是爱打牌的,没一个日子过得好

10年麻将馆老板娘口述:凡是爱打牌的,没一个日子过得好

兰亭墨未干
2026-04-11 00:28:10
成功捡漏?南京仁恒江湾城,2.89万/㎡成交!

成功捡漏?南京仁恒江湾城,2.89万/㎡成交!

地产锐评
2026-04-24 17:16:32
曼城反超阿森纳登顶,枪手冬窗零引援代价显现

曼城反超阿森纳登顶,枪手冬窗零引援代价显现

乐道足球
2026-04-24 19:42:01
菲律宾一夜变天?副总统莎拉紧急出国!杜特尔特家族大势已去?

菲律宾一夜变天?副总统莎拉紧急出国!杜特尔特家族大势已去?

牛锅巴小钒
2026-04-24 18:20:38
男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

诡谲怪谈
2025-04-01 17:37:59
央视八套黄金档!37集都市情感大剧即将开播,主演阵容豪华

央视八套黄金档!37集都市情感大剧即将开播,主演阵容豪华

风月得自难寻
2026-04-24 16:26:34
参与控制转移马杜罗的美国特种兵提前押注马杜罗将下台获利超40万美元 已被法院起诉

参与控制转移马杜罗的美国特种兵提前押注马杜罗将下台获利超40万美元 已被法院起诉

每日经济新闻
2026-04-24 17:38:59
难以相信!她已经61岁了,看起来竟然像三四十岁的样子!

难以相信!她已经61岁了,看起来竟然像三四十岁的样子!

科学发掘
2026-04-23 08:35:50
比亚迪在马来西亚的东盟首个整车基地已全面停工,项目陷入僵局

比亚迪在马来西亚的东盟首个整车基地已全面停工,项目陷入僵局

流苏晚晴
2026-04-22 19:05:45
“徽京”坐实,宝华失落:南京的向西野心与向东软肋

“徽京”坐实,宝华失落:南京的向西野心与向东软肋

城市圈客户端
2026-04-24 15:59:16
赵匡胤小舅子:四年吃掉100多女子,赵匡胤袒护,赵光义怒斩

赵匡胤小舅子:四年吃掉100多女子,赵匡胤袒护,赵光义怒斩

爆史君带你读历史
2026-03-17 21:32:47
0-2脆败!2-1逆转!马德里1000赛中国金花1喜1忧 郑钦文扬眉吐气

0-2脆败!2-1逆转!马德里1000赛中国金花1喜1忧 郑钦文扬眉吐气

大秦壁虎白话体育
2026-04-24 19:04:17
住4亿豪宅、船王之子、逼40岁李小萌生三胎,王雷谣言太离谱

住4亿豪宅、船王之子、逼40岁李小萌生三胎,王雷谣言太离谱

天马幸福的人生
2026-04-24 17:13:55
LG财阀内斗:百亿美元商业帝国争夺战,比韩剧还刺激

LG财阀内斗:百亿美元商业帝国争夺战,比韩剧还刺激

正解局
2026-04-24 14:57:24
中天科技:2025年度净利润29.02亿元 同比增长2.25%

中天科技:2025年度净利润29.02亿元 同比增长2.25%

财联社
2026-04-24 17:27:16
2026-04-24 20:39:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2411文章数 8062关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

男子抚养14年儿子非亲生 妻子结婚摆酒前跟别人在一起

头条要闻

男子抚养14年儿子非亲生 妻子结婚摆酒前跟别人在一起

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

本地
亲子
时尚
数码
公开课

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

亲子要闻

韩国叔叔又来看小满了 看看小叔子说话那个表情 笑死...

水晶专场 || 一眼就沦陷的绝美水晶,百元级的快乐

数码要闻

浩鑫推出新款迷你准系统,可装酷睿Ultra和独显

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版