网易首页 > 网易号 > 正文 申请入驻

实测GPT-5.5:OpenAI的三个承诺,只有一个完全兑现

0
分享至

上周,OpenAI把ChatGPT的默认模型从GPT-5.3 Instant换成了GPT-5.5 Instant,所有用户都能免费用上。官方给了三个明确说法:更聪明、回答更准确;响应简洁30%;能基于过往对话、上传文件和绑定的Gmail做更深度的个性化。我没连Gmail,但其他功能都测了一遍。

测的时候我没选5.3,而是拿5.2来对比。我想看的是:半年一迭代的模型,到底有没有实质性进步?每次发布都说是重大飞跃,真的是吗?


答案是:有区别,但官方的宣传并非全部应验。

第一个承诺:更简洁、更对话感

OpenAI说5.5比前代少用30.2%的词、29.2%的行数,且更具对话感。我设计了三个问题:REST和GraphQL有什么区别?谈资深工程师薪资前要准备什么?买首套房要知道什么?

结果反了。5.2在三个问题上都更简洁。REST对比那题,5.2用表格和短 bullet 直接给结论;5.5是大段 prose,解释和背景更多。薪资谈判那题,5.5的子 bullet 和示例话术更多。买房那题,5.5分了12个详细章节,5.2的格式更清爽、更易扫读。

但5.5在"对话感"上确实赢了。它更 thorough,更像在聊天。简洁和对话感是矛盾的,实际运行中,对话感占了上风。如果你要开箱即用、短平快的答案,5.2更好;想要丰富、有上下文的回应,5.5是进步。

第二个承诺:更准确

OpenAI称5.5在医疗、法律、金融等高风险话题上,幻觉 claims 减少52.5%。我不是这些领域的专家,就用自己研究过的问题来测:Claude Sonnet 4.6的上下文窗口多大?欧盟AI法案现在什么状态?Anthropic的Managed Agents产品什么时候发布的?

5.2第一个就 hallucinate 了。它斩钉截铁地说Claude Sonnet 4.6标准支持100万token上下文窗口。假的。标准窗口是20万token,特定配置下才有扩展选项。

与此同时,5.5给出了正确答案:20万token标准,某些场景可扩展。欧盟AI法案那题,两个模型都答对了立法进度和生效时间。Managed Agents那题,5.2又错了,说产品"尚未发布";实际上Anthropic在2024年第四季度就推出了beta版。5.5答对了发布时间。

准确率测试,5.5确实更可靠。

第三个承诺:更深度的个性化

这是最难量化的。OpenAI说5.5能更好地调用历史对话、上传文件和Gmail内容。我测了文件理解和长对话记忆两个维度。

上传了一份15页的API文档,问两个模型同一个技术实现问题。5.2直接引用了文档里的代码片段,但漏了一个关键约束条件。5.5不仅引用了代码,还主动指出了那个约束,并解释了为什么重要。文件理解上,5.5确实更深入。

长对话记忆测试,我先聊了20轮关于Python异步编程的内容,然后问"基于我们刚才聊的,给我三个优化建议"。5.2的建议很 generic,像是没看上下文。5.5的建议直接引用了前面讨论过的具体场景——我提到的某个数据库瓶颈、某个第三方库的兼容问题。它真的在"记得"。

但Gmail整合这部分我没测,因为没授权。从文件和对话记忆的表现来看,个性化的方向是对的,程度有多深还不好说。

总结

三个承诺,准确率提升完全兑现,个性化有进步但难量化,简洁性承诺反而没达到——实际更啰嗦了。OpenAI把"简洁"和"对话感"打包宣传,但这两个目标在工程上是互斥的。最终产品选择了对话感,用户得到的是更厚、更 warm 的回答,不是更短的。

如果你是开发者或研究员,需要快速扫读核心信息,5.2或更早版本可能更高效。如果你是普通用户,想要一个记得你、愿意多解释几层的对话伙伴,5.5是更好的默认选择。

半年迭代,有真实的进步,也有营销话术和实际体验的落差。这大概就是AI产品现在的常态。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国万万没想到,别国军备是为了打仗,中国军工却为以防万一?

美国万万没想到,别国军备是为了打仗,中国军工却为以防万一?

栗子熟了呀
2026-05-14 08:37:30
小米SU7 Ultra挖孔机盖案 一审宣判

小米SU7 Ultra挖孔机盖案 一审宣判

每日经济新闻
2026-05-13 23:52:11
45万“买”烟草局编制?诈骗人员伙同物业员工,带人进成都市烟草局会议室“面试”,两年多时间里诈骗36人获利874万,主犯获刑13年6个月

45万“买”烟草局编制?诈骗人员伙同物业员工,带人进成都市烟草局会议室“面试”,两年多时间里诈骗36人获利874万,主犯获刑13年6个月

扬子晚报
2026-05-14 07:28:52
俄宣发布虚假消息,称苏-57战机在乌克兰上空击落萨博-340预警机

俄宣发布虚假消息,称苏-57战机在乌克兰上空击落萨博-340预警机

走进乌克兰2022
2026-05-14 19:48:01
庄则栋临终前放心不下日本妻子,眼噙泪水:你没有医保,没有工资

庄则栋临终前放心不下日本妻子,眼噙泪水:你没有医保,没有工资

抽象派大师
2026-05-12 20:36:26
悉尼妹的R级片,竟然引进了

悉尼妹的R级片,竟然引进了

来看美剧
2026-05-13 23:07:16
热刺已追平上赛季积分,还剩两轮比赛

热刺已追平上赛季积分,还剩两轮比赛

懂球帝
2026-05-14 15:58:14
174亿元!国内最大Token大单,首次开标

174亿元!国内最大Token大单,首次开标

智东西
2026-05-14 11:01:16
第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

第1现场|俄乌对峙下的红场阅兵:36年来首次未见坦克

澎湃新闻
2026-05-09 21:40:28
麻省理工发现:唤醒孩子自律最快的方法,竟是飞轮效应!

麻省理工发现:唤醒孩子自律最快的方法,竟是飞轮效应!

户外阿毽
2026-05-10 19:24:43
岳云鹏探望蔡磊,称渐冻症攻克后会去演出!有意收蔡磊儿子为徒

岳云鹏探望蔡磊,称渐冻症攻克后会去演出!有意收蔡磊儿子为徒

娱乐团长
2026-05-14 14:13:13
记者:申花外援仅拉唐一人随队出征玉溪,刘诚宇出战待定

记者:申花外援仅拉唐一人随队出征玉溪,刘诚宇出战待定

懂球帝
2026-05-14 15:37:17
日本乒协没想到,世乒赛刚被国乒打懵,张本智和就率先传出坏消息

日本乒协没想到,世乒赛刚被国乒打懵,张本智和就率先传出坏消息

刘剮说体坛
2026-05-14 10:15:11
国际足联代表团到访北京工人体育场

国际足联代表团到访北京工人体育场

新京报
2026-05-14 17:55:19
迄今为止,天安门城楼上只挂过12个人画像,其中一人仅挂了1天

迄今为止,天安门城楼上只挂过12个人画像,其中一人仅挂了1天

文史达观
2025-05-08 12:39:14
从每年2.1万飙升至超1200万,能不贬值才怪!

从每年2.1万飙升至超1200万,能不贬值才怪!

灯锦年
2026-05-14 20:42:46
忍了大半年,闻泰科技终于亮剑:荷兰政府抢走的,连本带利赔80亿

忍了大半年,闻泰科技终于亮剑:荷兰政府抢走的,连本带利赔80亿

知法而形
2026-05-14 12:02:59
父母的无效人脉能让人多恼火?网友:亲戚水电,两代人都踩雷了!

父母的无效人脉能让人多恼火?网友:亲戚水电,两代人都踩雷了!

另子维爱读史
2026-05-14 20:24:27
特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应对付台独

特朗普访华首日,大陆宣布统一后安排!岛内学者:台军应对付台独

陈意小可爱
2026-05-14 20:41:24
岳父是高管,岳母开公司,娶了乒乓冠军的许昕,在上海儿女双全

岳父是高管,岳母开公司,娶了乒乓冠军的许昕,在上海儿女双全

素衣读史
2026-05-13 20:17:12
2026-05-14 21:47:01
硅屿手记
硅屿手记
有态度网友ytd
4151文章数 22关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

重庆"萌感"佛头意外走红 雕刻者:不是文物且尚未完工

头条要闻

重庆"萌感"佛头意外走红 雕刻者:不是文物且尚未完工

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

游戏
房产
健康
数码
教育

任天堂发布会重磅猛料!马上就来 官方页面曝光

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

专家揭秘干细胞回输的安全风险

数码要闻

小米耳夹式耳机官宣,17Max样张公布

教育要闻

南京秦淮、雨花台、玄武、建邺2026高考考点公布!

无障碍浏览 进入关怀版