网易首页 > 网易号 > 正文 申请入驻

OpenAI甩出GPT-5.5 Instant!幻觉暴降52%,话少三成,全员免费

0
分享至


智东西
作者 王涵
编辑 冰倩

智东西5月6日报道,今天,OpenAI正式推出GPT‑5.5 Instant版,将从今天开始向所有ChatGPT用户逐步推出,取代GPT‑5.3 Instant成为默认模型。

此次更新主要体现在日常交互上,GPT‑5.5 Instant的对话语气更加自然,回答准确率更高且更紧凑,并且当用户使用个性化功能时,模型还能够调取过往的对话记录,补充背景信息。

Sam Altman第一时间转发官宣推文“强推”这一模型,并称:“速度、智能、个性,再加上强大的记忆与个性化能力,这几方面的改进组合在一起,当它们同时发挥作用时,给人的感觉已经远不止是各部分简单的相加,而是一种整体大于部分之和的体验。”


在内部评估中,在医学、法律和金融等领域,GPT‑5.5 Instant的幻觉率比GPT‑5.3 Instant减少了52.5%

基准测试方面,在衡量科学图表推理准确度的CharXiv-reasoning中,GPT-5.5 Instant比GPT-5.3 Instant提升了6.6%。多模态专家推理测试MMMU-Pro中,GPT-5.5 Instant的准确率提升了6.8%

在文档解析任务中,GPT-5.5 Instant的错误率降低了2.1%,相对降幅约14.4%。在博士级科学问答测试中,GPT-5.5 Instant的准确率提升了7.1%。在数学竞赛AIME 2025中,其准确率涨了15.8%




在API中,GPT‑5.5 Instant的名称为“chat‑latest”。对于付费用户,GPT‑5.3 Instant在退役前还将保留三个月,可通过模型配置设置进行访问。

基于过往对话、上传文件及已连接Gmail的增强个性化功能,正在向网页端的Plus和Pro用户推出,即将登陆移动端,并计划在未来几周内扩展至Free、Go、Business和Enterprise用户。

记忆来源功能正在向网页端所有ChatGPT个人版套餐用户推出,并将很快登陆移动端。特定个性化来源的可用性可能因地区而异。

在OpenAI官宣推文下方有,网友注意到了该模型的AIME成绩的提升,认为“这表面上是产品更新,实则是纯粹的推理能力升级,绝不仅仅是聊天的微调。这是一种“偷偷”发布思考模型的方式。”


还有网友发现:“‘更温暖、更简洁’这两点恰恰是用户真正抱怨过的地方。有意思的是,今年最大的一次模型升级,本质上却更像是一次‘性格补丁’。”


但也有不少网友对这次升级并不买账,他们想要的是更实用的功能更新。甚至还有网友在怀念GPT-4o。



一、图像解析能力提高,虚假信息减少52.5%

在内部评估中,对于涵盖医学、法律和金融等领域的高风险提示,GPT‑5.5 Instant生成的虚假信息比GPT‑5.3 Instant减少了52.5%。在用户曾标记存在事实错误的特别具有挑战性的对话中,它也减少了37.3%的不准确说法。

GPT-5.5 Instant提升了图像解析、STEM学科(科学、技术、工程和数学)问答水平,还可智能判断是否调用网络搜索,从而给出更优质的回复。

从案例中可以看出,GPT‑5.5 Instant一开始认可了错误的解法,但随后发现将x=3代回原方程时不成立。它识别出了实际的代数错误(用户移项有误),然后使用求根公式得出了正确的解。


而GPT‑5.3 Instant虽然也发现了x=3不成立,但就此止步,错误地得出没有实数解的结论,而不是重新检查代数步骤并求解修正后的二次方程。


二、回答更紧凑,字数减少30.2%

此外,GPT‑5.5 Instant的回答更加紧凑、切中要点,同时在保持温暖感和个性化。

该模型能够在传达相同信息且更具实用性的同时,减少冗长和过度格式化导致的回答过长问题。其还会减少不必要的追问,并避免如随意添加表情符号等让回答显得杂乱。



GPT‑5.5 Instant使用的字数减少了30.2%,行数减少了29.2%。其回答语气把握得当:非正式、实用且适合工作场合,同时避免了过度解释。该模型针对不同情况提供了可实际使用的脚本,始终围绕“界限”来阐述问题。

GPT‑5.3的回答则更完整,尤其是“不要做什么”的部分,但对于一个非正式的日常建议类提示来说,略显过于复杂,其结构和推敲程度可能超出了用户的实际需求。

三、自动检索历史对话,记忆来源功能全系上线

GPT‑5.5 Instant还能利用过往聊天记录、上传的文件以及Gmail中的上下文信息,从而使回答更具个性化。

该模型可智能判断何时融入个性化元素以优化回复,同时其检索历史对话、匹配上下文的速度大幅提升,无需用户反复重复表述。



可以看到,GPT‑5.5 Instant的回答能够更好地引用过往对话和相关的已连接数据,从而提供更细致、高度个性化的建议。而GPT‑5.3 Instant的回答虽然考虑到了用户位于旧金山这一因素,但对于推荐尝试的地方,给出的建议仍较为笼统。

ChatGPT全系模型现已上线记忆来源功能。用户可查看个性化回答所引用的上下文依据,并获得自主管控权限。

当模型生成个性化回复时,用户能够追溯答案所依托的具体上下文,包括已保存记忆及历史对话记录;对于过时、失效或无关的信息,可随时进行删除与更正。

此外,用户分享对话内容时,记忆来源信息不会对外展示。同时该功能支持多种隐私管控方式:可单独删除不愿被引用的历史对话,在设置界面编辑或清空已保存记忆,也可使用临时对话模式,全程不调用、不更新个人记忆。


结语:交互质量与用户可控性提升

在基础能力趋于收敛的背景下,“怎么让模型回答地更让用户舒服?”成为大模型厂商思考的问题。

GPT‑5.5 Instant的更新给出了OpenAI的答案::其一,其减少了在专业知识问答方面的幻觉率;其二,回答的简洁度与语气调控被纳入优化目标;其三,记忆来源功能建立信任基础。

客观而言,这类“体验型更新”难以通过传统基准测试完全量化其价值,其真实效果还将取决于用户在长期使用中的主观感受。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乒联官宣孙颖莎新身份,陈梦傻眼,终于等到这一天

乒联官宣孙颖莎新身份,陈梦傻眼,终于等到这一天

小琴动漫
2026-06-28 06:09:09
皇马核心脸都丢尽!世界杯上灾难级发挥,穆里尼奥上任直接开刀!

皇马核心脸都丢尽!世界杯上灾难级发挥,穆里尼奥上任直接开刀!

澜归序
2026-06-28 03:06:11
全世界都没想到,伊朗没打赢翻身仗,却替中国废掉美国最狠王牌

全世界都没想到,伊朗没打赢翻身仗,却替中国废掉美国最狠王牌

犟种美食
2026-06-28 18:42:14
4年2.78亿美元!曝约基奇考虑再次推迟续约:明年或成为自由球员

4年2.78亿美元!曝约基奇考虑再次推迟续约:明年或成为自由球员

罗说NBA
2026-06-28 06:15:45
FW策划三方交易,詹姆斯父子回热火,湖人迎前场悍将送两首轮签?

FW策划三方交易,詹姆斯父子回热火,湖人迎前场悍将送两首轮签?

谢说篮球
2026-06-28 17:40:10
特朗普不忍了,目标不是伊朗,也不是内塔尼亚胡,这次绝不手软

特朗普不忍了,目标不是伊朗,也不是内塔尼亚胡,这次绝不手软

不要把蜜语说给侧耳听
2026-06-28 16:45:17
烟再次被关注!医生研究发现:抽得越多,寿命或越长?告诉你真相

烟再次被关注!医生研究发现:抽得越多,寿命或越长?告诉你真相

健康科普365
2026-06-28 14:50:10
北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

千秋文化
2026-06-21 19:49:55
700分以上人数对比,湖北31人,河南48人,浙江“断层式”领先!

700分以上人数对比,湖北31人,河南48人,浙江“断层式”领先!

手工制作阿爱
2026-06-28 00:13:17
出狱人员纷纷吐槽:如今坐牢,和几十年前大不一样!说出来不敢信

出狱人员纷纷吐槽:如今坐牢,和几十年前大不一样!说出来不敢信

一曲一场談
2026-06-21 00:24:30
最差战绩出局 韩国足协怒了 官宣取消接机+不办欢迎仪式 24年首次

最差战绩出局 韩国足协怒了 官宣取消接机+不办欢迎仪式 24年首次

我爱英超
2026-06-28 13:15:57
华中科技大学发布讣告:中国工程院院士崔崑逝世

华中科技大学发布讣告:中国工程院院士崔崑逝世

生物学霸
2026-06-28 17:13:22
越南大学生来北京,回国后感慨发声:中国早已经是超一等国家了!

越南大学生来北京,回国后感慨发声:中国早已经是超一等国家了!

辉哥说动漫
2026-06-28 18:49:06
谢杏芳定居西班牙与林丹分居,10岁儿子成未来依靠

谢杏芳定居西班牙与林丹分居,10岁儿子成未来依靠

原梦叁生
2026-06-13 13:48:10
钱在集体挪窝

钱在集体挪窝

智远同学
2026-06-28 12:02:13
5年2.85亿美金!联盟第1!NBA名嘴力挺布朗,FMVP没有水货

5年2.85亿美金!联盟第1!NBA名嘴力挺布朗,FMVP没有水货

世界体育圈
2026-06-28 17:18:16
葡萄牙战平哥伦比亚后,C罗晒照发文:我们继续并肩前行

葡萄牙战平哥伦比亚后,C罗晒照发文:我们继续并肩前行

懂球帝
2026-06-28 10:38:35
阿根廷将帅谈佛得角队:难缠、强大……

阿根廷将帅谈佛得角队:难缠、强大……

澎湃新闻
2026-06-28 17:44:16
涡扇15追了十几年,转头一看才发现:全球最强发动机原来是自己?

涡扇15追了十几年,转头一看才发现:全球最强发动机原来是自己?

兵鉴史
2026-06-28 11:32:44
淘汰赛首轮将对阵佛得角,阿根廷主帅:这是个强大的对手,他们也会给我们制造麻烦,我们必须当心

淘汰赛首轮将对阵佛得角,阿根廷主帅:这是个强大的对手,他们也会给我们制造麻烦,我们必须当心

极目新闻
2026-06-28 17:33:45
2026-06-28 19:59:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12142文章数 117113关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

李在明发文批韩国队:把无能之辈放到指挥位置是失败

头条要闻

李在明发文批韩国队:把无能之辈放到指挥位置是失败

体育要闻

韩国可算确定被淘汰了

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

艺术
游戏
手机
家居
公开课

艺术要闻

23幅 张文惠风景油画选

《天国:拯救3》明年发售?开发商同时开发两款RPG

手机要闻

1999元起 荣耀X80 Pro Max首销大卖:斩获2026年安卓新品首销日销量第一

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版