网易首页 > 网易号 > 正文 申请入驻

GPT-5.5上线:幻觉少了52%,但"记忆透明"才是真变量

0
分享至

凌晨两点,你让ChatGPT核对一份合同条款。它给出了建议,但你突然想问:这个结论从哪来的?以前你只能猜,现在它能告诉你——"基于你三个月前上传的那份补充协议"。

一、这次更新到底换了什么


OpenAI把ChatGPT的默认模型换成了GPT-5.5 Instant。老用户熟悉的GPT-5.3 Instant正式退场,新模型同时以"chat-latest"的名义接入API。

官方给出的核心数据很具体:在高风险的医学、法律、金融提示词测试中,幻觉(即编造事实)减少了52.5%。用户此前标记过的事实错误对话,不准确声明下降了37.3%。

数学能力的变化更直观。AIME 2025(一项竞争性数学考试)的准确率从65.4%跳到81.2%;GPQA(博士级科学推理测试)从78.5%升至85.6%;CharXiv(科学图表解读基准)从75.0%涨到81.6%。

多模态和文档处理也有数字:MMMU-Pro(跨文本与图像的专家级问题测试)从69.2%提升至76.0%;OmniDocBench(复杂文档结构化数据提取测试)的错误率从14.6%降至12.5%。

OpenAI举了一个代数题的例子。用户上传了一张手写方程的照片,里面有计算错误。GPT-5.3 Instant先是认同了用户的解法,发现x=3不成立后,错误地得出"无实数解"的结论。GPT-5.5 Instant同样一开始被带偏,但随后抓住了用户重组方程时的错误,解出了修正后的二次方程。

二、正方:这确实是用户要的东西

支持这次更新的观点很直接——它解决了三个真实痛点。

第一是"废话太多"。OpenAI明确说,新模型减少了冗长和过度格式化,不再堆砌不必要的表情符号和厚重排版。「它能在提供同等信息、往往更有实用价值的同时,降低那些让回复过长的冗赘和过度格式」,官方这么描述。

第二是"上下文用不好"。GPT-5.5 Instant被设计得更擅长判断:什么时候调用过往对话、上传文件或关联的Gmail账户真的有用。搜索历史对话的速度也更快。

第三是"不知道它怎么想的"。这就是"记忆来源"(memory sources)功能——当回复引用了存储的上下文,用户现在能看到具体用了哪条信息,无论是保存的笔记还是过去的聊天。条目可以被标记为相关或无关,也能编辑或删除。

对每天把ChatGPT当工作助理的人来说,这三项改进指向同一个目标:从"一个会聊天的工具"变成"一个可审计的协作者"。

三、反方:透明是有限的,边界是模糊的

质疑的声音同样有据可查,而且来自OpenAI自己的说明。

记忆来源不会显示影响回复的所有因素。官方明确说:模型搜索的部分聊天会显示为来源,但不是全部。公司承诺"随时间推移让视图更完整",但没说时间表。

分享功能也有断点。记忆来源不会随聊天链接一起传递——你把对话发给同事,对方看不到那些引用标注。临时聊天(temporary chats)则完全不读取也不更新记忆,这意味着"无痕模式"和"记忆模式"是互斥的。

更深层的问题是:52.5%的幻觉减少,测试场景是"高风险提示词"。日常使用中,用户提的问题未必落在医学、法律、金融的范围内。这个比例能迁移到多大场景,OpenAI没给数据。

还有那个代数题的例子。两代模型都"先认同用户再纠错",区别只是GPT-5.5 Instant最终纠对了。这种"先附和再修正"的行为模式本身,对需要第一时间就准确的用户来说,可能仍是隐患。

四、我的判断:记忆透明比模型迭代更重要

GPT-5.5 Instant的基准测试提升是扎实的,但这类提升有边际递减的迹象。从65.4%到81.2%的数学准确率是飞跃,但从81.2%到90%需要的东西完全不同——可能不是架构优化,而是推理范式的改变。

真正值得关注的变量是"记忆来源"。这是OpenAI首次把"可解释性"交到普通用户手里,而不是只给研究人员看日志。它承认了一件事:用户越来越不把AI当搜索引擎用,而是当长期协作的伙伴。伙伴关系的基石不是聪明,是信任。信任的前提,是知道对方为什么这样说。

目前的实现是克制的、有保留的。但方向已经明确:下一代AI产品的竞争点,正在从"能答多准"转向"能让你多放心"。

如果你现在就用ChatGPT处理重要事务,建议做三件事:检查设置里是否开启了记忆功能;在关键对话后点开"来源"看看它引用了什么;对特别重要的判断,主动追问"这个结论基于哪些信息"。模型不会完全透明,但你可以建立自己的工作流,把不确定性降到可控范围。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“中年返贫三件套”,正在吞掉一代人的存款

“中年返贫三件套”,正在吞掉一代人的存款

十点读书
2026-04-18 18:36:15
特雷杨之后,他也在麦迪逊遭遇漫天嘘声,又一个纽约公敌诞生了

特雷杨之后,他也在麦迪逊遭遇漫天嘘声,又一个纽约公敌诞生了

兵哥篮球故事
2026-05-06 12:46:56
我军得到敌人密码本无法破解,周总理瞅了一眼:这不是一首歌吗?

我军得到敌人密码本无法破解,周总理瞅了一眼:这不是一首歌吗?

浩渺青史
2026-05-06 00:53:17
墨菲:英国年轻球员应向吴宜泽学习,赵心童不可能统治斯诺克!

墨菲:英国年轻球员应向吴宜泽学习,赵心童不可能统治斯诺克!

世界体坛观察家
2026-05-06 05:35:12
英媒:获欧冠资格后曼联球员涨薪25%,包括拉什福德和奥纳纳

英媒:获欧冠资格后曼联球员涨薪25%,包括拉什福德和奥纳纳

懂球帝
2026-05-06 01:30:11
法国军事专家:“俄乌战争继续打下去,俄国将不复存在”

法国军事专家:“俄乌战争继续打下去,俄国将不复存在”

念得小柔
2026-05-06 10:51:57
强词夺理!“中国不应获得最先进芯片,美国才应领先”

强词夺理!“中国不应获得最先进芯片,美国才应领先”

观察者网
2026-05-05 18:52:05
“高净值家庭”标准出炉,全中国共有512.8万户,你家达标了吗?

“高净值家庭”标准出炉,全中国共有512.8万户,你家达标了吗?

毒sir财经
2026-04-26 21:11:44
湖人输雷霆,听听媒体专家怎么说!詹姆斯因祸得福,亚历山大拉胯

湖人输雷霆,听听媒体专家怎么说!詹姆斯因祸得福,亚历山大拉胯

杨仔述
2026-05-06 11:56:19
汉语中有3个词,是英语永远无法翻译的,独属于中国人的浪漫!

汉语中有3个词,是英语永远无法翻译的,独属于中国人的浪漫!

小兰聊历史
2026-04-27 16:56:56
五一之际美伊冲突撕下美“强国”伪装

五一之际美伊冲突撕下美“强国”伪装

风铃草语
2026-05-06 06:37:37
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
本来穷得好好的,非要闯一闯,结果成老赖!半生努力换一身负债

本来穷得好好的,非要闯一闯,结果成老赖!半生努力换一身负债

夜深爱杂谈
2026-04-11 11:42:57
海淀“六年一学位”松绑,千万学区房秒变开盲盒?

海淀“六年一学位”松绑,千万学区房秒变开盲盒?

林子说事
2026-05-06 06:16:34
女游客体验瀑布秋千受伤后不幸身亡,涉事的广安华蓥景区系网红打卡地

女游客体验瀑布秋千受伤后不幸身亡,涉事的广安华蓥景区系网红打卡地

极目新闻
2026-05-05 20:45:29
湖南30年前的那场火药爆炸案,曾致134人遇难,主犯今年落网

湖南30年前的那场火药爆炸案,曾致134人遇难,主犯今年落网

山间听雨
2026-05-06 07:14:04
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
院士掀桌子:说破海归二流论背后那个最阴暗的秘密,央媒连夜跟进

院士掀桌子:说破海归二流论背后那个最阴暗的秘密,央媒连夜跟进

菁菁子衿
2026-05-06 10:10:25
伦敦世乒赛:5月6日赛程公布!国乒冲击8强,迎战瑞典罗马尼亚

伦敦世乒赛:5月6日赛程公布!国乒冲击8强,迎战瑞典罗马尼亚

全言作品
2026-05-06 06:58:32
五粮液开盘跌6% 股价续创6年多新低

五粮液开盘跌6% 股价续创6年多新低

财联社
2026-05-06 09:29:03
2026-05-06 13:32:49
报错免疫体
报错免疫体
一名在需求评审和数据异常中反复横跳的产品运营。
2218文章数 19关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

绥化两名十一二岁女孩失联多日遭遇不测 警方回应

头条要闻

绥化两名十一二岁女孩失联多日遭遇不测 警方回应

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖 谁在讲故事?

汽车要闻

吉利原生新能源越野架构亮相 AI如何带来极致越野

态度原创

手机
游戏
亲子
本地
公开课

手机要闻

华为6.39英寸阔直板机再曝:搭载9系旗舰芯、比例接近16:10

IGN又给8分!动作新游潜力封神!值得反复游玩

亲子要闻

孩子咳喘总反复,根源或是咳喘共患病

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版