网易首页 > 网易号 > 正文 申请入驻

AI终于学会"不瞎编":0.5%幻觉率是怎么做到的

0
分享至

「你姐姐在纽约上学吧?」——这句话能让任何和AI聊过天的人瞬间血压飙升。你没提过姐姐,但AI说得笃定。更离谱的是,它其实根本不认识你,每次对话都是「初次见面」,只是系统在偷偷把聊天记录全文粘贴给它看。一家叫Synthius的公司最近发了篇论文,说他们把AI「瞎编」的概率压到了0.5%以下,记忆准确率首次超过人类。怎么做到的?他们把AI从「翻聊天记录」改成了「查个人档案」。

一、AI的「记忆」全是假的:你被骗了很久


ChatGPT看起来很贴心,能接上你三天前的话茬。但真相是:大语言模型(一种基于概率生成文本的人工智能系统)本身没有任何持久记忆。你发的每条消息,在它眼里都是独立事件。

那个「记得」的幻觉,来自一种叫「全上下文重放」的技术——每次回复前,系统把你们之前的聊天记录原封不动复制一遍,贴在最新消息前面。相当于你每次给朋友发微信,都要先重读几个月的聊天记录,才能回一句「好的」。

聊得少还行。500条消息后,AI「复习」一次要处理约2.5万个Token(文本处理的基本单位)。成本爆炸只是开始,更麻烦的是三个连锁反应:

第一,越来越慢。处理量随对话长度线性增长,响应延迟从毫秒级拖到秒级。

第二,「中间遗忘」。科学家发现AI对超长文本的开头和结尾记得清楚,中间部分经常「选择性失忆」——跟你看书只看首尾一个道理。

第三,越聊越编。上下文越长,AI越容易把不同时间的信息搅在一起,拼凑出你没说过的话。三者叠加,你跟AI聊得越久,它反而越不靠谱。

工程师们早就知道全量复读太蠢,想了三类替代方案,但各有硬伤:

「滑动窗口」——只留最近20条,之前的全删。快、省,但丢了96%的信息。你重新提一嘴上周说过的工作变动,AI一脸茫然。

「摘要压缩」——定期让AI把旧对话压缩成总结。省空间,但细节大量丢失。「2023年3月到6月在东京实习」几轮压缩后变成「在日本待过」,时间、地点、性质全模糊。

「向量检索」(RAG,检索增强生成技术)——目前业界主流。把对话切成小块,打上「语义指纹」,需要时按相似度搜索。但隐蔽缺陷致命:搜出来的东西「看起来像」却不一定对。你问「他的工作是什么」,系统返回几条似是而非的片段,AI顺着编出错误答案。

更深层的问题没人认真测过:这些方案「瞎编」的概率到底有多高?好比评选拍照手机只比清晰度,不比美颜过度——方向就错了。

二、Synthius的解法:让AI「记笔记」而不是「翻旧账」

Synthius-Mem的核心思路很朴素:不要让AI去「翻聊天记录」,而是让它去「查一份已经整理好的个人档案」。

聊天过程中,系统后台悄悄提取关键信息,分门别类整理成结构化记忆。提问时,AI直接翻档案,不是大海捞针地搜原始记录。从信息论角度看,这是「先压缩再检索」:把高冗余的对话蒸馏为低冗余的结构化事实,减少检索噪声,也让AI获得明确的置信度信号——有就是有,没有就是没有。

这份档案不是大杂烩。研究团队参考脑科学,把记忆分成六个「语义域」:

人口统计(年龄、地点、关系)、职业与教育、健康与福祉、旅行与地理、爱好与兴趣、重要事件。

为什么这么分?论文的答案是:你的大脑就这么干的。脑科学发现,人类「事件记忆」(海马体)、「知识记忆」(新皮层)、「情绪偏好」(眶额叶)由不同神经回路分别处理。你回忆「上周聚餐」和「乘法口诀」调用的脑区完全不同。Synthius把这种分离机制搬进了AI记忆系统。

具体实现分三步,每一步都针对传统方案的痛点:

第一步,实时提取。对话进行中,系统用轻量级模型持续扫描新消息,识别值得记的事实。不是存原文,而是提取「主语-谓语-宾语」式的结构化三元组。比如「我上周刚从上海搬到北京」变成(主体:用户,事件:搬家,起点:上海,终点:北京,时间:上周)。

第二步,冲突消解。同一件事可能多次提及,细节矛盾很常见。系统维护一个「置信度分数」,新信息与旧记录冲突时,按时间近远、提及频次、语境确定性综合判断,更新或保留更可靠的版本。不是简单覆盖,而是像人类一样「将信将疑」地动态调整。

第三步,分层检索。提问时,系统先判断问题属于哪个语义域,只在该域内搜索。配合关键词过滤和时间范围限定,把检索空间压缩到最小。回答生成时,档案中的事实以结构化格式注入提示词,AI明确知道「这是用户说过的事实」,而非需要猜测的上下文片段。

这套机制的关键在于「拒绝生成」。当档案中没有相关信息时,系统不会硬编,而是输出「我不知道」或「你好像没提过这个」。这正是诱导性问题的核心考点——敢不敢说「不」。

三、考试成绩:AI第一次在这种考试里打败人类

研究团队用了LoCoMo基准测试——目前长对话记忆评估最严格的公开考试。测试流程很扎实:找两组人进行多轮深度聊天,话题覆盖工作、家庭、健康、旅行、爱好;聊完后根据对话内容出1813道题,分五种类型。

单跳事实查询:「他的职业是什么?」一次检索就能答。

多跳推理:「他有没有去过他大学室友所在的城市?」先找室友是谁,再找室友城市,最后判断——至少跳两步。

时间推理:「他在那家公司待了多久?」考察时序关系理解。

开放推理:「根据他提到的信息,他可能适合什么工作?」答案不唯一,看合理性。

诱导性问题:「你姐姐最近怎么样?」——对话里根本没这人,专门测试AI会不会瞎编。

人类在这套考试上的正确率是87.9%。之前最好的AI记忆系统MemMachine得分91.69%,已经超过人类,但它没报告诱导性问题的单独得分——没人知道它「瞎编」概率多高。

Synthius-Mem的成绩单:

总体正确率92.5%,首次在完整评测中超过人类基准。诱导性问题错误率0.47%——也就是说,面对「你姐姐怎么样」这种挖坑题,它100次里只会上当不到1次。作为对比,传统RAG方案在这个单项上的错误率通常在15%-30%之间。

更细分的拆解更有意思:多跳推理正确率89.3%,时间推理91.7%,开放推理87.4%。AI在需要「动脑筋」的复杂推理上反而比简单记忆更稳——因为结构化档案降低了信息检索的随机性,让推理链条更可靠。

成本数据同样关键。处理10轮对话的检索延迟,Synthius-Mem比全上下文重放降低94%,比传统RAG降低67%。内存占用随对话长度对数增长,而非线性爆炸——聊1000轮和聊100轮的存储成本差距,从几十倍压缩到两倍以内。

四、为什么这件事值得从业者盯着

0.5%的幻觉率不是数字游戏,它解决的是AI产品的一个底层信任危机。

现在的AI助手,用户不敢托付重要信息。你今天告诉它自己的用药过敏史,明天它可能「忘记」或「记错」。企业级场景更致命:客服AI把老客户的套餐详情记混,医疗AI把患者病史张冠李戴,法律AI把案件时间线搞乱——每种都是事故。

Synthius的方案指向一个被忽视的产品逻辑:记忆系统的核心价值不是「记得多」,而是「记得准+敢承认不知道」。用户宁愿AI说「我没记这个」,也不愿它自信满满地胡说。

这套机制的技术债也值得关注。结构化提取依赖预设的语义域框架,如果对话涉及框架外的重要信息(比如特定行业的专业背景),可能漏提或错分。冲突消解的置信度算法是黑箱,极端情况下可能「自信地」保留错误信息。这些不是致命缺陷,但意味着落地时需要针对场景调优。

更宏观的视角:这是「神经符号AI」路线的一次验证——把神经网络的感知能力与符号系统的结构化推理结合。过去几年深度学习一派独大,但纯连接主义在长程逻辑、可解释性、可控性上的瓶颈越来越明显。Synthius的方案本质上是用符号化的记忆结构约束神经网络的生成行为,这种混合架构可能是下一代AI系统的标配。

对从业者的直接启示:如果你在做AI助手、客服、教育、医疗等需要长期记忆的产品,现在该重新评估技术选型了。全上下文重放和简单RAG的性价比在长对话场景下急剧恶化,而结构化记忆方案的开源实现和云服务正在成熟。晚半年切换,可能就是用户体验的代差。

论文地址贴在开头了。建议直接看第四节的消融实验——研究团队逐个关掉记忆模块的组件,看成绩怎么掉,这是最硬核的因果证据。另外,他们开源了LoCoMo基准的完整对话数据和评测脚本,想复现或改进都有基础。

AI记忆这件事,终于从「能跑就行」进入了「精准可控」的阶段。下一个要攻克的,可能是跨会话的身份一致性——让AI不仅记得你说过的内容,还理解这些内容如何塑造了你的偏好和决策模式。那将是真正的「个人AI助手」起点。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“不要靠近我!”宁波一男子情绪失控,站在河中大声嘶吼,一边挣扎一边挪向深水区,PTU队员和民警合力将其救起

“不要靠近我!”宁波一男子情绪失控,站在河中大声嘶吼,一边挣扎一边挪向深水区,PTU队员和民警合力将其救起

环球网资讯
2026-05-01 07:55:12
深圳终于成了最宽松的一线城市!

深圳终于成了最宽松的一线城市!

坠入二次元的海洋
2026-05-01 07:22:57
为何日本变得如此嚣张?因为一旦中日爆发冲突,日本就赚到了

为何日本变得如此嚣张?因为一旦中日爆发冲突,日本就赚到了

触摸史迹
2026-04-28 12:57:26
21岁击败王菲的童颜巨乳富婆,巅峰期却选择主动过气

21岁击败王菲的童颜巨乳富婆,巅峰期却选择主动过气

悠悠说世界
2026-04-25 14:03:58
2026年杭州房价疯涨区域

2026年杭州房价疯涨区域

坠入二次元的海洋
2026-05-01 07:19:16
腰斩的比亚迪

腰斩的比亚迪

诗与星空
2026-04-30 07:26:56
44岁陈震现身北京车展,从网红车评人到无人问津,现状一点都不怨

44岁陈震现身北京车展,从网红车评人到无人问津,现状一点都不怨

林雁飞
2026-04-25 17:14:49
1960年沈醉拜访唐生明,推门竟撞见大将陈赓,他瞒着军统给红军送了多少救命枪弹?

1960年沈醉拜访唐生明,推门竟撞见大将陈赓,他瞒着军统给红军送了多少救命枪弹?

史海孤雁
2026-04-30 15:52:10
荣誉映初心 奋进新征程——回访2025年全国劳动模范

荣誉映初心 奋进新征程——回访2025年全国劳动模范

新华社
2026-04-29 23:26:04
日本:射程之内!

日本:射程之内!

新民周刊
2026-05-01 09:17:00
听到二审结果后,金建希几乎崩溃,全程都像丢了魂

听到二审结果后,金建希几乎崩溃,全程都像丢了魂

新浪财经
2026-05-01 01:08:56
沉默45年后,中国第二轮“严打”终于来了!但这次的目标变了

沉默45年后,中国第二轮“严打”终于来了!但这次的目标变了

奇葩游戏酱
2026-05-01 09:10:00
“NZ没有死刑,他很幸运!”新西兰官方重磅裁决!他直播杀害51人,妄图“推翻认罪”!受害者家属愤怒发声!

“NZ没有死刑,他很幸运!”新西兰官方重磅裁决!他直播杀害51人,妄图“推翻认罪”!受害者家属愤怒发声!

新西兰天维网
2026-04-30 13:03:29
“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

蝴蝶花雨话教育
2026-04-25 00:45:03
曾经风靡亚洲的香港情色电影,咋就逐渐销声匿迹了?

曾经风靡亚洲的香港情色电影,咋就逐渐销声匿迹了?

小椰的奶奶
2026-05-01 00:27:28
郑丽文官宣访美!大陆回应字字千钧,国民党别再自欺欺人了

郑丽文官宣访美!大陆回应字字千钧,国民党别再自欺欺人了

蓝色海边
2026-05-01 09:08:20
美专家狂言:美军一旦向北京、上海扔下核弹,中国并不会对等报复

美专家狂言:美军一旦向北京、上海扔下核弹,中国并不会对等报复

南风不及你温柔
2026-04-26 08:24:49
给富豪当15年保姆,离开他送我一个盒子,本以为是钱,打开后傻眼

给富豪当15年保姆,离开他送我一个盒子,本以为是钱,打开后傻眼

白云故事
2025-04-03 12:45:04
郑丽文民调仅4%,访陆成功助力蒋万安领跑2028大选

郑丽文民调仅4%,访陆成功助力蒋万安领跑2028大选

宋垀搞笑配音
2026-05-01 07:57:33
被骂疯子的米莱终结阿根廷几十年赤字

被骂疯子的米莱终结阿根廷几十年赤字

桂系007
2026-04-28 15:20:23
2026-05-01 10:27:00
Ping值焦虑
Ping值焦虑
有态度网友ytd
1964文章数 31关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

牛弹琴:特朗普还是没抵住诱惑 诱惑中果然有陷阱

头条要闻

牛弹琴:特朗普还是没抵住诱惑 诱惑中果然有陷阱

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

家居
艺术
亲子
游戏
公开课

家居要闻

灵动实用 生活艺术场

艺术要闻

石景,无可比拟!

亲子要闻

南山公立幼儿园的天花板!你们心目中的好幼儿园是什么样的?

曝《GTA6》定价即将揭晓!悬念终于要落地了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版