网易首页 > 网易号 > 正文 申请入驻

用图片来存储记忆,AI助手可以更聪明地处理长对话了

0
分享至


提到人工智能助手,你可能经常遇到一个烦人的问题:当对话越来越长时,AI似乎越来越健忘。为什么会这样呢?这不是因为AI变笨了,而是因为大语言模型有一个硬性限制——它们的"注意力窗口"就像一个大脑的工作记忆,容量是有限的。当信息堆积得太多时,重要的细节就开始模糊,AI开始犯错。

这项由美团、中国科学技术大学和新加坡国立大学的研究团队发表于2026年1月的突破性研究,提出了一个全新的解决方案。他们的论文《MemOCR:用于高效长视野推理的布局感知视觉记忆》(论文编号:arXiv:2601.21468v1)介绍了一种完全不同的思维方式——与其像记笔记一样用文字堆砌信息,不如用图片来存储记忆,让关键信息在视觉上更突出。听起来有点奇怪?不妨跟我一起深入理解这个聪明的创意。

想象一下,你正在做一个很长的采访记录。如果你用普通方式记笔记,你会列出所有信息:姓名、背景、关键观点、补充细节等等,每一条信息都占用同样的空间。但如果你用一个更聪明的方式,你会用大字号标题强调人名,用粗体突出关键观点,用小字体记录辅助信息,这样即使记录被压缩得很小,重要信息仍然清晰可辨。这正是MemOCR所做的事情。

这项研究解决的核心问题叫做"统一信息密度"困境。在传统的文本记忆系统中,每个词占据的成本都是一样的——无论是"张三是凶手"这样的关键线索,还是"天气今天很晴朗"这样的闲散信息,它们消耗的记忆空间完全相同。这就像在一个容量严格限制的行李箱里,你被迫带上同样数量的重要物品和无关物品,最后重要的东西反而没地方装。研究团队的突破就在于,他们意识到视觉表现可以解决这个难题。通过使用不同的字体大小、颜色、排版和格式,可以让关键信息在视觉上占据更小的物理空间,同时保持清晰可读。

让我们更具体地看看这个方案如何运作。整个过程分为两个阶段,就像导演制作一部电影:第一阶段是"剧本创作",第二阶段是"放映"。在剧本创作阶段,当AI接收到新的对话片段时,它需要更新自己的"记忆剧本"——一个用Markdown格式(就是网络上常见的那种用符号来格式化文本的方式)写成的文档。在这个阶段,AI的工作就是决定什么信息要用一级标题表现(最重要),什么用二级标题(次重要),什么用普通文本(背景信息),什么用更小的字体(细节补充)。这就像在强调故事的不同部分。重要的是,AI在这个阶段并不考虑后续会有多严格的内存限制——它就是按照逻辑重要性来组织信息。

第二阶段是"放映"。系统会把Markdown格式的记忆转换成一张图片。这个转换过程非常聪明——它不是简单地把文字变成图,而是利用了一个关键事实:在图片中,文字的物理大小和清晰度直接影响了"视觉令牌成本"。用数学语言说,如果你用字号大小s来渲染长度为L的文字,它占据的像素面积大约是L乘以s的平方。这意味着,通过调整字体大小,你可以非常灵活地控制不同信息块的成本。关键信息用大字号,所以即使被大幅缩小仍能读清;辅助信息用小字号,所以在图片缩小时,它虽然变得更小,但也不是关键信息,损失有限。

然后,当用户提出问题时,系统会根据当前的记忆预算(比如说只能用16个视觉令牌,相当于普通文本的64个字)来调整图片分辨率。分辨率越低,图片就越小,占用的令牌就越少。这是一个优雅的权衡:只要关键信息被正确标记了优先级,即使在极端压缩下,AI仍然能读清楚那些最重要的部分。

但这里有个问题:如果你不强制AI真正重视这种优先级划分呢?如果AI可以把所有东西都用中等大小的字号渲染,这样一切都同样可见但也同样模糊,它就回到了原点。所以研究团队采用了一个精妙的训练策略。他们用强化学习来训练这个系统,设计了三个互补的任务。第一个任务是标准问答,内存充足,确保系统理解正确。第二个任务是在极度压缩的内存下进行问答——把图片缩小到十六分之一,这时只有真正突出的信息才能幸存。第三个任务是提出针对细节的问题——在内存充足时,系统必须展示出即使是低优先级的信息也被妥善保留。

通过这三个任务的组合训练,系统学会了一个聪明的平衡:关键信息必须非常突出(才能在极限压缩中存活),但辅助信息也不能完全丢弃(因为有时候用户会问到)。系统通过为这三个任务分别计算奖励信号,然后对不同的任务使用不同的方式来更新策略。这就像一个学生同时为三个老师学习,但需要找到一种方法既能满足所有老师的要求,又要保持一个统一的学习风格。

研究团队在多个真实数据集上测试了这个系统。他们使用了HotpotQA(需要多步推理的问答)、2WikiMultiHopQA(也是多步问题)、Natural Questions和TriviaQA(单步问题)等基准。在不同的上下文长度——10,000、30,000甚至100,000个词元——下,他们都进行了评估。最令人印象深刻的是在极端内存限制下的表现。

当内存预算非常紧张时,比如只有16个视觉令牌时,MemOCR的表现远超文本基线。一个具体的对比是这样的:使用MemAgent(一个文本记忆基线)在10,000词元的上下文中,从67.8%的精度直跌到31.6%,跌幅超过50%。而MemOCR只跌到62.2%,相对下跌不到17%。换句话说,MemOCR能用8个令牌达到的精度,文本系统需要64个令牌才能达到——这是一个8倍的效率提升。对于单步问题,改进甚至更戏剧化。在TriviaQA上,MemOCR在极度限制下反而表现更好,因为视觉过滤消除了背景噪音。

当然,这项技术也不是完美的。在某些情况下会出现失败。比如当问题需要比较两个实体的细节属性时,系统可能会把实体名称用大标题突出,但把描述这些实体的细节用普通文本记录,结果在极度压缩下,标题仍清晰但描述变成了模糊的像素。另一个问题是当记忆内容太长时,即使是重点信息也可能被压缩到不可读的程度。研究团队在他们的分析中坦诚地讨论了这些限制。

从计算复杂性的角度,这个方案并没有增加太多开销。理论上,无论是文本记忆还是视觉记忆,都需要在每个处理步骤中进行O(L+B)?的计算复杂度,其中L是每个信息块的大小,B是记忆预算。在实验中,渲染Markdown到图片的过程轻量级到每秒可以处理68个样本,额外延迟只有0.175秒。在长对话处理中,MemOCR的总运行时间与文本基线相当,有时甚至更快。

这项工作的创新之处在于它改变了我们对AI记忆的思考方式。以前的方法把记忆看作一维的文本流,必须通过删减信息来压缩。MemOCR把它变成了二维的视觉画布,通过排版和布局的艺术来实现自适应的信息密度。这不仅仅是一个技术优化,更是一种思维的转变。它告诉我们,有时候改变问题的表现形式,就能找到看似无法解决的约束的突破口。

对于普通人来说,这意味着未来的AI助手可能会变得更聪慧。他们不会在长对话中逐渐健忘,反而能够在严格的内存预算下仍然保持对关键信息的准确把握。这对于需要长期对话的场景特别重要,比如客服助手、研究助手,甚至个人助手。这项研究打开了一扇新的门——当AI开始用我们用来表达思想的同样工具(排版、强调、组织)来存储记忆时,它对信息的处理会变得更符合人类的直觉。

Q&A

Q1:MemOCR是什么?有什么独特的地方?

A:MemOCR是一个新型AI记忆系统,它不用文字存储记忆,而是用格式化的图片。它的独特之处在于通过调整字体大小和排版方式,让关键信息在视觉上更突出,即使在极度压缩下仍然可读,从而实现了"自适应信息密度"。

Q2:这项技术相比传统的文本记忆系统有多大的改进?

A:在记忆非常紧张的情况下,改进最显著。当只有16个令牌的预算时,MemOCR能达到的精度相当于文本系统需要128个令牌的水平——效率提升达到8倍,这是一个巨大的改进。

Q3:MemOCR会被应用到哪些实际场景中?

A:这项技术对任何需要长期对话的AI应用都有帮助,比如客服系统、研究助手、个人AI助手等。特别是在内存资源受限的设备或场景中,这种视觉记忆方式能让AI更聪慧、更可靠。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡扎菲儿子在家被暗杀身亡!4名蒙面人员闯入住所,切断监控、激烈交火

卡扎菲儿子在家被暗杀身亡!4名蒙面人员闯入住所,切断监控、激烈交火

红星新闻
2026-02-04 12:14:13
大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

古希腊掌管月桂的神
2026-02-03 10:20:14
笑不活!350万页档案查无川普,川黑白左的脸肿成猪头

笑不活!350万页档案查无川普,川黑白左的脸肿成猪头

壹家言
2026-02-04 00:48:53
A股:刚刚,大消息传来,释放一信号,牛市将迎更大级别的行情!

A股:刚刚,大消息传来,释放一信号,牛市将迎更大级别的行情!

云鹏叙事
2026-02-04 15:37:20
初中和高中的区别:初中即使每次都考第一名,到高中都可能变倒数

初中和高中的区别:初中即使每次都考第一名,到高中都可能变倒数

好爸育儿
2026-02-04 22:18:57
爱国者硬刚锆石!乌克兰创下高超音速拦截新纪录

爱国者硬刚锆石!乌克兰创下高超音速拦截新纪录

老马拉车莫少装
2026-02-03 22:55:29
明珍珍临死前怕了,端碗的手发抖,眼神涣散流下恐惧的泪

明珍珍临死前怕了,端碗的手发抖,眼神涣散流下恐惧的泪

子芫伴你成长
2026-02-03 19:02:42
老泄残精,人穷寿尽!医生提醒:63岁之后,男性要守好这三道关

老泄残精,人穷寿尽!医生提醒:63岁之后,男性要守好这三道关

健康科普365
2026-01-30 21:26:44
北京拟立规管理帐篷露营地:夜间住宿应登记注册

北京拟立规管理帐篷露营地:夜间住宿应登记注册

北京商报
2026-02-04 17:05:05
​亏损超5.5亿,中美观众都不买账,2026年第一票房惨案诞生了‍

​亏损超5.5亿,中美观众都不买账,2026年第一票房惨案诞生了‍

靠谱电影君
2026-02-02 21:12:28
夫妻网购娃娃菜中毒大反转!是丈夫投毒,对妻子灭口,商家被坑惨

夫妻网购娃娃菜中毒大反转!是丈夫投毒,对妻子灭口,商家被坑惨

离离言几许
2026-02-03 15:12:39
中国地震台网自动测定:2月4日18时39分在新西兰克马德克群岛附近(南纬29.57度,西经178.58度)发生6.1级左右地震

中国地震台网自动测定:2月4日18时39分在新西兰克马德克群岛附近(南纬29.57度,西经178.58度)发生6.1级左右地震

每日经济新闻
2026-02-04 19:01:06
S家洗白失败!韩国综艺锤了小S忽视姐姐病情,推卸责任甩锅给大S

S家洗白失败!韩国综艺锤了小S忽视姐姐病情,推卸责任甩锅给大S

萌神木木
2026-02-04 19:05:07
韩国歌手当众大骂张兰母子!具俊晔联手韩媒,汪小菲在韩的店恐凉

韩国歌手当众大骂张兰母子!具俊晔联手韩媒,汪小菲在韩的店恐凉

离离言几许
2026-02-04 16:35:22
央企核电龙头牛市走熊,股价跌破回购均价逼近社保基金会认购价

央企核电龙头牛市走熊,股价跌破回购均价逼近社保基金会认购价

每日经济新闻
2026-02-04 18:18:04
不要再随意猜测杨兰兰的身份了,释放的信号很明显了

不要再随意猜测杨兰兰的身份了,释放的信号很明显了

李昕言温度空间
2025-08-20 15:01:53
上春晚的人形机器人,公布了!

上春晚的人形机器人,公布了!

青年家
2026-01-28 20:13:36
莫迪跪了,普京心碎,特朗普以为胜券在握,结果中国根本不吃这套

莫迪跪了,普京心碎,特朗普以为胜券在握,结果中国根本不吃这套

墨兰史书
2026-02-04 18:55:31
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
文旅部:坚决拥护党中央决定

文旅部:坚决拥护党中央决定

新京报政事儿
2026-02-03 23:09:04
2026-02-05 04:44:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7138文章数 549关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

游戏
健康
房产
教育
军事航空

游戏动力×ATK 联动福利红包封面随机掉落!

耳石症分类型,症状大不同

房产要闻

还在涨!成交量连飙四个月 海口二手房开始稳了!

教育要闻

数学提分,往往从复盘开始

军事要闻

卡扎菲儿子被暗杀:4名蒙面人员闯入住所

无障碍浏览 进入关怀版