网易首页 > 网易号 > 正文 申请入驻

阿里通义推出全新RAG范式!利用记忆图开启视觉智能新纪元

0
分享至

智猩猩AI整理

编辑: 宁宁

随着多模态大模型能力不断增强,RAG 已经不再只是“文本检索 + 文本回答”。在真实应用中,Agent 需要同时处理文本、图片、PPT、视觉文档、网页截图、长视频甚至跨视频语料。问题也随之出现:视觉信息通常 token 成本高,但真正与问题相关的线索又很稀疏。直接把所有视觉内容塞进上下文,会造成 token 膨胀、噪声干扰和推理效率下降;如果简单压缩成文本摘要,又容易丢失图表、页面布局、关键帧等细粒度证据。

针对这一痛点,阿里通义实验室提出VimRAG,一种面向全模态检索增强推理的框架。它不再把 Agent 的历史交互简单拼接成线性上下文,而是构建动态的全模态记忆图,用图结构记录检索路径、视觉证据和推理依赖,并根据节点重要性动态分配视觉 token。实验显示,VimRAG 在文本、图片/视觉文档、长视频等全模态 RAG 基准上取得领先效果,在 Qwen3-VL-8B-Instruct 上整体分数从最强基线 Mem1 的 43.6 提升到 50.1。



  • 论文标题:

    VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph

  • 论文链接:

    https://arxiv.org/abs/2602.12735v1

  • GitHub 仓库地址:

    https://github.com/Alibaba-NLP/VRAG

01 方法


图1 VimRAG 整体框架

传统 Agent 常采用 ReAct 式流程,不断进行“思考—动作—观察”,并把每一轮交互追加进上下文。这种方式在短文本任务中问题不大,但面对长视觉文档和视频语料时,很容易出现三个问题:历史越来越长、关键证据被淹没、模型忘记自己已经检索过什么,进而产生重复搜索和无效推理。

VimRAG包含三类核心设计。

(1)Multimodal Memory Graph

它将多轮推理过程建模为一个动态有向无环图。图中的每个节点都代表一次 Agent 的认知状态,包含父节点、子查询、文本摘要和全模态记忆。模型每进行一次检索、观察或记忆更新,都会在图中形成一个节点。这样Agent 不仅知道“我看到了什么”,还知道“这个信息来自哪个子问题”“它和之前的推理路径有什么关系”。

在推理过程中,VimRAG 主要包含三类动作:

(i)检索动作,用于根据当前问题或子问题搜索文本、图片、视频等外部信息;

(ii)记忆动作,用于对检索到的全模态内容进行观察、筛选、压缩并写入图节点;

(iii)回答动作,当证据足够时生成最终答案。相比线性历史,这种结构能够帮助模型区分有效路径和无效探索,避免陷入重复检索。


图2 不同记忆结构对比

(2)Graph-Modulated Visual Memory Encoding(图调制视觉记忆编码)

全模态 RAG 的关键矛盾在于视觉信息不能全部保留,也不能全部丢弃。全部保留会带来巨大的 token 成本,全部转写成文本又会损失视觉细节。VimRAG 会为每个视觉记忆项计算一个“能量值”,再按照能量高低动态分配视觉 token。

这个能量值主要由三类因素决定:

(i)语义相关性,即视觉内容是否与当前问题相关;

(ii)图拓扑位置,即该节点是否支撑了后续关键推理;

(iii)时间衰减,即较早且不再重要的信息会逐渐降低权重。

更重要的是,VimRAG 还引入递归反馈机制:如果一个早期节点虽然表面上不突出,但它支撑了后续高价值推理节点,那么它的权重也会被反向增强。这样可以避免关键证据被过早遗忘。


图3 不同跨模态记忆策略对比

(3)Graph-Guided Policy Optimization

在多步 Agent 任务中,最终答案正确不代表中间每一步都有效;最终答案错误,也不代表每一步检索都没有价值。VimRAG 利用记忆图做图剪枝:对于答对的轨迹,只强化通向答案节点的关键路径,屏蔽无关探索;对于答错的轨迹,如果其中某些节点确实检索到了有效证据,就不对这些节点施加负向惩罚。这样,训练信号就从粗粒度的“整条轨迹对错”,细化为“每个节点是否真正有价值”。


图4 图引导策略优化

02 实验设置及结果分析

为了验证方法效果,研究团队在多类数据集上进行了实验,覆盖通用文本问答、图片与视觉文档理解、长视频与视频语料理解等场景。具体包括 HotpotQA、SQuAD、WebQA、SlideVQA、MMLongBench、LVBench、WikiHowQA、SyntheticQA,以及研究团队构建的 XVBench。

对比方法包括 Vanilla RAG、ReAct、UniversalRAG、VideoRAG、MemAgent 和 Mem1。这些方法分别代表直接检索增强、交互式推理、跨模态路由、视频 RAG 和记忆式 Agent 等不同技术路线。实验基于 Qwen3-VL-4B-Instruct 和 Qwen3-VL-8B-Instruct 两个模型规模进行评估。

主实验结果如图5显示,VimRAG 在两个模型规模上都取得最佳整体表现。在 Qwen3-VL-4B-Instruct 上,最强基线 Mem1 的整体分数为 40.6,而 VimRAG 达到 45.2;在 Qwen3-VL-8B-Instruct 上,Mem1 为 43.6,VimRAG 提升到 50.1。这说明 VimRAG 的收益并不只是依赖模型规模,而是来自其结构化记忆和视觉证据管理机制。


图5 VimRAG 主实验结果

从结果分析看,ReAct 这类线性历史方法容易受到视觉 token 膨胀影响,交互轮数越多,越容易出现重复检索和上下文干扰。VideoRAG、UniversalRAG 等方法虽然在特定任务上有优势,但推理流程相对固定,泛化到复杂跨模态任务时表现有限。相比之下,VimRAG 显式建模检索路径和推理依赖,因此更适合长程、多跳、全模态任务。

研究团队还进行了消融实验。结果表明,图结构能够缓解状态盲区,全模态记忆能够减少视觉信息丢失,基于能量的视觉 token 分配进一步提升关键证据保留能力,而图引导策略优化则提高了训练稳定性和样本利用效率。这说明 VimRAG 的三个模块并不是单点改进,而是形成了从记忆结构、视觉压缩到训练监督的完整闭环。



图6 消融与效率分析

03 总结

VimRAG 把全模态 RAG 的问题从“如何检索更多信息”,推进到“如何组织、筛选并利用这些信息”。面对大规模视觉上下文,真正有效的 Agent 不仅要能找到信息,还要知道哪些信息重要、它们来自哪条推理路径、又如何支撑最终答案。

(1)全模态记忆图,VimRAG 让推理过程从线性历史变成结构化拓扑;

(2)图调制视觉编码,它让模型按重要性分配视觉 token;

(3)图引导策略优化,它让训练信号从最终答案对错细化到节点级行为价值。

全模态 Agent 的下一阶段竞争,不只是基础模型能力的竞争,也会是记忆结构、上下文管理、检索路径规划和强化学习监督机制的竞争。VimRAG 给出的答案是:在视觉信息越来越庞大的 RAG 场景中,Agent 需要的不只是“看得更多”,而是“记得更准、用得更对”。

入群申请

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
达蒙-琼斯正式达成认罪协议!最高刑期63个月 将于27年1月宣判

达蒙-琼斯正式达成认罪协议!最高刑期63个月 将于27年1月宣判

罗说NBA
2026-04-29 05:43:29
安徽17岁帅哥张子旭离世!脸上长痘确诊,父亲“卖命”挣钱也难救

安徽17岁帅哥张子旭离世!脸上长痘确诊,父亲“卖命”挣钱也难救

嫹笔牂牂
2026-04-29 07:37:48
季后赛最新局势:马刺时隔9年进次轮两队出局 湖人魔术差1胜晋级

季后赛最新局势:马刺时隔9年进次轮两队出局 湖人魔术差1胜晋级

醉卧浮生
2026-04-29 12:45:48
89岁谢贤近况曝光,坐轮椅在山顶喝咖啡,扎马尾戴墨镜仍有型有款

89岁谢贤近况曝光,坐轮椅在山顶喝咖啡,扎马尾戴墨镜仍有型有款

八斗小先生
2026-04-29 10:46:24
黄一鸣前男友再发视频,曾每月10万满足她的爱好,透露60岁大爷姓

黄一鸣前男友再发视频,曾每月10万满足她的爱好,透露60岁大爷姓

小兰聊历史
2026-04-28 09:37:04
G5开拓者95-114马刺被淘汰 球员评价:3人及格,8人低迷

G5开拓者95-114马刺被淘汰 球员评价:3人及格,8人低迷

篮球资讯达人
2026-04-29 12:46:43
胡锡进否认自己有老干部病房vip待遇,但消炎药却用124元一盒的

胡锡进否认自己有老干部病房vip待遇,但消炎药却用124元一盒的

映射生活的身影
2026-04-26 20:57:40
央视红人洛桑的死:时隔25年后,搭档博林坦白:他根本没喝多少酒

央视红人洛桑的死:时隔25年后,搭档博林坦白:他根本没喝多少酒

草莓解说体育
2026-04-28 17:02:13
拼命演戏还清一亿四千万巨债,豪门梦醒,现回浙江农家过踏实日子

拼命演戏还清一亿四千万巨债,豪门梦醒,现回浙江农家过踏实日子

观察者海风
2026-04-04 12:59:45
塔:最终比分仅仅是1-0,回主场我们有能力以两球优势取胜

塔:最终比分仅仅是1-0,回主场我们有能力以两球优势取胜

懂球帝
2026-04-29 05:37:08
回顾辽宁一厂长邀15名歌厅舞女做客,喝完酒后,将15人冲进下水道

回顾辽宁一厂长邀15名歌厅舞女做客,喝完酒后,将15人冲进下水道

谈史论天地
2026-04-27 15:00:03
毛主席看不清老布什的脸,把他拉到眼前说:这个年轻人能当总统

毛主席看不清老布什的脸,把他拉到眼前说:这个年轻人能当总统

大江
2026-04-28 11:02:26
扎哈罗娃:我们不像乌克兰,不拿士兵的生命去打没意义的仗

扎哈罗娃:我们不像乌克兰,不拿士兵的生命去打没意义的仗

Ck的蜜糖
2026-04-29 09:09:07
Manus,彻底凉凉了

Manus,彻底凉凉了

技术领导力
2026-04-27 20:37:27
“低血糖”只是幌子?张凌赫片场晕厥视频流出,真实体重引众怒

“低血糖”只是幌子?张凌赫片场晕厥视频流出,真实体重引众怒

陈意小可爱
2026-04-29 09:33:40
女神也老了,都已经63岁了,看起来像40岁出头,真是越活越年轻

女神也老了,都已经63岁了,看起来像40岁出头,真是越活越年轻

东方不败然多多
2026-04-29 01:08:26
随着利雅得新月1-0,沙特联最新积分榜出炉:C罗率队5分优势领跑

随着利雅得新月1-0,沙特联最新积分榜出炉:C罗率队5分优势领跑

侧身凌空斩
2026-04-29 04:03:30
4-1!马刺全队6人上双,晋级半决赛,文班亚马高效拿17分14板6帽

4-1!马刺全队6人上双,晋级半决赛,文班亚马高效拿17分14板6帽

老梁体育漫谈
2026-04-29 12:27:55
美国参议院否决限制特朗普对古巴动武的决议

美国参议院否决限制特朗普对古巴动武的决议

界面新闻
2026-04-29 07:13:33
中国遭警告:拒收将面临供应中断!

中国遭警告:拒收将面临供应中断!

共工之锚
2026-04-28 23:20:50
2026-04-29 12:55:00
呼呼历史论
呼呼历史论
分享有趣的历史
455文章数 16926关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

男子强奸大嫂又杀人被执行死刑 大哥:谈不上高兴难过

头条要闻

男子强奸大嫂又杀人被执行死刑 大哥:谈不上高兴难过

体育要闻

巴黎5-4拜仁夜:身价1.55亿的“足坛笑话”,成了最硬的底牌

娱乐要闻

单依纯演唱会再唱“区区三万天”宣战

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

教育
房产
亲子
游戏
公开课

教育要闻

最新!房山区义务教育入学政策出炉

房产要闻

红利爆发!海南,冲到全国人口增量第4省!

亲子要闻

带儿子去看望昏迷的表哥,儿子变得懂事了

《黑旗RE》完整地图已出:原版DLC区域尽收其中!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版