网易首页 > 网易号 > 正文 申请入驻

视觉感知驱动的多模态推理,阿里通义VRAG,定义下一代检索增强生成

0
分享至

在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型的推理能力。

来自阿里巴巴通义实验室的最新研究成果 ——VRAG-RL(Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning),将强化学习算法引入多模态智能体训练,借助迭代推理和视觉感知空间,全方位提升视觉语言模型(VLMs)在检索、推理和理解视觉信息方面的能力,为纯视觉检索增强生成任务提供有效解决方案,代码、模型全面开源!

  • Paper 地址:arxiv.org/pdf/2505.22019
  • Github 地址:https://github.com/Alibaba-NLP/VRAG

为了解决现有 RAG 方法在处理视觉丰富文档时面临的挑战,尤其是生成阶段推理能力不足的问题,我们推出了 VRAG-RL,该框架引入强化学习,专为视觉丰富信息复杂推理量身定制。VRAG-RL 通过定义视觉感知动作空间,使模型能够从粗到细地逐步聚焦信息密集区域,精准提取关键视觉信息,从而全方位提升视觉语言模型(VLMs)在检索、推理和理解视觉信息方面的能力。

与此同时,我们注意到现有的方法在将用户查询转化为搜索引擎可理解的检索请求时,常常因无法精准表达需求而难以检索到相关信息,往往存在语义偏差或信息缺失的问题。这不仅影响了检索结果的相关性,还限制了模型在后续生成阶段的推理能力。为了解决这一问题,VRAG-RL 引入了一种创新的检索机制,通过结合视觉感知动作和强化学习,使模型能够更有效地与搜索引擎进行交互。这种机制不仅能够帮助模型更精准地表达检索需求,还能够在检索过程中动态调整检索策略,从而显著提升检索效率和结果的相关性。

重定义感知行动空间

视觉仿生思考新范式

传统 RAG 方法在处理视觉信息时,往往采用固定的检索 - 生成流程,即先通过搜索引擎检索相关信息,然后直接生成答案。这种固定流程忽略了视觉信息的独特性,无法充分利用视觉数据中的丰富细节,导致推理能力受限。

相比之下,VRAG-RL 彻底革新了传统的检索生成范式,引入了多样化的视觉感知动作,其中包含了多种视觉感知动作,如区域选择、裁剪、缩放等。这些动作使 VLMs 能够从粗粒度到细粒度逐步聚焦信息密集区域,精准提取关键视觉信息。例如,在处理复杂的图表或布局时,模型可以先从整体图像中提取大致信息,然后逐步聚焦到信息密集的区域,通过裁剪和缩放操作,获取更清晰、更详细的视觉信息。这种从粗粒度到细粒度的感知方式,不仅提高了模型对视觉信息的理解能力,还显著提升了检索效率,使模型能够更快速地定位到与问题相关的图像内容。

VRAG-RL 采用了多专家采样策略构建训练数据,大规模模型负责确定整体的推理路径,而专家模型则在大规模模型的指导下,对图像中的关键区域进行精确标注,结合大规模模型的推理能力和专家模型的精确标注能力,模型能够在训练过程中学习到更有效的视觉感知策略,显著提升了模型在实际应用中的表现。

检索与推理协同优化

效率与深度双重提升

VRAG-RL 的细粒度奖励机制将检索效率、模式一致性与生成质量三方面因素融合,引导模型在与搜索引擎的交互中不断优化其检索与推理路径。

  • 检索效率奖励 :借鉴信息检索领域广泛使用的 NDCG(Normalized Discounted Cumulative Gain)指标,激励模型优先检索相关度高的图像内容,快速构建高质量上下文;
  • 模式一致性奖励 :确保模型遵循预设的推理逻辑路径,避免因模式偏差导致生成结果偏离任务目标;
  • 生成质量奖励 :通过评估模型对生成答案的质量打分,引导模型输出更准确、连贯的答案。

这种多维度奖励机制实现了检索与推理的双向驱动——高效的检索为深入推理提供支撑,而推理反馈又进一步指导模型优化检索策略,形成闭环优化。

强化学习赋能多模态智能体训练

VRAG-RL 基于强化学习的训练策略,引入业界领先的 GRPO 算法,让视觉语言模型(VLMs)在与搜索引擎的多轮交互中,持续优化检索与推理能力。同时,通过本地部署搜索引擎模拟真实世界应用场景,实现搜索引擎调用零成本,模型训练更加高效。这种训练方式,不仅提升了模型的泛化能力,使其在不同领域、不同类型的视觉任务中都能表现出色,为多模态智能体的训练提供全新的解决方案。

实验分析

VRAG-RL 在各个基准数据集上均取得了显著优于现有方法的性能,涵盖了从单跳到多跳推理、从文本到图表和布局等多种复杂的视觉和语言任务类型。实验结果表明,VRAG-RL 在处理视觉丰富信息时具有显著的优势,能够更有效地进行检索、推理和生成高质量的答案。无论是在传统的 prompt-based 方法(如 Vanilla RAG 和 ReAct RAG)还是在基于强化学习的方法(如 Search-R1)上,VRAG-RL 都展现出了显著的性能提升。

在传统的 RAG 方法中,模型通常在进行一次或多次检索后直接生成答案。然而,在处理复杂的视觉任务时,这种方法往往表现不佳,因为它缺乏对视觉信息的深入理解和多轮推理能力。

相比之下,我们的 VRAG-RL 方法支持多轮交互。具体来说,通过定义视觉感知动作空间,VRAG-RL 能够在推理阶段逐步聚焦于信息密集区域,从而实现从粗到细的信息获取。同时,该方法通过优化检索效率和推理路径,在保持高效率的同时,显著提升了模型在视觉任务上的性能。

未来展望

开启视觉感知驱动多模态推理的新时代

VRAG-RL 为视觉丰富信息的检索增强生成任务开辟了新的道路。未来,研究团队计划进一步拓展模型的能力,引入更多模仿人类处理复杂信息的动作,使模型能够更深入地进行思考。同时,团队还将致力于减少模型的幻觉现象,通过引入更先进的模型架构和训练方法,进一步提高框架的准确性和可靠性,推动视觉语言模型在更多实际应用场景中的落地与发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

往史过眼云烟
2026-03-26 20:33:55
猝死三件套:熬夜、咖啡、跑步——人生最后一课

猝死三件套:熬夜、咖啡、跑步——人生最后一课

水滴的声音
2026-03-25 08:36:43
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
小雨!中雨!局地大雨或暴雨+雷暴大风冰雹!未来7天广西有3轮降雨......

小雨!中雨!局地大雨或暴雨+雷暴大风冰雹!未来7天广西有3轮降雨......

广西气象
2026-03-26 19:34:30
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
A股:今天收3889.08,尾盘已明确,做好准备,明天周五,要变盘了

A股:今天收3889.08,尾盘已明确,做好准备,明天周五,要变盘了

虎哥闲聊
2026-03-26 15:09:13
“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

观察者海风
2026-03-24 23:04:30
越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

林轻吟
2026-03-26 07:34:21
伊媒:伊朗若遭美国地面入侵将打击曼德海峡

伊媒:伊朗若遭美国地面入侵将打击曼德海峡

参考消息
2026-03-26 11:02:08
伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

闪电新闻
2026-03-26 10:48:55
A股“分红王”来了,拟10股派70元

A股“分红王”来了,拟10股派70元

数据宝
2026-03-26 22:16:46
52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

股经纵横谈
2026-03-16 21:56:42
Manus终于喝下自己藏好的毒

Manus终于喝下自己藏好的毒

蓝媒汇财经plus
2026-03-25 21:27:26
马斯克最新回复来了

马斯克最新回复来了

新浪财经
2026-03-26 19:29:33
为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

另子维爱读史
2026-03-22 22:34:48
“橄榄绿”今年爆火,太显白了!

“橄榄绿”今年爆火,太显白了!

超级数学建模
2026-03-25 22:39:01
“抱抱我,不炸了...” 极端分子去炸医院,竟被路人大哥嘴炮感化,当场自首?!

“抱抱我,不炸了...” 极端分子去炸医院,竟被路人大哥嘴炮感化,当场自首?!

英国那些事儿
2026-03-25 23:14:43
2026-03-26 23:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
数码
艺术
游戏
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

艺术要闻

哪一座桥不是风景?

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版