UC Davis携手Google DeepMind：让AI模型学会"看重点"的训练方法|谷歌|詹森|实验|模态|新论文|ai模型|知名企业|deepmind

分享至

人工智能就像一个学生，传统的训练方法就是告诉它"答案是什么"，而现在，研究人员找到了一种全新的方法——教会AI"该看哪里"。这项由加州大学戴维斯分校联合Google DeepMind等机构完成的研究发表于2026年2月，论文编号为arXiv:2602.04884v1，为多模态AI训练开辟了一条全新道路。

考虑这样一个场景：当你在看一部电影时，你的注意力会自然地聚焦在重要的情节和角色上，而不是背景中无关紧要的细节。同样，当AI模型处理包含图片和文字的复杂信息时，它也需要学会把"注意力"放在正确的地方。然而，现有的训练方法主要关注教AI说出正确答案，却忽略了教它如何正确分配注意力。

研究团队发现了一个有趣的现象：传统的强化学习训练方法在处理纯文本任务时效果很好，但当应用到需要理解图像和视频的多模态任务时，效果却大打折扣，有时甚至会让模型表现变差。这就像一个原本擅长解数学题的学生，当需要同时分析图表和文字时反而变得手忙脚乱。

为了解决这个问题，研究团队提出了"强化注意力学习"（Reinforced Attention Learning，简称RAL）这一创新方法。与传统方法不同的是，RAL不再单纯优化"说什么"，而是直接优化"看哪里"。这种方法把AI模型内部的注意力机制本身当作一个需要训练的策略，通过奖励那些能产生正确答案的注意力模式，惩罚那些导致错误答案的注意力模式，从而让模型学会更有效地分配注意力资源。

研究成果令人瞩目。在多个图像和视频理解任务上，RAL方法都显著超越了现有的基准方法。更重要的是，这种方法的改进效果非常稳定和一致，不像传统方法那样可能在某些任务上有所提升，在另一些任务上却出现退步。

一、传统训练方法的局限性

要理解这项研究的价值，我们首先需要了解现有AI训练方法面临的挑战。当前主流的AI模型训练方式可以比作教学生做题的过程。老师给学生一道题，学生给出答案，老师根据答案的正确性给出反馈，学生据此调整下次的回答策略。

这种方法在处理纯文本任务时效果很好。当AI需要回答"北京是哪个国家的首都"这样的问题时，它只需要从大量文本信息中找到相关知识并组织成恰当的回答即可。然而，当任务变得复杂，需要同时理解图像、视频和文字时，情况就大不相同了。

设想这样一个场景：你正在看一段烹饪视频，画面中有厨师、各种食材、厨具，还有背景中的装饰品。当有人问你"厨师正在做什么汤"时，你需要把注意力集中在厨师的动作、锅里的内容，以及可能出现的食材上，而不是背景中的装饰品或者无关的厨具。

对AI来说也是如此。一个多模态AI模型在处理这类任务时，需要学会在复杂的视觉场景中识别哪些信息是重要的，哪些可以忽略。传统的训练方法虽然能告诉模型最终答案应该是什么，但无法直接指导模型应该关注画面中的哪些部分。

研究团队通过大量实验发现，传统的强化学习方法在多模态任务上不仅改进有限，有时甚至会损害模型的基本感知能力。这就像一个学生为了在考试中得高分而死记硬背标准答案，结果失去了真正理解和分析问题的能力。

更深层的问题在于，传统方法容易导致"奖励欺骗"现象。模型可能学会产生看起来正确但实际上缺乏真正理解的答案，就像学生学会了考试技巧但没有掌握真正的知识。在多模态任务中，这种现象尤其明显，因为模型可能过度依赖文本线索而忽视视觉信息，或者抓住一些表面的视觉特征而错过真正重要的内容。

正是基于这些观察，研究团队意识到需要一种全新的训练范式，不仅要关注最终的输出结果，更要关注模型内部的信息处理过程，特别是注意力的分配机制。

二、强化注意力学习的核心创新

强化注意力学习的核心思想可以用一个简单的比喻来理解：传统的AI训练就像教学生"标准答案是什么"，而RAL则像教学生"解题时应该看哪里"。这种转变看似简单，实际上代表了AI训练哲学的根本性转变。

在技术实现上，RAL方法将AI模型内部的注意力机制重新定义为一个独立的"政策"。什么是注意力机制呢？可以把它想象成模型的"眼睛"。当模型处理一段包含图像和文字的信息时，它需要决定把"目光"投向哪些地方。有些部分可能获得更多关注，有些部分可能被轻轻带过，这就是注意力的分配过程。

RAL方法的巧妙之处在于，它把这个注意力分配过程本身当作一个需要优化的目标。当模型产生正确答案时，系统会记录下当时的注意力分配模式，并在未来的训练中鼓励类似的注意力行为。相反，当模型给出错误答案时，系统会惩罚相应的注意力模式，推动模型探索更好的关注策略。

这种方法的数学基础相当优雅。研究团队使用了一种叫做"优势加权注意力散度"的技术来实现这一目标。简单来说，就是根据每个回答的好坏程度，来调整模型未来在类似情况下的注意力分配。如果一个回答获得了高分，那么产生这个回答时的注意力模式就会被强化；如果得分很低，相应的注意力模式就会被抑制。

为了确保训练过程的稳定性，研究团队采用了詹森-香农散度（Jensen-Shannon Divergence）这一数学工具来衡量注意力模式之间的差异。这个工具具有很好的数学性质，能够确保训练过程既有效又稳定。

RAL方法还有一个重要特点是其精细化的训练颗粒度。传统方法往往只在整个回答完成后给出总体评价，而RAL能够对回答过程中每一个时间步的注意力分配进行单独优化。这就像一个老师不仅在学生完成整道题后给出评价，还能对解题过程中每一个步骤的思路进行指导。

这种精细化训练的好处是避免了"梯度消失"问题。在长序列的处理过程中，早期步骤的错误往往难以得到有效的纠正信号，而RAL通过逐步优化的方式确保每个时间步都能获得适当的训练信号。

三、在策略蒸馏中的扩展应用

RAL方法的创新不仅限于基础的强化学习训练，研究团队还将这一思想扩展到了知识蒸馏领域，产生了"在线策略注意力蒸馏"这一新的训练范式。

知识蒸馏原本是AI领域一个相当成熟的技术，其基本思想就像师父教徒弟的过程。一个训练有素、能力强大的"老师"模型把自己的知识传授给一个相对简单的"学生"模型。传统的蒸馏方法主要关注让学生模型模仿老师的输出结果，就像学生努力给出和老师一样的答案。

然而，RAL方法的引入为知识蒸馏带来了新的维度。除了模仿老师的答案，学生模型现在还可以学习老师的"观察方式"——也就是注意力分配模式。这种双重学习机制大大增强了知识传递的效果。

在线策略注意力蒸馏的工作原理可以这样理解：学生模型按照自己当前的能力生成回答，然后系统会比较学生和老师在生成过程中的注意力模式。如果学生的注意力分配与老师相似，就给予奖励；如果差异很大，就进行调整。这样，学生不仅能学到正确答案，还能掌握找到答案的正确方法。

这种方法的优势在于解决了传统蒸馏中的"暴露偏差"问题。在传统蒸馏中，学生模型只能在老师选定的样本上学习，但在实际应用时可能遇到老师从未处理过的情况。在线策略蒸馏让学生在自己的行为轨迹上接受指导，更好地适应实际应用环境。

研究结果显示，结合了注意力蒸馏的方法在多个基准测试中都取得了显著的性能提升。特别是在需要精细视觉理解的任务上，这种方法的优势尤其明显。这证明了"学习如何观察"确实比单纯"学习正确答案"更为有效。

四、全面的实验验证与惊人效果

为了验证RAL方法的有效性，研究团队设计了一系列全面而严格的实验。他们选择了Qwen-2.5-VL-7B作为基础模型，这是一个在多模态理解任务上表现出色的先进AI模型。在蒸馏实验中，他们使用了更大规模的Qwen-2.5-VL-32B模型作为"老师"。

实验的训练数据来自Video-R1数据集，这是一个专门为视频问答任务设计的高质量数据集。训练过程分为两个阶段：首先进行监督微调，让模型适应"思考-回答"的推理模式；然后进行强化学习训练，通过奖励机制进一步优化模型表现。

在图像理解任务方面，RAL方法在所有八个测试基准上都超越了传统的GRPO方法。其中最引人注目的提升出现在V*基准测试中，RAL方法比基线提高了5.8个百分点，在MME测试中提升了94.1分，在ChartQA中提高了2.8分，在VizWiz中提升了3.8分。这些显著的改进表明，优化注意力分配确实能够增强模型的视觉理解和推理能力。

更重要的是，RAL方法不仅提升了性能，还解决了传统强化学习方法可能导致的性能退化问题。在一些情况下，传统的GRPO方法相比基础模型甚至会出现性能下降，而RAL方法始终保持了稳定的改进效果。

在视频理解任务上，RAL的表现同样令人印象深刻。在七个长视频理解基准中，RAL在六个上都超越了GRPO方法。特别是在LongVideoBench上提升了2.2个百分点，在NExTQA上提升了3.4个百分点，在MVBench上提升了1.5个百分点。这些任务都需要模型具备强大的时序推理能力和多跳推理能力，RAL的优势表明它确实帮助模型更好地理解了复杂的时空关系。

在策略蒸馏实验中，结合注意力蒸馏的方法在大多数基准测试中都超越了标准蒸馏方法。特别值得注意的是在V*基准上3.6个百分点的提升和在MuirBench上1.8个百分点的改进。这些结果证明了"传授观察方法"确实是一种有效的知识传递方式。

五、深入的消融分析与重要发现

研究团队进行了详细的消融实验来深入理解RAL方法的工作机制。其中最有趣的发现之一是RAL方法在不同视觉信息密度下的表现差异。

当研究人员测试不同视频帧数和图像分辨率时，发现了一个重要规律：随着视觉信息变得更加密集和复杂，RAL相对于传统方法的优势变得更加明显。在LongVideoBench测试中，无论是32帧、64帧还是128帧的视频，RAL都稳定地超越了GRPO方法。而在V*图像测试中，当图像分辨率从512像素增加到2048像素时，RAL的性能优势从1.6个百分点大幅增长到6.3个百分点。

这一发现具有深刻的意义。它表明RAL方法在处理高密度、高复杂度的多模态信息时具有特殊的优势。随着AI应用场景变得越来越复杂，需要处理的视觉信息越来越丰富，这种能够有效分配注意力的训练方法将变得愈发重要。

研究团队还设计了一个特别有趣的实验：RAL-zero。在这个变体中，他们完全移除了显式的"思考过程"，让模型直接给出答案，而不经过详细的推理步骤。这样做的目的是为了验证注意力优化本身的贡献，排除文本推理过程的影响。

RAL-zero的实验结果令人惊喜。即使没有显式的推理过程，RAL-zero仍然在大多数基准测试中超越了基础模型，并在多个测试中与完整的GRPO方法表现相当甚至更好。特别是在NExTQA、VideoMME和LVBench等时序推理任务上，RAL-zero甚至达到了最佳性能。

这一结果证明了一个重要观点：注意力机制本身就是一个被严重低估的优化目标。传统上，研究人员主要关注模型的输出层优化，而忽略了内部注意力分配的重要性。RAL-zero的成功表明，即使不依赖复杂的文本推理，仅仅通过优化视觉注意力分配就能显著提升模型的多模态理解能力。

在图像理解任务上，RAL-zero在MMMU-Pro和VizWiz等需要精细视觉识别的测试中取得了最佳成绩。这进一步证实了优化注意力分布确实能够增强模型的跨模态推理能力，即使在没有显式语言推理的情况下。

六、技术实现的精妙设计

RAL方法的成功不仅在于其创新的理念，更在于其精妙的技术实现。研究团队在算法设计中考虑了多个重要因素，确保方法既有效又稳定。

在注意力权重的提取和处理方面，研究团队选择了从模型最后一层的注意力权重入手，并将多个注意力头的权重进行平均。这种设计基于这样的观察：模型的最后层往往包含了最终决策相关的关键信息，而多头注意力的平均能够提供更稳定的训练信号。

为了确保训练过程的数学稳定性，研究团队采用了詹森-香农散度作为衡量注意力分布差异的标准。与其他散度测量方法相比，詹森-香农散度具有对称性和有界性的良好性质，这使得训练过程更加稳定和可控。

在梯度计算方面，研究团队推导出了完整的数学公式，确保注意力优化能够有效地反向传播到模型参数。这个过程涉及复杂的链式法则计算，包括softmax函数的雅可比矩阵处理。通过精确的数学推导，他们确保了梯度信号既准确又高效。

超参数的选择也经过了细致的调试。注意力损失权重λ_attn在{0.5, 1, 5}范围内进行了测试，而蒸馏实验中的权重γ_attn则在{0.05, 0.5, 1}范围内优化。这些参数的平衡确保了注意力优化与传统语言建模目标之间的协调。

在计算效率方面，尽管RAL方法增加了注意力计算的开销，但研究团队通过巧妙的实现技巧将额外的计算成本控制在可接受范围内。他们使用了eager attention机制来提取注意力权重，避免了复杂的内存操作，同时保证了训练过程的高效性。

七、广泛的应用前景与深远影响

RAL方法的成功不仅仅是一项技术突破，更预示着AI训练范式的深层变革。这种"教AI学会看重点"的思想具有广阔的应用前景和深远的理论意义。

在实际应用场景中，RAL方法特别适合那些需要精确视觉理解的任务。医疗影像分析是一个典型例子。当AI医生需要从X光片或CT扫描中识别病变时，准确的注意力分配至关重要。RAL训练出来的模型能够更准确地聚焦在病变区域，而不会被无关的组织结构干扰。

在自动驾驶领域，RAL方法同样具有重要价值。自动驾驶系统需要在复杂的交通环境中快速识别关键信息——行人、车辆、交通标志、路面状况等。通过RAL训练的视觉系统能够更好地分配注意力资源，优先关注最重要的安全相关信息。

教育领域也可能从这一技术中受益。智能辅导系统可以学会像优秀教师一样引导学生的注意力。当学生观看教学视频或阅读复杂材料时，系统能够帮助他们识别和关注关键信息点，提高学习效率。

从理论角度来看，RAL方法为认知科学提供了新的视角。人类的注意力机制一直是心理学和神经科学研究的重要话题，而RAL方法通过计算建模的方式揭示了有效注意力分配的可学习性。这可能为理解人类认知过程提供新的洞察。

更广泛地说，RAL方法代表了从"结果导向"向"过程导向"的AI训练范式转变。传统方法主要关注最终输出的正确性，而RAL关注的是产生正确输出的内在机制。这种转变可能启发研究人员探索其他内在机制的优化，比如推理路径、知识检索策略、或者决策过程。

在多模态AI系统的发展中，RAL方法可能成为一个基础组件。随着AI系统需要处理越来越多样化的输入——文本、图像、视频、音频等，有效的跨模态注意力分配将变得愈发重要。RAL提供的技术框架可以扩展到其他模态组合中。

说到底，这项研究最大的价值可能在于它改变了我们思考AI训练的方式。不再仅仅满足于"训练AI说正确的话"，而是要"训练AI用正确的方式思考"。这种理念的转变可能引发AI研究领域更深层次的变革，推动我们向真正智能的AI系统迈进。

研究团队相信，注意力分布作为一个独立的优化目标，将为多模态AI的对齐提供更加原则化和通用的解决方案。他们建议未来的研究可以探索将这一思想扩展到其他内在结构，如专家混合路由或跨模态融合机制，从而培育更加稳健和有根据的多模态智能系统。

这项研究为我们展示了一个令人兴奋的可能性：通过直接优化AI的"思考过程"而非仅仅关注结果，我们或许能够培养出真正理解世界的智能系统。对于普通读者而言，这意味着未来的AI助手可能会变得更加"聪明"——不仅能给出正确答案，还能用正确的方式理解和分析问题。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2602.04884v1查询完整的研究论文。

Q&A

Q1：强化注意力学习是什么？

A：强化注意力学习（RAL）是一种新的AI训练方法，它不像传统方法那样只关注AI说出正确答案，而是教AI学会在处理图像、视频等复杂信息时把"注意力"放在正确的地方。就像教学生不仅要知道答案，还要知道解题时应该看哪些关键信息一样。

Q2：强化注意力学习相比传统方法有什么优势？

A：RAL方法在多个图像和视频理解任务上都显著超越了传统方法，而且改进效果非常稳定。特别是当处理复杂的高分辨率图像或长视频时，RAL的优势更加明显。更重要的是，它解决了传统方法可能导致性能退化的问题。

Q3：普通人能从强化注意力学习技术中获得什么好处？

A：这项技术将让AI在医疗诊断、自动驾驶、智能教育等领域表现得更加可靠和准确。未来的AI助手不仅能给出正确答案，还能像人类专家一样准确理解和分析复杂的视觉信息，为我们提供更智能、更可信的服务。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.