多模态AI的"减肥革命"：上海AI实验室让视觉模型效率翻倍的方法|新模型|ai实验室

多模态AI的"减肥革命"：上海AI实验室让视觉模型效率翻倍的方法

2025-11-20 21:30:23　来源: 科技行者

北京举报

分享至

这项由上海人工智能实验室联合上海交通大学、复旦大学、南京大学、东华大学和香港中文大学共同完成的研究，发表于2025年10月的arXiv预印本平台（编号：arXiv:2510.12793v1）。对于关注AI发展的读者，这项名为"ViCO：面向语义感知动态高分辨率的训练策略"的研究带来了令人振奋的突破。

当我们使用多模态大语言模型处理图像时，就像请一位专业摄影师分析照片一样，模型需要将每张图像切分成许多小块来仔细观察。以目前广泛使用的InternVL3.5模型为例，它会把一张图片最多分成13个小块（包括一个缩略图），每个小块用256个"视觉词汇"来描述，这样一张图片最多需要3328个词汇来完整表达。当我们需要处理多张图片或视频时，这些视觉词汇就会像滚雪球一样越积越多，让计算机的运行速度变得缓慢，处理成本也大幅上升。

这种情况就好比让一位画家描绘一幅风景画，传统方法要求画家对画面中的每一寸土地都用同样精细的笔触来刻画，无论是复杂的人物面部表情，还是简单的蓝天白云，都要花费同样的时间和精力。显然，这种"一视同仁"的处理方式既浪费资源，又影响效率。研究团队提出的ViCO（Visual Consistency Learning，视觉一致性学习）方法，就像给这位画家装上了一双"智慧之眼"，让他能够自动识别画面中哪些区域需要精雕细琢，哪些区域可以粗笔带过。

研究团队的核心创新在于开发了一套"语义复杂度感知系统"。这个系统不再按照图像的分辨率大小来决定使用多少计算资源，而是根据图像内容的复杂程度来智能分配。当系统遇到包含丰富语义信息的图像区域时，比如人脸表情、文字内容或者复杂的物体结构，它会分配更多的"注意力"和计算资源；而对于相对简单的区域，如纯色背景、模糊区域或重复纹理，系统就会采用更轻量级的处理方式。

为了实现这个目标，研究团队设计了一个两阶段的训练过程。第一个阶段叫做"一致性训练"，就像训练一位厨师学会用不同的烹饪时间制作出口味一致的菜品。在这个阶段，研究人员让模型学习如何在使用不同数量的视觉词汇时，依然能够产生准确一致的分析结果。他们引入了一个"参照模型"，这个模型始终使用完整的视觉信息，而训练中的模型则要学会在压缩视觉信息的情况下，输出结果尽可能接近参照模型。这个过程通过最小化KL散度来实现，KL散度是衡量两个概率分布差异的数学工具，通俗地说就是衡量两个答案有多相似。

第二个阶段是"路由器训练"，这里的路由器（Visual Resolution Router，简称ViR）就像一个经验丰富的交通指挥员，能够快速判断每个图像区域应该走"快车道"还是"慢车道"。研究团队为每个图像块计算了一个"损失比率"，这个比率反映了压缩处理对模型输出质量的影响程度。如果某个图像块被压缩后对结果影响很小，路由器就会给它贴上"可压缩"的标签；相反，如果压缩会显著影响结果质量，路由器就会保持该区域的高精度处理。

这个路由器的工作原理非常巧妙。它首先从视觉编码器中提取图像特征，然后通过注意力池化机制聚合信息，最后通过一个轻量级的多层感知机网络输出每个图像块的处理策略。整个过程就像一个智能分拣系统，能够在毫秒内为成百上千个图像块做出最优的处理决策。

在具体实现上，研究团队采用了多个MLP连接器，每个连接器对应不同的压缩比率。高分辨率表示使用256个词汇，而低分辨率表示只使用64个词汇，压缩比达到了4:1。在训练过程中，系统会随机选择不同的压缩比率，让模型适应各种处理强度，就像一个运动员在不同强度的训练中都要保持良好的表现一样。

实验结果证明了这种方法的卓越性能。研究团队在InternVL3.5系列的多个版本上进行了测试，从4B参数的小模型到241B参数的超大模型，ViCO都能够在压缩多达50%视觉词汇的情况下，保持99.6%以上的原始性能。这意味着模型的感知能力、推理能力和OCR（光学字符识别）能力几乎没有受到影响，但推理速度却提升了将近一倍。

在具体的评估中，研究团队选择了多个具有挑战性的基准测试。对于OCR相关任务，他们使用了OCRBench、ChartQA和TextVQA等数据集，这些测试特别依赖于精细的视觉细节。结果显示，即使在高压缩率下，模型在这些视觉敏感任务上的表现依然稳定。比如在8B参数的模型上，OCRBench的得分从84.0仅略微下降到83.9，而图像块的压缩率却达到了71%。

对于通用多模态任务，研究团队测试了MMStar、POPE、MME、MMBench等基准，这些测试涵盖了常识推理、物体检测、视觉问答等多个方面。即使是在需要长输出的MMMU推理任务中（支持高达64K词汇的输出），ViCO依然保持了稳定的性能，这进一步验证了方法的鲁棒性。

在多图像和视频理解任务上，ViCO同样表现出色。对于Video-MME基准测试，最大的241B参数模型在压缩约70%词汇的情况下，不仅保持了原有性能，甚至略有提升，得分从76.5提升到76.6。这种现象可能是因为适度的信息压缩帮助模型更好地聚焦于关键信息，减少了噪声干扰。

与现有方法的对比更加突出了ViCO的优势。研究团队将其与FastV和SparseVLM等最新的词汇压缩方法进行了比较。这些传统方法依赖于手工设定的参数，无法根据不同任务动态调整压缩策略。结果显示，虽然这些方法的整体得分下降不多，但在视觉敏感任务（如OCR）上却出现了明显的性能下降。相比之下，ViCO能够自动评估词汇的语义重要性，在视觉不敏感任务上应用更强的压缩，而在关键任务上保留更多词汇，从而避免了显著的性能退化。

研究团队还进行了详细的消融研究来验证各个组件的有效性。他们发现，如果直接将训练好的路由器应用到原始模型上，性能会出现大幅下降，这说明一致性训练阶段的重要性。没有这个阶段，模型无法处理混合分辨率的视觉词汇。同时，他们也验证了路由器训练的必要性。如果随机分配压缩策略，性能保持率只能达到97.6%，而训练好的路由器可以达到99.6%的保持率。

更有趣的是，研究团队还比较了不同粒度的路由策略。图像级路由（整张图片统一压缩策略）的性能保持率为98.8%，略低于块级路由的99.6%。图像级路由还存在压缩行为不稳定的问题，在某些数据集上压缩率极低（如InfoVQA只有12%），而在另一些数据集上压缩率极高（如BLINK达到88%），这种不一致性会影响实际部署的可预测性。

为了让读者更直观地理解路由器的工作方式，研究团队提供了丰富的可视化结果。在这些例子中，我们可以清楚地看到路由器是如何区分语义复杂和简单的图像区域的。含有显著物体（如人物、动物、文字）的区域被分配到低压缩率，保持高精度处理，而相对均匀的背景区域则被分配到高压缩率。重要的是，高压缩率并不意味着这些区域不重要，而是说明这些信息可以用更少的资源来充分表达。

在实际应用的吞吐量测试中，ViCO展现出了令人满意的加速效果。研究团队使用LMDeploy框架在真实部署环境中测试了不同规模模型的首词汇吞吐量。结果显示，50%的词汇压缩能够实现1.75倍以上的加速，而在更高压缩率下加速效果更加明显。特别值得注意的是，文本输入较短时加速效果更加显著，这是因为压缩的视觉词汇在总词汇中占比更高。

从技术创新的角度来看，ViCO的贡献主要体现在三个方面。首先是引入了语义级的自适应处理策略，这改变了传统基于分辨率的固定处理模式。其次是设计了有效的训练策略，通过一致性学习让模型能够适应混合分辨率输入。最后是开发了智能路由机制，能够自动为每个图像区域选择最优的处理策略。

这项研究的意义不仅限于技术层面，还可能对AI产业产生深远影响。随着多模态AI应用的普及，从智能助手到自动驾驶，从医疗诊断到教育辅导，几乎所有涉及视觉理解的AI系统都可能从这种效率提升中受益。特别是在移动设备和边缘计算场景中，计算资源有限的环境下，这种技术可能成为AI普及的关键推动力。

对于普通用户而言，这意味着未来的AI助手能够更快地处理图片和视频，同时消耗更少的电量和计算资源。无论是用手机拍照识别植物，还是让AI助手分析复杂的图表文档，响应速度都将显著提升。对于企业用户，这种技术可以大幅降低AI服务的运营成本，使得更多中小企业能够负担得起高质量的AI服务。

研究团队承诺将开源相关代码和模型权重，这将进一步推动整个领域的发展。开源策略不仅能够让更多研究者和开发者受益，还能够促进技术的快速迭代和改进。这种开放的研究态度体现了学术界推动AI技术普惠化的努力。

说到底，ViCO代表了AI模型优化的一个重要方向：不是简单地增加模型规模或计算资源，而是通过更智能的资源分配来提升效率。这种"聪明工作而非辛苦工作"的理念，可能会启发更多类似的创新。当AI系统能够像人类一样，自动识别什么时候需要全神贯注，什么时候可以轻松应对时，我们就离真正智能和高效的AI助手更近了一步。这项研究为实现这个目标提供了一个切实可行的技术路径，对有兴趣深入了解的读者，可以通过arXiv:2510.12793v1查询完整论文获得更多技术细节。

Q&A

Q1：ViCO是如何工作的？

A：ViCO通过两阶段训练让AI模型学会智能分配计算资源。第一阶段训练模型在使用不同数量视觉词汇时保持一致的分析结果，第二阶段训练一个"路由器"来自动判断每个图像区域需要多少计算资源，复杂区域用高精度处理，简单区域用轻量级处理。

Q2：ViCO能提升多少效率？

A：ViCO可以压缩多达50%的视觉词汇，同时保持99.6%以上的原始性能，推理速度提升近一倍。在实际部署中，50%压缩率能实现1.75倍以上的加速，压缩率越高加速效果越明显。

Q3：ViCO适用于哪些AI应用？

A：ViCO适用于所有需要处理图像和视频的多模态AI系统，包括智能助手、文档分析、视频理解、OCR识别等。特别适合移动设备和计算资源有限的场景，能显著降低AI服务的运营成本和电量消耗。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.