阿布扎比AI大学:用双视觉"天眼"让计算机同时看懂内容和精准定位|模态|编码器|神经网络|阿布扎比ai大学

分享至

这项由阿布扎比穆罕默德·本·扎耶德人工智能大学领导的研究发表于2026年的计算机视觉顶级会议CVPR，论文编号为arXiv:2604.03231v1，有兴趣深入了解的读者可以通过该编号查询完整论文。

一、当前AI视觉识别的困境：就像只有一只眼睛的巨人

当下的人工智能视觉系统面临着一个根本性问题，就好比让一个只有一只眼睛的巨人同时完成两项完全不同的任务。现在大部分AI视觉系统都依赖单一的视觉编码器，通常是CLIP这样的模型，它就像一只训练有素但功能单一的眼睛。

这种单眼视觉系统虽然在理解图片内容方面表现不错，比如能告诉你图片里有什么物体，但在精确定位这些物体的具体位置时就显得力不从心了。就像一个人能认出远处是一辆红色汽车，却无法准确指出这辆车停在停车场的哪个具体位置。

研究团队发现，这个问题的根源在于现有系统试图用同一套视觉处理机制来解决两个本质不同的问题。理解图片内容需要的是全局语义信息，就像欣赏一幅画时需要整体把握画面意境；而精确定位则需要细致的空间几何信息，就像用放大镜仔细观察画作中每个细节的确切位置。

更令人头疼的是，现有系统在处理需要精确坐标定位的任务时表现尤其糟糕。比如当你问AI"请指出图片中那个透明鼻托的确切位置"时，很多先进的AI模型要么完全无法回应，要么给出的坐标位置相去甚远。实验数据显示，在需要3像素精度的指向任务中，传统单编码器模型的准确率普遍较低，这就像让一个近视眼的人在没有眼镜的情况下投飞镖一样困难。

二、双视觉系统的灵感：模仿人类的立体视觉机制

阿布扎比AI大学的研究团队从人类视觉系统中获得了灵感。人类之所以能够同时理解场景内容和精确定位物体，是因为我们的视觉系统实际上是一个复杂的多层次处理网络，不同的神经通路负责处理不同类型的视觉信息。

基于这个洞察，研究团队提出了CoME-VL（互补多编码器视觉语言）系统。这个系统的核心思想是使用两个专门化的"眼睛"来分别处理不同类型的视觉任务，就像人类左右脑分工合作一样。

第一个"眼睛"是SigLIP编码器，它专门负责理解图像的语义内容。这个编码器就像一个博学的艺术评论家，能够深刻理解图片想要表达的含义、情感和概念。它通过对比学习的方式训练，擅长将图像与文字描述进行匹配，能够回答"这是什么"的问题。

第二个"眼睛"是DINOv3编码器，它专门负责精确的空间定位。这个编码器就像一个精密的测量师，能够准确识别物体的边界、形状和相对位置关系。它通过自监督学习训练，不需要人工标注就能学会识别物体的几何特征和空间结构。

研究团队通过大量实验发现，这两种编码器确实表现出了互补性。SigLIP编码器在图像的早期处理层就能捕获丰富的语义信息，随着处理层数加深，它越来越专注于识别有助于语义理解的关键特征。而DINOv3编码器则呈现出相反的模式，它在深层网络中表现出更强的空间定位能力，能够生成更加精确和一致的空间注意力图。

三、熵值引导的智能层选择：让每一层都发挥最佳作用

在确定了双编码器架构后，研究团队面临着一个新的挑战：如何从每个编码器的众多处理层中选出最有价值的部分？这就像在一个拥有数十个专业厨师的厨房里，决定让哪几位厨师参与制作一道复杂的菜肴。

研究团队引入了一个巧妙的解决方案——熵值引导的层选择机制。熵值在这里可以理解为信息的"纯净度"指标。高熵值意味着信息分布较为分散，包含更多样化的特征；低熵值则意味着信息更加集中和精确。

通过分析每一层的熵值变化，研究团队发现了一个有趣的现象。SigLIP编码器在所有层都保持相对较高的熵值，这意味着它在各个处理阶段都能提供丰富的语义信息。因此，系统选择使用SigLIP的所有层（第0层到第27层）来获得全面的语义理解。

相比之下，DINOv3编码器的熵值随着层数加深而显著降低，在第10层到第23层之间达到最低点。这个低熵区域正是空间定位信息最为集中和可靠的区域。研究团队因此决定只使用DINOv3的这个特定层段，避免了早期层中噪声较多的信息干扰。

这种基于熵值的选择策略不是随意的，而是有着深刻的信息论基础。当系统需要进行语义理解时，更多样化的特征（高熵）能够提供更全面的上下文信息。而当系统需要进行精确定位时，集中和一致的特征（低熵）能够提供更可靠的空间线索。

四、正交化特征融合：避免信息冗余的巧妙设计

在获得了两个编码器的最佳层选择后，如何将这些不同来源的视觉信息有效融合成为了下一个关键问题。这就像将两种不同乐器的音色完美融合，既要保持各自的特色，又要避免产生不和谐的共鸣。

传统的特征融合方法往往简单地将不同层的信息相加或拼接，但这种做法存在严重的信息冗余问题。相邻的网络层往往编码了高度相似的信息，直接融合会导致某些特征被过度强调，而其他重要特征则可能被掩盖。

为了解决这个问题，研究团队设计了正交化层（Orthogonal Layer）技术。这个技术的核心思想是确保不同层的特征在融合前先经过一个特殊的变换，使得它们在数学意义上变得"正交"，也就是说，它们之间的相关性被最小化，每一层都能贡献独特的信息。

可以把正交化层想象成一个智能的信息过滤器。当多个信息源提供类似信息时，这个过滤器会自动调整每个信息源的权重，确保最终融合的结果既包含了所有重要信息，又避免了重复和冗余。这种处理方式不仅提高了信息的利用效率，还显著增强了系统的表达能力。

在实际实现中，正交化层使用了特殊的数学约束来保证变换矩阵的正交性。这种约束确保了特征变换过程中信息不会丢失或扭曲，同时最大化了不同特征之间的独立性。实验结果显示，加入正交化层后，系统在各项任务上的表现都有了显著提升。

五、RoPE增强的跨注意力对齐：解决空间对应难题

当两个不同的视觉编码器产生特征时，它们往往具有不同的空间分辨率和token网格结构。SigLIP通常产生24×24的token网格，而DINOv3可能产生14×14的网格。这就像试图将两幅不同尺寸的拼图完美拼接在一起，存在天然的空间对应难题。

传统的解决方案是直接将不同编码器的token连接起来，然后交给语言模型处理。但这种方法存在两个严重问题：首先，它会显著增加语言模型需要处理的token数量，导致计算成本急剧上升；其次，简单的连接无法保证来自不同编码器的token之间建立正确的空间对应关系。

研究团队提出了RoPE增强的跨注意力对齐机制来解决这个问题。RoPE（Rotary Position Embedding）是一种先进的位置编码技术，它能够将相对位置信息直接编码到注意力计算中。简单来说，RoPE就像给每个token贴上了一个包含精确空间坐标的标签。

在CoME-VL系统中，SigLIP的token作为查询（Query），DINOv3的token作为键值（Key-Value）。当计算跨注意力时，RoPE确保了空间上相近的token之间会产生更强的注意力连接，而空间上相远的token之间的连接则会被适当抑制。这样，即使两个编码器的token网格大小不同，系统也能建立准确的空间对应关系。

这种设计的巧妙之处在于，它不仅解决了空间对齐问题，还显著提高了计算效率。通过跨注意力机制，系统输出的token数量保持与SigLIP编码器一致，避免了token数量的爆炸式增长。实验数据显示，CoME-VL的推理时间仅比单编码器基准模型增加了0.26秒（从1.26秒增加到1.52秒），而性能提升却是显著的。

六、门控残差连接：确保训练稳定性

在多编码器融合系统中，训练稳定性是一个至关重要的考虑因素。当两个不同的信息流需要融合时，如果处理不当，可能会导致训练过程中的梯度爆炸或消失，就像两股不同温度的水流突然汇合时可能产生的湍流。

为了确保训练过程的稳定性，研究团队采用了门控残差连接策略。这个策略的核心思想是在融合DINOv3信息时采用渐进式的方式。系统首先保留原有的SigLIP特征作为基础，然后通过一个可学习的门控参数逐渐引入DINOv3的信息。

门控参数在训练开始时被初始化为零，这意味着系统最初只依赖SigLIP编码器的信息。随着训练的进行，如果DINOv3的信息确实有助于改善性能，门控参数会逐渐增大，允许更多的DINOv3信息参与到最终的特征表示中。这种设计确保了训练过程的平滑性，避免了因为突然引入大量新信息而导致的训练不稳定。

同时，门控机制还具有自适应性。在不同的任务或不同的输入情况下，系统会自动调整两个编码器信息的混合比例。当需要更多语义理解时，系统会更多地依赖SigLIP的信息；当需要更精确的定位时，系统会增加DINOv3信息的权重。

七、实验验证：全方位性能提升的令人瞩目表现

研究团队在多个具有挑战性的视觉语言基准测试上对CoME-VL进行了全面评估，结果展现出了令人印象深刻的性能提升。这些测试涵盖了从基础的图像理解到精确的物体定位等各个方面。

在PixMo基准测试中，CoME-VL在所有测试类别上都显著超越了基准模型Molmo。在图表理解任务中，准确率从52.39%提升到57.24%，提升了4.85个百分点。在文档理解方面，从62.41%提升到66.94%。在表格分析任务中，从66.25%提升到70.75%。这些提升看似不大，但在AI领域，几个百分点的改进往往代表着系统能力的显著跃升。

更加令人瞩目的是CoME-VL在精确定位任务上的表现。在计数任务中，准确率从83.31%提升到87.83%，提升了4.52个百分点。而在最具挑战性的指向任务中，CoME-VL实现了突破性进展。在3像素精度要求下，准确率达到58.56%，在5像素精度要求下达到75.94%。这些数字的意义在于，CoME-VL成为了首个能够在如此严格精度要求下稳定工作的视觉语言模型。

在专门的物体检测基准RefCOCO上，CoME-VL同样表现优异。在验证集上达到92.57%的准确率，在测试集A上达到95.36%，在测试集B上达到90.51%，全面超越了包括Qwen-VL在内的强基准模型。

为了验证不同组件的贡献，研究团队还进行了详细的消融实验。结果显示，RoPE增强的对齐机制平均带来约2-3个百分点的性能提升，正交化层融合贡献了额外的1-2个百分点提升。当这些技术组件协同工作时，整体效果超过了各部分简单相加的结果，展现出了良好的协同效应。

八、定性分析：从模糊回答到精确定位的质的飞跃

除了量化的性能指标，研究团队还通过具体的案例展示了CoME-VL在实际应用中的优势。这些案例清楚地展现了双编码器架构如何解决传统单编码器系统的局限性。

在一个典型的指向任务示例中，当被要求"定位透明鼻托"时，传统的QWEN2-VL模型只能给出模糊的描述性回答，比如"图像显示了一副未来感的矩形眼镜，连接两个镜片的透明框架结构"，但无法提供具体的坐标位置。LLaVA-1.5模型虽然能够识别出鼻托的存在，但给出的坐标信息严重偏离实际位置。

相比之下，CoME-VL不仅能够准确识别目标物体，还能提供精确的坐标定位。在同一个案例中，CoME-VL给出了坐标(38.5, 52.8)，与真实位置的误差在可接受的范围内，同时还能提供清晰的物体描述。

这种从描述性回答到精确定位的转变代表了视觉语言模型能力的质的飞跃。传统模型就像一个只能笼统描述场景的观察者，而CoME-VL则像一个既能理解场景含义又能精确指出细节位置的专业分析师。

在更复杂的场景中，比如包含多个对象的图像，CoME-VL展现出了卓越的细节处理能力。当处理一张包含多人的海滩照片时，系统能够准确计数人数，同时精确定位每个人的位置。当被问及"照片中有多少人"时，系统能够给出准确的数字"8"，并且在需要时还能指出特定人物的精确坐标。

九、技术创新的深层意义：开启多模态AI新纪元

CoME-VL的技术创新不仅仅是性能数字上的提升，更代表了多模态人工智能发展的一个重要里程碑。这项研究从根本上改变了我们对视觉语言模型架构设计的认知。

首先，这项研究证明了专业化分工在AI系统中的重要价值。就像人类社会中不同职业的专业分工能够提高整体效率一样，让不同的AI组件专注于各自最擅长的任务，然后通过巧妙的协调机制整合它们的能力，能够实现单一系统难以达到的性能水平。

其次，CoME-VL展示了如何在保持计算效率的同时显著提升系统能力。通过精心设计的架构，系统在增加有限计算成本的情况下实现了大幅的性能提升。这种设计思路对于AI技术的实际应用具有重要意义，因为它证明了我们不需要简单地通过增加模型规模来提升性能，而是可以通过更智能的架构设计来实现突破。

更重要的是，这项研究为未来的多模态AI系统设计提供了新的范式。它表明，与其试图用单一的通用模型处理所有任务，不如采用专业化模块协同工作的方式。这种思路可能会影响未来AI系统的整体架构设计，从单一庞大的模型转向协调良好的专业化模块集合。

从应用角度来看，CoME-VL的精确定位能力为许多实际应用场景打开了新的可能性。在医疗图像分析中，系统能够不仅识别病变区域，还能精确标注其位置。在自动驾驶领域，系统能够同时理解交通场景并精确定位各种交通要素。在工业质检中，系统能够发现缺陷并准确定位其具体位置。

十、局限性分析与未来发展方向

尽管CoME-VL取得了显著的成果，但研究团队也诚实地指出了当前系统的一些局限性。最主要的限制是计算开销的增加。相比单编码器基准模型，CoME-VL的推理时间增加了约20%，虽然这个增加幅度相对温和，但在大规模部署时仍然是一个需要考虑的因素。

另一个限制是系统架构的复杂性增加。双编码器系统需要更仔细的超参数调优和训练策略设计，这增加了系统开发和维护的复杂度。对于希望快速部署AI解决方案的用户来说，这可能会带来额外的技术门槛。

此外，当前的系统主要针对静态图像设计，对于视频等动态内容的处理能力还有待进一步验证和优化。视频内容不仅包含空间信息，还包含时间维度的信息，如何在保持精确定位能力的同时处理时间序列信息，是一个值得探索的方向。

展望未来，这项研究为多个发展方向奠定了基础。首先是计算效率的进一步优化，研究团队正在探索如何通过模型压缩、知识蒸馏等技术减少计算开销。其次是扩展到更多模态的信息处理，比如加入音频信息来实现更全面的多模态理解。

另一个令人兴奋的方向是将这种专业化分工的思路扩展到更多的任务类型。除了语义理解和空间定位，未来的系统可能会包含专门处理时间信息、情感信息、因果关系等不同类型信息的专业化模块。

说到底，CoME-VL这项研究最大的价值可能不在于具体的技术细节，而在于它所代表的设计哲学转变。从追求单一模型的万能性转向专业化模块的协同合作，这种思路变化可能会深刻影响未来AI系统的发展方向。正如人类社会从万金油式的通才转向专业分工的合作模式一样，AI系统也许正在经历类似的进化过程。

对于普通用户来说，CoME-VL的成功意味着我们离真正实用的AI助手又近了一步。能够同时理解图像内容并精确定位物体位置的AI系统，将为从医疗诊断到智能家居等各个领域带来实质性的改进。当你的手机相机不仅能告诉你画面中有什么，还能精确指出每样物品的位置时，许多原本需要人工完成的任务都将变得自动化和智能化。

虽然距离完美的AI视觉系统还有很长的路要走，但CoME-VL已经为我们展示了正确的前进方向。通过巧妙的架构设计和精心的工程实现，我们可以让AI系统在保持理解能力的同时获得精确的定位能力，这为构建更加智能和实用的AI应用奠定了坚实基础。

Q&A

Q1：CoME-VL是什么？

A：CoME-VL是阿布扎比AI大学开发的新型视觉语言模型，它使用两个专门化的"眼睛"—SigLIP编码器负责理解图像内容，DINOv3编码器负责精确定位，就像人类立体视觉一样协同工作。

Q2：CoME-VL比传统AI视觉系统强在哪里？

A：传统系统只能模糊描述图像内容，CoME-VL能同时理解语义并精确定位。比如指向任务中，传统系统要么无法回应要么位置偏差很大，CoME-VL能给出精确坐标，在3像素精度下准确率达58.56%。

Q3：CoME-VL会增加计算成本吗？

A：会有适度增加但仍然高效。推理时间仅从1.26秒增加到1.52秒，增幅约20%，但性能提升显著。通过RoPE跨注意力机制避免了token数量爆炸，比简单拼接方法更节省计算资源。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.