首尔大学开发新方法：让AI更好理解图像中的"整体与部分"关系|算法|度量|相似性|新论文

分享至

这项由首尔大学电子与计算机工程系、INMC及IPAI研究团队共同完成的研究发表于2026年3月的arXiv预印本平台，论文编号为arXiv:2603.22042v2。感兴趣的读者可以通过该编号查询完整论文内容。

当我们看一张照片时，大脑会自然而然地理解整个场景以及场景中各个部分之间的关系。比如看到一张街道照片，我们能同时理解整个街景，也能识别出其中的汽车、行人、交通标志等各个元素，并且明白这些部分是如何组成整体的。然而，让计算机也具备这种能力却并不简单。

目前最先进的视觉-语言模型（比如著名的CLIP）虽然表现出色，但在理解这种"整体与部分"的层次关系时仍然存在明显不足。这就像一个只会死记硬背的学生，能够记住很多信息，但不太懂得信息之间的内在联系和层次结构。

为了解决这个问题，首尔大学的研究团队提出了一种全新的方法，叫做"不确定性引导的组合式双曲对齐"（UNCHA）。这个方法的核心思想是教会AI模型理解图像中不同部分对整体场景的重要性是不同的。就好比在一张餐桌照片中，主菜比餐具更能代表这顿饭的特色，而餐具又比桌布更重要。

一、传统方法的局限性：为什么现有AI"看不懂"层次关系

要理解这项研究的意义，我们首先需要明白现有AI模型在理解图像时遇到的困难。传统的视觉-语言模型通常使用欧几里得空间来表示和处理信息，这就像在一张平面地图上标记各种地点。虽然这种方法在很多任务上表现不错，但在处理具有明显层次结构的信息时就显得力不从心了。

以家庭照片为例，当我们看到一张全家福时，我们的大脑会自动建立起层次关系：整张照片代表"家庭聚会"这个概念，而照片中的每个人脸、每个人的服装、背景中的家具等都是这个大概念下的子概念。这种从整体到部分的层次结构在欧几里得空间中很难得到准确表达，就像试图在平面地图上表示山峰的高度一样困难。

更糟糕的是，现有模型往往把图像中的所有部分都一视同仁。回到家庭照片的例子，模型可能把人脸和背景中的花瓶当作同等重要，这显然与人类的直觉不符。在复杂的多物体场景中，这种问题变得更加突出，模型很容易被不重要的细节干扰，而忽略真正关键的信息。

研究团队发现，CLIP等模型在处理组合关系时经常出现偏差。比如在描述"红色的汽车在蓝色房子前面"这样的场景时，模型可能会过分关注文本中首先提到的物体（红色汽车），而对空间关系的理解不够准确。这种偏差在现实应用中会带来明显的问题。

二、双曲空间：一个更适合表示层次关系的"新世界"

为了解决这些问题，研究团队转向了一种叫做双曲空间的数学概念。如果说欧几里得空间像一张平坦的纸，那么双曲空间就像一个向外弯曲的马鞍面。这种几何结构有一个非常有趣的特性：越靠近中心，空间越"紧密"，越远离中心，空间越"宽阔"。

这种特性使得双曲空间天然适合表示层次结构。我们可以把更抽象、更一般的概念放在靠近中心的位置，把更具体、更详细的概念放在远离中心的位置。就像一棵倒置的树：树根（最抽象的概念）在中心，树枝和叶子（具体的细节）向外延伸。

在处理图像时，这意味着整体场景的表示会位于相对靠近中心的位置，而场景中的各个具体部分会分布在更远的位置。更重要的是，双曲空间的几何特性允许我们自然地定义"包含"关系：如果一个概念包含另一个概念，那么被包含的概念会位于包含它的概念所形成的"锥形区域"内。

这种表示方法已经在一些研究中显示出优势。比如MERU模型首次将双曲几何引入视觉-语言学习，通过建模文本和图像之间的"蕴含"关系来改善表示质量。后来的HyCoCLIP进一步扩展了这个思路，不仅考虑文本-图像之间的关系，还考虑图像内部部分与整体的关系。

然而，这些先前的方法都有一个重要的缺陷：它们把图像中的所有部分都当作同等重要来处理。这就好比认为一幅风景画中的主要山峰和角落里的一朵小花具有相同的重要性。现实中，不同的部分对整体的代表性是截然不同的，这种差异需要在模型中得到体现。

三、不确定性：衡量"代表性"的新尺度

首尔大学研究团队的核心创新在于引入了"不确定性"这个概念来衡量图像各部分对整体的代表性。这个想法其实很符合直觉：如果一个部分能够很好地代表整个场景，那么我们对它的"确定性"就高；如果一个部分对整体场景的代表性较弱，我们的"不确定性"就高。

具体来说，在一张海滩度假照片中，阳光、沙滩、海水这些元素具有很高的代表性，所以模型对它们的不确定性应该较低。而照片角落里的一个饮料瓶，虽然也是场景的一部分，但代表性较弱，所以不确定性应该较高。

研究团队巧妙地利用双曲空间的几何特性来实现这种不确定性的度量。在双曲空间中，一个点到原点的距离（称为双曲半径）可以自然地反映概念的抽象程度。距离原点越近，概念越抽象；距离越远，概念越具体。研究团队将这个距离转换为不确定性的度量：距离原点较近的部分（更抽象，更有代表性）对应较低的不确定性，距离较远的部分（更具体，代表性较弱）对应较高的不确定性。

这种设计还有一个重要的理论基础：在双曲几何中，越靠近原点的区域，可利用的"空间"越小，这意味着只有真正重要的、高质量的表示才能占据这些珍贵的位置。就像城市的市中心，只有最重要的建筑才能建在那里。

为了验证这种不确定性度量的有效性，研究团队进行了大量实验。他们发现，模型估计的不确定性与人类对部分-整体语义相似性的判断有很强的负相关关系（相关系数达到-0.739）。这意味着当人类认为某个部分很能代表整体时，模型的不确定性确实较低；当人类认为某个部分代表性较弱时，模型的不确定性确实较高。

四、三种损失函数：让AI学会"轻重缓急"

有了不确定性这个度量工具，下一步就是如何在训练过程中利用它来改善模型性能。研究团队设计了三种巧妙的损失函数，分别从不同角度引导模型学习合理的部分-整体关系。

第一种是不确定性引导的对比损失。传统的对比学习方法会同等对待所有的部分，但新方法会根据不确定性来调整学习的"力度"。对于代表性强的部分（不确定性低），模型会给予更多关注，加强它们与整体的关联；对于代表性弱的部分（不确定性高），模型会适度降低关注度。这就像一个智能的注意力机制，能够自动聚焦于最重要的内容。

具体实现上，研究团队通过调整对比学习中的温度参数来实现这种不确定性引导。温度参数控制着模型对相似性的敏感度：温度较低时，模型对微小差异更敏感；温度较高时，模型更宽容。对于不确定性高的部分，系统会使用较高的温度，让模型不要过分纠结于这些不太重要的细节；对于不确定性低的部分，系统使用较低的温度，让模型精确学习这些关键信息。

第二种是改进的蕴含损失。在双曲空间中，"包含"关系可以通过几何上的锥形区域来表示。如果概念A包含概念B，那么B应该位于以A为顶点的锥形区域内。研究团队对传统的蕴含损失进行了改进，增加了一个角度项，使得即使当B已经位于A的锥形区域内时，模型仍然会继续优化它们的关系，追求更精确的对齐。这就像不满足于"大概正确"，而要追求"精确无误"。

第三种是不确定性校准损失，这是最具创新性的部分。这个损失函数包含三个组件，共同作用来校准不确定性的估计。首先，当部分与整体的蕴含关系较弱时，系统会鼓励模型增加不确定性；其次，系统会防止模型为了减少损失而盲目分配过高的不确定性；最后，通过熵正则化项确保不确定性的分布保持多样化，避免所有部分的不确定性都趋向于相同的值。

这种设计确保了不确定性的估计既准确又稳定。如果没有这种校准机制，模型可能会学到一些"取巧"的策略，比如给所有部分都分配相同的高不确定性来避免犯错，这显然不是我们想要的结果。

五、实验验证：全方位的性能提升

为了验证UNCHA方法的有效性，研究团队在多个重要任务上进行了全面的实验评估。这些实验就像给新方法安排了一系列"考试"，从不同角度检验其能力。

在零样本图像分类任务中，UNCHA在16个标准数据集上都取得了最佳性能。这就像让模型看从未见过的图片类别，然后要求它正确分类。结果显示，UNCHA在各种类型的数据集上都表现出色，包括通用数据集（如ImageNet）、细粒度数据集（如鸟类、汽车识别）和专业数据集（如医学图像）。特别值得注意的是，在一些具有挑战性的细粒度分类任务上，UNCHA的改善尤为显著。

在图像-文本检索任务中，UNCHA同样展现出稳定的优势。这个任务要求模型能够准确理解图像和文本之间的对应关系。结果表明，UNCHA不仅在传统的检索指标上表现更好，更重要的是在处理复杂的多物体场景时显示出明显优势。这说明新方法确实改善了模型对组合关系的理解能力。

层次分类实验进一步验证了UNCHA在处理层次结构方面的优势。研究团队使用了基于WordNet层次结构的ImageNet数据集，评估模型是否能够学到概念之间的层次关系。结果显示，UNCHA在所有层次相关的指标上都取得了最佳成绩，包括树诱导误差、最低公共祖先误差、层次精确度和层次召回率等。

多标签分类实验着重测试了模型在复杂多物体场景中的表现。在MS-COCO和VOC数据集上，UNCHA都取得了最高的平均精度。更有说服力的是，在专门设计用于评估组合理解能力的ComCo和SimCo数据集上，UNCHA的优势更加明显。这些数据集包含了2-5个物体的复杂场景，要求模型能够准确识别和理解所有物体及其关系。

研究团队还进行了一项特别有趣的实验：部分级别对齐评估。这个实验使用了来自Densely Captioned Images数据集的精细标注，要求模型在存在"困难负样本"的情况下正确匹配图像区域和对应的文本描述。UNCHA在这个极具挑战性的任务上也取得了最佳表现，证明了其在精细粒度理解方面的能力。

六、深入分析：为什么UNCHA如此有效

为了更好地理解UNCHA为什么如此有效，研究团队进行了详细的分析实验。这些分析就像解剖麻雀一样，帮助我们理解新方法的内在机制。

首先，研究团队可视化了双曲嵌入空间的使用情况。结果显示，与之前的方法相比，UNCHA能够更好地利用双曲空间的特性。在传统方法中，大部分表示都聚集在靠近原点的狭小区域内，就像所有人都挤在一个小房间里。而UNCHA的表示分布更加合理：整体场景表示位于相对远离原点的位置，部分表示位于更靠近原点的位置，两者之间有清晰的分离。这种分布更好地体现了双曲空间的层次结构特性。

其次，消融实验验证了每个组件的必要性。当研究团队移除不确定性引导的对比损失时，模型在关系对齐方面的表现明显下降。当移除不确定性校准损失时，嵌入分布变得过于集中，表示能力受到限制。当移除熵正则化项时，不确定性的分布变得不够多样化。这些结果表明，UNCHA的每个组件都发挥着不可替代的作用。

梯度分析揭示了各个损失函数之间的相互作用。结果显示，不确定性校准损失与蕴含损失的梯度方向相反，这表明前者确实起到了正则化的作用，防止表示空间的坍塌。而不确定性引导的对比损失与标准对比损失的梯度方向基本一致，但强度更加合理，这解释了为什么新方法能够保持对比学习的优势同时避免其缺陷。

超参数敏感性分析表明，UNCHA对主要超参数的选择相对稳健。在较宽的参数范围内，模型都能保持稳定的性能，这对实际应用来说是一个重要优势。这说明新方法不是依赖于精细的参数调整来获得好结果，而是在算法层面就具有良好的特性。

最后，研究团队还展示了不确定性排序的定性结果。他们将同一张图像的不同部分按照不确定性从低到高排列，结果与人类的直觉高度一致。代表性强的部分（如主体物件、关键特征）确实具有较低的不确定性，而背景噪声、模糊区域等则具有较高的不确定性。这种一致性进一步验证了UNCHA的合理性。

七、技术创新的深层意义

UNCHA的成功不仅仅在于性能数字的提升，更重要的是它为视觉-语言理解提供了一种全新的思路。这种思路的核心在于认识到"不是所有的部分都同等重要"这个朴素但深刻的事实。

从技术角度来看，UNCHA实现了三个重要突破。首先，它提供了一种自然而有效的方法来量化部分对整体的代表性。这种量化不是基于人工设计的规则，而是从数据中自动学习得到的，因此更具普适性。其次，它成功地将这种代表性信息整合到模型的学习过程中，实现了"因材施教"式的训练。最后，它在保持模型复杂度基本不变的情况下显著提升了性能，这对实际应用具有重要价值。

从更广阔的视角来看，UNCHA体现了一种重要的设计哲学：让AI系统的学习过程更接近人类的认知过程。人类在理解复杂场景时，会自然地建立层次结构，区分主次关系。UNCHA通过技术手段模拟了这种认知特性，使AI模型能够更好地理解世界的复杂性。

这种思路对其他AI领域也有启发意义。比如在自然语言处理中，句子中的不同词语对整体语义的贡献也是不同的；在时间序列分析中，不同时间点的重要性也存在差异。UNCHA提出的不确定性引导学习框架可能在这些领域也有应用潜力。

八、实际应用前景与挑战

UNCHA的技术优势为多个实际应用领域带来了新的可能性。在图像搜索和内容推荐方面，更准确的层次理解能力意味着系统能够更好地理解用户的真实意图。比如当用户搜索"海滩度假照片"时，系统不会被照片中的无关细节误导，而能够准确聚焦于真正体现度假主题的元素。

在自动驾驶和机器人视觉方面，准确的部分-整体关系理解对安全至关重要。UNCHA能够帮助系统更好地区分场景中的关键要素（如道路、车辆、行人）和次要背景（如路边的广告牌、远处的建筑），从而做出更准确的决策。

在医学图像分析领域，UNCHA的层次理解能力可能有助于更准确的疾病诊断。医学图像通常包含大量细节，但只有其中一部分与特定疾病相关。UNCHA能够帮助系统自动识别这些关键区域，减少误诊的风险。

不过，UNCHA也面临一些挑战。首先是计算复杂度问题。虽然新方法没有显著增加模型参数，但双曲几何运算比欧几里得运算更复杂，这可能在大规模应用中带来效率挑战。其次是可解释性问题。虽然不确定性提供了一定的可解释性，但对于普通用户来说，理解双曲空间中的表示仍然有一定难度。

另外，当前的评估主要集中在相对标准化的数据集上，在更复杂、更多样化的真实世界场景中的表现还需要进一步验证。特别是在处理一些文化差异、语言差异等方面，模型的泛化能力还有待观察。

九、未来发展方向

基于UNCHA的成功，研究团队和整个领域都可以在多个方向继续探索。首先是将不确定性引导的思想扩展到更多模态。除了视觉和文本，音频、视频等其他模态也存在类似的层次结构问题，UNCHA的方法论可能在这些领域也有应用价值。

其次是探索更高效的双曲几何运算方法。随着专门的硬件支持和优化算法的发展，双曲模型的计算效率有望得到显著提升。这将为UNCHA在实际应用中的部署扫除技术障碍。

另一个有趣的方向是结合大语言模型的能力。当前的大语言模型在文本理解方面表现出色，如果能够将UNCHA的视觉理解能力与强大的语言理解能力结合起来，可能会产生更强大的多模态AI系统。

研究团队还提到了将不确定性概念扩展到时序建模的可能性。在视频理解、机器人导航等涉及时间序列的任务中，不同时刻的重要性也存在差异，不确定性引导的方法可能在这些领域也能发挥作用。

最后，从更根本的角度来看，UNCHA开启了一个新的研究方向：如何让AI系统更好地理解和模拟人类的认知结构。这不仅仅是技术问题，也涉及认知科学、心理学等多个学科的交叉研究。

说到底，UNCHA代表的不仅仅是一种新的技术方法，更是一种新的思考方式：承认复杂性，拥抱不确定性，追求更细致、更人性化的AI理解能力。在AI技术日新月异的今天，这种回归认知本质的思路显得尤为珍贵。对于普通用户而言，这意味着未来的AI系统将能够更准确地理解我们的图像和需求，提供更贴心、更精准的服务。对于研究者而言，UNCHA提供了一个新的工具箱和思路，可能催生更多突破性的研究成果。无论从哪个角度来看，这都是一项值得关注和期待的重要进展。

Q&A

Q1：UNCHA是什么技术？

A：UNCHA是首尔大学开发的"不确定性引导的组合式双曲对齐"技术，它能让AI更好地理解图像中整体与部分的关系。这项技术使用双曲空间而非传统的平面空间来表示信息，并引入不确定性概念来衡量图像各部分对整体的代表性，就像教会AI区分一张照片中哪些元素重要、哪些不重要。

Q2：双曲空间与传统欧几里得空间有什么区别？

A：双曲空间就像一个向外弯曲的马鞍面，而欧几里得空间像平坦的纸张。双曲空间的特殊之处在于越靠近中心空间越紧密，越远离中心空间越宽阔，这种特性天然适合表示层次关系。在处理图像时，抽象的整体概念位于中心附近，具体的部分细节分布在外围，形成清晰的层次结构。

Q3：UNCHA技术能应用在哪些实际场景中？

A：UNCHA在多个领域都有应用潜力。在图像搜索中，它能更准确理解用户意图，不被无关细节误导；在自动驾驶中，它能帮助系统区分关键要素和次要背景，提高安全性；在医学图像分析中，它能自动识别与疾病相关的关键区域，减少误诊风险；在内容推荐系统中，它能更好地理解图像内容，提供更精准的推荐。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.