亚利桑那州立大学告诉AI：教它认"真实物体"，才能真正看懂世界|样本|新论文

分享至

来源：市场资讯

（来源：科技行者）

这项由亚利桑那州立大学研究团队完成的研究，以预印本论文形式于2026年4月14日发布在arXiv平台，编号为arXiv:2604.13313v1，所属领域为机器学习（cs.LG）。对于关注人工智能视觉理解能力的读者，可以通过该编号查询完整论文。

当你问一个朋友"桌上放着红色杯子旁边的那本书是什么颜色"，他不会把"红色"、"杯子"、"旁边"、"书"这几个词分开理解，然后各自对照——他会把整句话当成一个完整的画面来理解。但现在最先进的图文AI系统，恰恰常常犯这种"把词语拆散理解"的毛病。

这就是所谓的"词袋问题"——AI在理解图文关系时，有时更像在对照一张购物清单，逐个确认"红色有没有？杯子有没有？书有没有？"，却完全忽略了这些词之间的逻辑关系。于是，"男孩抱着狗"和"狗抱着男孩"，对它来说可能没什么两样。

亚利桑那州立大学的研究团队希望从根本上改变这种局面。他们的研究不是在AI的"大脑结构"上动刀，而是从一个更基础但长期被忽视的角度切入：**训练AI时用的"反例"数据，到底应该怎么挑选？** 他们的核心发现，围绕着一个来自语言学的古老概念——词语的"具体性"。

一、AI的"词袋毛病"从哪里来

要理解这个问题，先要了解现代图文AI（也就是视觉语言模型，Vision-Language Model，简称VLM）是怎么学习的。

这类AI的学习过程，可以类比成一场"连连看"大赛。系统面对海量的图片和文字描述，目标是把正确配对的图文尽量靠近，同时把不匹配的图文尽量推远。比如，一张猫咪照片应该和"一只猫坐在沙发上"这句话靠近，而不是和"一辆汽车在公路上行驶"靠近。这种训练方式叫做"对比学习"，是当前图文AI的核心训练方法。

问题在于，在这场"连连看"大赛中，大多数"错误配对"的案例都太容易分辨了。猫咪照片配上汽车描述，任何人都能一眼看出不对，AI当然也轻松过关。这些"太容易的错误"，在学术上被称为"简单负样本"。

真正让AI进步的，是那些"难辨的错误"——比如同一个场景，"男孩抱着狗"和"狗抱着男孩"的照片长得很像，AI需要真正理解语法结构和物体关系，才能区分开来。这些被称为"困难负样本"。研究人员早已发现，在训练中加入困难负样本，能大幅提升AI的理解能力。

但困难负样本怎么来？研究团队发现，现有方法通常是让大型语言模型（可以理解为一个超级智能写作助手）自动修改描述中的某个词，生成一个"改了一点但很接近"的对比描述。同时用图像生成模型，根据修改后的描述重新生成一张图片，形成图文对。

这里藏着一个关键漏洞：改哪个词，效果差别极大。研究团队注意到，如果改的是"当代风格的卧室里有一张大床"中的"当代"，换成"老式风格"，生成的新图片可能跟原图几乎没有区别——两张卧室照片看起来可以非常相似。但如果改的是"床"这个词，换成"沙发"，那生成的新图片就会有明显的结构差异，AI一眼就能察觉到这种差别。

这个差别，正是本研究的起点。

二、"具体性"：一把被遗忘的钥匙

研究团队引入了一个来自心理语言学（研究语言与心理活动关系的学科）的概念：**词语的"具体性"**（Concreteness）。

简单来说，"具体性"衡量的是一个词对应的概念有多直接、多可感知。"苹果"、"椅子"、"狗"、"火车"——这些词让你脑海中立刻浮现出具体的形象，具体性高。而"当代"、"感情"、"风格"、"状态"——这些词更抽象，很难对应一个清晰的视觉形象，具体性低。

研究人员使用了一个包含约四万个英语词汇具体性评分的数据库（由心理学研究者Brysbaert等人建立），每个词都有1到5分的评分，分数越高代表越具体。"鸡肉"（chicken）的评分是4.8，"花椰菜"（broccoli）是4.87，而"当代"（contemporary）这类形容词分数则低得多。

团队的核心假设是：当你在训练AI时，修改了一个高具体性词语，生成的对比图片就会产生明显的视觉差异，从而给AI一个"强烈的学习信号"。修改低具体性词语，则往往只产生模糊、微弱的变化，AI根本学不到什么。

这个假设听起来简单，但在学术领域，之前从没有人系统地将词语具体性与困难负样本的质量联系起来分析。这正是本研究的原创性贡献所在。

他们用一个直观的例子来说明：同一张"当代风格卧室配一张大床"的照片，如果把"当代"改成"老式"，生成的新图片变化细微；但如果把"床"改成"沙发"，生成的新图片就会有明显的家具替换，两张图的差距肉眼可见。

三、ConcretePlant：专门挑"具体词语"来捣乱的流水线

基于这个发现，研究团队设计了一套自动化的困难负样本生成流水线，取名为**ConcretePlant**（可以理解为"具体性工厂"）。这套流水线分三个阶段工作，就像一条精心设计的食品加工线：原材料进来，经过筛选、加工、成型，最终输出高质量的训练数据。

第一阶段是"选词"。给定一张图片和它对应的描述，流水线首先调用SpaCy（一个成熟的自然语言处理工具）来分析句子结构，把句子拆解成词语，并标注每个词的词性（名词、形容词、动词等）。然后，它过滤掉那些功能性词语（比如"的"、"和"、"在"这类连接词），只保留有实质内容的词。接下来，系统查询具体性评分数据库，给每个候选词打分，并选出分数最高的那部分词作为候选"目标词"。

为了避免每次都只改最高分的那一个词而导致数据单调，系统采用了"Top-K采样"——从最高分的K个词中随机选一个，保持多样性。同时，为了让训练数据覆盖不同类型的理解能力，系统还会根据词语的语法角色，将生成的负样本分为三类：属性类（比如颜色、材质等描述性词语）、对象类（名词，具体事物）、关系类（描述空间关系或互动的词）。关系类因为在数据中相对稀少，会被优先照顾；属性类和对象类则通过配额机制保持平衡。

第二阶段是"改描述"。确定了目标词之后，系统调用Qwen3-32B（一个强大的大语言模型）来生成修改后的描述。系统给Qwen3-32B的指令非常明确：把指定的词换掉，生成一个和原场景视觉上冲突的新描述，但保持句子其他部分完全不变，且新描述必须在现实中合理（不能出现"一顶帽子戴着一个人"这种违反常识的表述）。为了让生成效果更好，系统会根据不同的类别（属性、对象、关系）提供不同的示例给大语言模型参考。

第三阶段是"改图片"。拿到修改后的描述，系统调用SDXL-Turbo（一个快速的图像生成模型）对原图进行编辑，生成与新描述对应的图片。这个过程会有意设置较高的"修改强度"，确保生成的图片确实反映了描述的变化，而不是只做了微小的风格调整。

经过这条流水线，每个原始的图文对都会产生一个对应的"困难负样本"——一张改动了具体物体或属性的图片，加上一段只改了一个关键词的描述。两者看起来很接近，却在关键地方有明显的视觉语义差异。整套数据集被研究团队命名为**ConcreteBatch**。

四、梯度失衡：另一个藏在训练过程中的隐患

发现了数据质量的问题，团队以为找到了全部答案——直到他们仔细分析训练过程中的数学信号，发现还有另一个麻烦潜伏在里面。

对比学习的训练过程，本质上是让AI不断调整自己的"判断力"。每次训练，AI会根据"判断错了多少"来更新自己的参数。这个"判断错了多少"对应的数学量，叫做"梯度"——你可以把它理解为"纠错信号"的强度。纠错信号越强，这次训练对AI的影响就越大。

问题在于：在一个典型的训练批次中，有一对"困难负样本"，还有成百上千对"简单负样本"。研究团队通过数学推导发现，这些大量的简单负样本，会产生大量微弱但累积起来数量庞大的纠错信号；而困难负样本产生的纠错信号虽然质量高，却被淹没在简单负样本的"信号海洋"里。

打个比方：你在学钢琴，老师让你重点练一段困难的曲子，但每次练习时间里，你花了72%的时间在弹你早就熟练的简单音阶，只有不到28%的时间在认真练那段难曲。这样练下去，你的进步会非常慢——因为你的精力都被不必要的重复占满了。

研究团队把这种现象称为"梯度失衡"，并通过实验直接测量了这一现象。他们发现，在批次大小N=1024（意思是每次训练用1024对样本）的情况下，简单负样本消耗了至少72%的总纠错信号。就算把批次缩小到N=256，失衡依然存在。

有人可能会说，那就把批次缩小呗。但研究团队发现，减小批次会带来另一个代价：对比学习天生需要大批次才能让AI学到多样化的知识，避免认知"偏食"。实验表明，把批次从1024缩小到256，AI在一般视觉理解任务上的表现下降了约2.16%，在组合理解任务上下降了约1.18%。这不是可以接受的代价。

五、Cement Loss：用物理学公式给纠错信号"重新分配权重"

面对梯度失衡，研究团队提出的解决方案既优雅又直观：在计算困难负样本的"相似度得分"时，人为加上一个"边距"（margin），让困难负样本在数学上"看起来更难分辨"，从而迫使AI给它更多关注。

具体来说，在训练的数学计算中，每对样本都有一个相似度得分。系统将困难负样本的相似度得分加上一个正值m，使它在计算中看起来"更接近正确答案"，这样AI就不得不更努力地去区分这个困难案例。这个操作就像是在游戏中给困难关卡增加权重——不管它实际上有多容易，系统都会认为它更重要。

但"边距m应该设多大"，这本身又是一个新问题。太大了，AI会过度关注困难负样本，忽视一般的知识学习；太小了，效果不明显。更关键的是，不同的困难负样本，困难程度也不一样——一张改了"鸡肉"的图片比改了"风格"的图片更容易辨认，理应得到不同强度的纠错信号。

研究团队从图像数据中发现了一个规律：词语的具体性得分，与模型在那对样本上的"得分差距"（正确答案得分减去错误答案得分）之间存在线性关系——具体性越高的词，生成的负样本对AI来说越容易区分，得分差距越大。这意味着具体性得分本身，就是判断"这个负样本有多有价值"的一个可靠指标。

基于这个规律，研究团队用一个来自物理学的公式来建模自适应边距——费米-狄拉克分布（Fermi-Dirac distribution）。这个公式原本是量子物理学中描述电子能级分布的，但它有一个非常实用的数学性质：它能在某个阈值附近产生平滑的"相变"，让输出值从低端平滑过渡到高端，同时被约束在一个固定范围内。

通俗来说，就是：具体性低的词生成的负样本，对应一个较小甚至为负的边距（降低它的权重）；具体性高的词生成的负样本，对应一个较大的边距（提升它的权重）。整个过渡是平滑的，不会突然跳变。边距的范围被约束在[-2, 2]之间，防止任何极端情况。

这套结合了具体性评分和自适应边距的损失函数，被研究团队命名为**Cement Loss**（水泥损失函数，与"混凝土/具体性"的英文concrete呼应），而使用ConcreteBatch数据和Cement Loss训练的模型，则被命名为**Slipform**（滑模成型，一种建筑工程术语，指连续浇筑混凝土的工艺——整个命名体系都在呼应"混凝土"这个核心意象）。

六、数据集的检验：真的更难吗

在正式训练和评测之前，研究团队对自己生成的数据集做了一次全面的"体检"，以验证数据质量符合预期。

他们对比了三个数据集：Dhc（高具体性关键词生成的负样本）、Dlc（低具体性关键词生成的负样本）、Dwo（不考虑具体性随机选词生成的负样本）。

在最核心的"视觉差异"指标上，他们用DINOScore来衡量——这个指标由DINOv2模型计算，数值越低代表两张图片差异越大。结果正如预期：Dhc的DINOScore最低，意味着高具体性词生成的图片对差异最大；Dlc的DINOScore最高，图片对差异最小；Dwo居中。这直接验证了核心假设：修改具体性更高的词，确实会生成视觉差异更大的图片对。

在"样本难度"上，他们用"逻辑得分差距"来衡量——这个指标计算模型对正确图文对和错误图文对的预测得分差。Dhc的得分差距最大（AI更容易分辨），Dlc的得分差距最小（AI更难分辨）。这看似是个矛盾——难道高具体性的数据反而更容易，那它还有训练价值吗？

研究团队解释，这里有一个重要的区别：这里测量的是一个已经训练好的模型（PE-Core-L-14-336）对这批数据的得分，而不是被训练模型的表现。高具体性图片对的大得分差距，恰恰说明图片间的视觉语义差异更清晰、更容易被感知——这正是它能给训练提供更强学习信号的原因。真正"难"的，是Dlc——它生成的图片对视觉差异微弱，模型难以分辨，但这种"难"是因为负样本本身质量差（改变太不明显），而不是因为它蕴含了有价值的组合语义差别。

另外，团队还检查了一个潜在担忧：高具体性词（尤其是二元词组，比如"咖啡杯"、"消防栓"）在替换后，会不会导致文本描述发生太大的语义漂移，使得生成的图文对不再是有效的训练样本？他们通过BERTScore（衡量两段文字语义相似度的指标）发现，高具体性词替换确实会导致BERTScore下降，但这主要是因为高具体性词往往是多词短语，替换时会改变更多字符。从CLIPScore和DINOScore之间的相关性来看，文字变化和图像变化之间保持着一致的对应关系，说明生成的负样本是有效的，而不是随意乱改的。

七、实验结果：数字背后的故事

研究团队将Slipform与一系列已有方法进行了对比，包括最基础的CLIP模型（原始版本）、NegCLIP（加入了负样本训练的版本）、TSVLC、TripletCLIP、CE-CLIP、DeGLA等多个方法。所有实验都基于ViT-B-32（一种常用的视觉Transformer骨干网络）在单块NVIDIA H200 GPU上完成，使用MS-COCO数据集的Karpathy训练分割来生成ConcreteBatch数据。

在**组合理解基准测试**上，评测使用了三个权威的组合语义理解测试集：SugarCrepe（测试模型是否能区分细微的描述差异）、SugarCrepe++（SugarCrepe的升级版，包含图到文和文到图两个方向）、以及Winoground（一个专门测试视觉语言组合理解的经典挑战性数据集）。

结果显示，Slipform在这些测试上的宏观平均准确率达到了54.18，相比原始CLIP模型的47.89，提升了约13.13%（相对提升）。在所有对比方法中，Slipform取得了最高的宏观平均分。

数据集对比方面，使用Dhc训练的模型（高具体性数据）在几乎所有子任务上都优于使用Dlc（低具体性数据）训练的模型，而Dwo（随机选词）的结果介于两者之间。这个趋势在不同损失函数（InfoNCE vs. Cement Loss）下都一致存在，有力地支持了"高具体性数据质量更高"的核心论点。

Cement Loss对比InfoNCE的效果也很稳定：在相同数据集下，使用Cement Loss训练的模型普遍优于使用InfoNCE训练的模型。研究团队还测试了"反向边距"（把高具体性词对应低边距、低具体性词对应高边距，正好与理论相反）的效果，结果如预期所示，反向边距会降低性能，验证了边距设计方向的正确性。

不过，在**一般视觉表示基准测试**上（包括ImageNet-1k图像分类、MS-COCO多标签分类、Flickr30k跨模态检索、以及VTAB视觉任务适应基准），Slipform的表现与原始CLIP模型相比有一定的此消彼长。比如ImageNet-1k的Top-1准确率（分类正确率）从CLIP的43.12%略微下降到Slipform的43.11%；在Flickr30k检索任务上也有类似的轻微波动。

研究团队直接承认了这个权衡：针对细粒度组合语义的优化，确实会对更广泛的视觉表示能力产生一定的"挤压"效应。这是当前方法内在的张力，团队明确将其列为未来需要解决的问题，而不是试图回避。

在梯度失衡的实证验证上，图6的数据说明得很清楚：随着批次大小从256增加到1024，InfoNCE中困难负样本纠错信号占总正样本纠错信号的比率从约0.32急剧下降到不足0.20；而Cement Loss（自适应边距版本）在各种批次大小下都能将这个比率维持在更高水平，且相应地，组合理解平均分也更高。

八、尚未完成的拼图：诚实的局限与展望

研究团队在论文末尾对几个尚待解决的问题做了坦率的说明，这本身值得关注。

第一个问题是具体性评分数据库的覆盖范围。现有的具体性评分（Brysbaert等人建立的数据库）是基于人类对词语的总体感知，涵盖了视觉、触觉、听觉、嗅觉、味觉等多种感知方式的综合评分。但对于训练视觉AI来说，更理想的是专门针对视觉可感知性的评分——毕竟"咆哮"（roar）这个词听觉上很具体，视觉上却不一定。研究团队指出，将视觉专属具体性评分引入ConcretePlant，可能会进一步提升数据质量。

第二个问题是组合理解与一般视觉表示之间的性能权衡。如何在不牺牲广泛视觉理解能力的前提下，持续提升组合语义理解，是一个需要更深入探索的方向。

第三个方向则是将这套方法扩展到视频理解、多模态下游任务等更广泛的应用场景，以及将生成的高质量数据作为子模块用于更复杂的系统中。

说到底，这项研究做的事情，其实和一个好老师教学生没什么两样。好老师不会用太简单的题目让学生一直重复练习，也不会用完全没有意义的题目浪费学生的时间——他们会精心挑选那些"刚刚好有难度、刚刚好能揭示知识核心"的练习题。亚利桑那州立大学的团队发现，在给AI挑选"练习题"的时候，有一条被长期忽视的选题原则：改一道题里"最具体、最真实的那个词"，这道题就会变得更有教育价值。

围绕着这个发现，他们建了一套自动出题的系统（ConcretePlant），还改进了评分机制（Cement Loss），让AI在做练习时能把注意力更多地放在真正有挑战性的题目上，而不是被大量简单题的"噪音"分散精力。最终训练出来的Slipform模型，在理解"谁对谁做了什么"这类需要真正读懂句子逻辑的任务上，比之前的方法提升了超过13%。

当然，就像几乎所有专注于某一方面的训练方式一样，这种"专项强化"也带来了一些对其他能力的轻微影响。这是真实存在的权衡，研究团队没有回避它。

这项工作留下了一个有趣的延伸问题值得思考：当我们在训练AI"认识世界"的时候，我们到底希望它先学会认识什么？是先认识"苹果"和"椅子"这样具体的东西，还是先认识"美丽"和"当代"这样抽象的概念？人类孩子的语言习得顺序，或许真的能给AI的训练数据设计带来更多启示。感兴趣的读者可以通过arXiv:2604.13313v1获取这篇研究的完整论文。

Q&A

Q1：困难负样本在AI训练中起什么作用？

A：困难负样本是指与正确答案在表面上非常相似、但实际上不匹配的训练案例，比如只改了一个词的图文描述对。训练AI时加入这类样本，能迫使模型真正理解词语之间的逻辑关系，而不是靠猜整体主题来匹配图文，从而提升对细节和组合关系的理解能力。

Q2：词语具体性评分数据库是什么，从哪里来的？

A：这个数据库由心理学研究者Brysbaert等人建立，包含约四万个常见英语词汇的具体性评分，每个词的分数在1到5之间，分数越高代表越容易与真实可感知的事物对应，比如"鸡肉"接近5分，"当代"分数较低。该数据库发表于2014年的学术期刊《Behavior Research Methods》。

Q3：Cement Loss和普通的InfoNCE损失函数有什么区别？

A：普通InfoNCE在计算训练信号时，大量简单负样本会占据绝大多数的"纠错信号"，使困难负样本的学习效果被稀释。Cement Loss在此基础上，根据每个负样本对应词语的具体性评分，自适应地给困难负样本增加一个"边距"，让模型在训练时把更多注意力分配给真正有价值的困难案例，从而更高效地学习组合语义差异。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.