字节与北交大联手：让视觉AI开口"说话"，刷新多模态理解新纪录|信号|编码器

分享至

来源：市场资讯

（来源：科技行者）

这项由字节跳动与北京交通大学、南洋理工大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.00809，感兴趣的读者可通过该编号在arXiv平台查阅完整内容。

**一、从"哑巴"到"会说话"：一个关于AI视觉理解的故事**

假设你雇了一位助手，每天帮你看图片、回答问题。这位助手有两种培训方式：第一种，让他把看到的图片和对应的文字描述配对记忆，学会"这张图和这段话是一对"；第二种，直接让他看图之后，张口把图里的内容说出来。哪种方式培养出来的助手，更容易被你后续的语言指令所理解？

这个问题，正是人工智能研究者近年来一直在思考的核心难题。现代的多模态大语言模型（也就是那种既能看图又能聊天的AI，比如GPT-4V这类产品）通常由三部分组成：一个负责"看"的视觉编码器、一个负责"翻译"的连接器、以及一个负责"想和说"的大语言模型。其中，视觉编码器就像AI的眼睛，它的好坏直接决定了整个系统能理解多少视觉信息。

长期以来，最流行的视觉编码器训练方式是"对比学习"，以CLIP和SigLIP为代表。这种方式的核心思路是：给AI看大量的图片和对应文字，让它学会判断哪张图和哪段话是一对，哪张图和哪段话不是一对，就像做连连看。这种方法固然有效，但它本质上训练的是一种"判断配对"的能力，而不是"生成描述"的能力。问题在于，当这个视觉编码器被接入一个需要"逐字生成回答"的大语言模型时，两者的工作方式存在根本性的错位——就像你请了一位擅长做选择题的秘书，却让他去写议论文。

另一种思路是"生成式预训练"，比如AIMv2和CapPa等方法。这类方法让视觉编码器和一个文字生成模块配合，学习根据图片生成描述。虽然方向对了，但这些方案的架构设计普遍比较复杂：视觉编码器本身并不直接"说话"，而是把信息传给一个单独的文字解码器，再由解码器来生成文字。视觉编码器的训练信号要经过这个中间人才能传回来，就像你想训练厨师的刀工，却只通过品尝最终菜肴的口味来给反馈，中间隔了太多环节。

正是在这个背景下，字节跳动和北京交通大学的研究团队提出了GenLIP（Generative Language-Image Pre-training，生成式语言-图像预训练）。他们的核心主张极其简洁：**让视觉Transformer直接开口说话**，不需要对比配对，不需要额外的文字解码器，就用一个统一的Transformer，看完图直接生成描述文字。这个看似朴素的想法，却在多个评测基准上击败了使用数倍训练数据的竞争对手。

**二、GenLIP到底是怎么运作的？**

要理解GenLIP的工作原理，可以用一个"看图作文"的比喻来理解整个训练过程。

在传统的对比学习方法里，AI的任务是做连连看：给一堆图片和一堆句子，把正确的图文对连起来，把不匹配的分开。这培养了AI识别"图和文是否一致"的能力，但不直接培养"根据图写出文字"的能力。

GenLIP的训练任务则直接变成了看图作文：给AI看一张图，然后让它一个字一个字地把图的描述写出来。训练时用的数据是大量的图片-文字配对，文字来自对图片的详细描述。AI的目标很简单：在已知图片内容和前面已经写出的文字的情况下，预测下一个应该写什么字。这种训练方式在大语言模型领域被称为"自回归语言建模"，是ChatGPT等模型的核心训练范式。

**架构设计：一个Transformer搞定一切**

GenLIP的架构设计遵循极简主义原则。整个系统只有一个Transformer（一种强大的神经网络结构，是现代AI的基础构件），负责同时处理图像和文字两种信息。

具体来说，一张输入图片首先被切割成若干个小方块（称为"图像块"），每个小方块被转换成一段数字表示。与此同时，配套的文字描述被分割成一个个词语单元（称为"词元"）。这些图像块的表示和词语的表示被拼接成一个长序列，图像部分在前，文字部分在后，然后一起喂给这个统一的Transformer处理。

在注意力机制的设计上，研究团队做了一个重要的区分：图像块之间可以相互"看"彼此（双向注意力），毕竟图片里每个区域的理解都可能需要参考其他区域；而文字部分则只能"看"前面的内容（因果注意力），这符合生成文字时"只能看到已写出的部分"的自然规律。这种混合注意力机制被称为"前缀语言模型注意力"，是处理"图像作为前缀条件、文字作为生成目标"这种结构的标准做法。

在位置编码方面，研究团队使用了多模态旋转位置编码（MRoPE），这是一种能同时处理图像空间位置和文字序列位置的编码方式，避免了图像和文字在位置信息上的混乱。

训练的损失函数（也就是AI评价自己表现好坏的标准）同样极其简洁：只看文字生成部分的准确度，即在给定前面所有图像块和已生成文字的条件下，正确预测下一个词语的概率有多高。不需要对比损失，不需要图像重建损失，就这一个目标。

**三、一个意外的麻烦：注意力"黑洞"问题**

在实际训练中，研究团队发现了一个棘手的问题。在图像和文字混合的序列中，序列开头的第一个图像块往往会变成一个"注意力黑洞"——其他大量位置的注意力权重都集中到这一个位置上，就好像整个序列的所有信息都被吸入了这个黑洞。

为什么会这样？原因在于文字生成的机制：文字部分的每个词只能看到前面的图像块（通过因果注意力），为了从图像中获取信息，文字生成模块会倾向于把图像信息"压缩"到少数几个容易访问的图像块里，特别是第一个图像块——因为它是所有位置都能访问的。这就像一个班级里，所有同学都倾向于把笔记借给坐在最前面的那位同学，而不是每个人都自己记笔记，时间一长，前排同学的笔记变得极其全面，但其他人却几乎什么都没记。

这个"注意力黑洞"（在学术界被称为"注意力汇聚"或"attention sink"）带来了两个后果：训练过程中会出现明显的损失抖动（意味着训练不稳定），而且最终学到的图像特征在空间多样性上大打折扣——因为大量视觉信息都被压缩进了少数几个位置，其他图像块的特征变得冗余而无意义。

研究团队受到已有研究（特别是针对大语言模型注意力汇聚问题的研究）的启发，提出了"门控注意力"机制来解决这个问题。门控注意力的思路类似于给每个信息通道安装了一个可调节的阀门：在标准注意力计算完成后，再对每个位置的注意力输出乘以一个由输入动态计算的门控信号（一个0到1之间的数值）。门控信号由输入的隐藏状态通过一组可学习的参数计算得出，再经过sigmoid函数压缩到0到1之间。

这个设计的效果是：模型可以学会对某些位置降低信息汇聚的程度，防止文字生成模块过度依赖少数几个图像块，从而让整个图像的空间特征都得到充分利用。实验结果显示，加入门控注意力之后，第一个图像块的平均注意力得分从28.7大幅下降到6.0，训练更加稳定，收敛速度更快，最终性能也有明显提升。

**四、两阶段训练：从打基础到精雕细琢**

GenLIP的训练分为两个阶段，可以理解为先打基础再精修。

第一阶段在Recap-DataComp-1B数据集上进行，这是一个包含10亿张图片及其描述的大规模数据集，图片来自互联网。训练时统一把图片缩放到224×224像素的固定尺寸，以降低计算成本。整个第一阶段共处理了80亿个图片-文字样本（相当于把10亿张图片反复看了8遍），让模型建立起扎实的视觉和语言基础能力。

第二阶段则是精修阶段，使用了两个开源数据集：Infinity-MM的第一阶段字幕子集（约1000万样本）和BLIP3o-Long-Caption（约2700万样本），合计约3700万样本，但这些样本的特点是描述更长、更详细，图片质量更高。更重要的是，这个阶段不再强制把图片缩放到固定尺寸，而是按照图片的原始宽高比来处理，只调整大小使得图像块数量落在16到1024的范围内。这种"任意分辨率"的处理方式让模型能够保留图片中的细节信息，特别有利于文字识别（OCR）和图表理解这类需要看清细节的任务。

这一阶段只训练1个epoch（把数据集过一遍），但效果显著——尤其是对文档理解和OCR类任务的提升非常明显。

研究团队还使用了两种正则化技术：层缩放（layer scale）和随机深度（drop path），这两种技术主要用于稳定较深网络的训练，防止训练发散，但对最终性能的影响相对较小。

在工程实现上，研究团队使用了序列打包策略：把多个长度不同的样本拼接成最大长度为16384个词元的长序列，然后批量处理，以提高硬件利用率。前缀语言模型的注意力掩码通过PyTorch的flex-attention机制实现，支持每个样本独立的注意力模式。

**五、"让ViT开口说话"：模型能做到什么？**

在展示正式的评测结果之前，研究团队做了两个非常直观的演示，证明GenLIP确实学会了"开口说话"。

第一个演示是直接让模型描述图片。给模型一张图（不连接任何外部大语言模型，纯粹用GenLIP本身），用一句"详细描述这张图片"作为提示，看看模型能说出什么。结果表明，GenLIP已经能够生成流畅、语义准确的图片描述。在一张老人带着小白狗滑雪的黑白照片前，小模型（GenLIP-L16）在第一阶段结束后描述为"一张复古照片，一个人在滑雪，穿着深色外套"，而大模型（GenLIP-g16）则准确描述出"一个人背着一只小白狗在滑雪，狗似乎很享受这次旅程"。经过第二阶段训练后，同一张图的描述变得更加详细，包括帽子的花纹、滑雪杖的细节、背景的雪地等。在识别一只宝可梦的图片时，小模型错把Bulbasaur（妙蛙种子）认成了Charmander（小火龙），而大模型（GenLIP-g16）则正确识别出了这个角色，并给出了详细的外观描述。

第二个演示更加有趣：研究团队直接把图像块的特征向量"翻译"成文字——也就是说，不输入任何文字提示，而是直接对每个图像块的特征表示询问"你最像哪个词"。结果发现，在一张滑雪者背着狗的照片中，对准帽子区域的图像块输出了"hat、fur、cap、wool"这样的词语，对准狗的区域输出了"fluffy、puppy、curious"，对准滑雪杖的区域输出了"ski、poles、trek"。这说明GenLIP在预训练过程中，自发地让每个图像块的特征与对应的语言概念产生了对齐，而且这种对齐能力在第二阶段训练后更加精准。大模型（GenLIP-g16）比小模型（GenLIP-So16和GenLIP-L16）表现出更稳定的语义对齐能力，且第二阶段的模型在语义准确性和相关性上均优于第一阶段。

**六、正式评测：用数字说话**

研究团队设计了一套严格的评测框架，核心思路是"冻结视觉编码器"：把GenLIP或竞争对手的视觉编码器固定住（不允许在下游任务中继续训练），只训练连接它和大语言模型的中间层，以及大语言模型本身。这种评测方式能更纯粹地反映视觉编码器本身学到的特征质量，而不是靠下游微调来弥补。

评测基准覆盖了三大类任务。文档与OCR理解方面包括ChartQA（图表问答）、OCRBench（综合OCR评测）、InfoVQA（信息图表问答）、AI2D（科学图表问答）、TextVQA（图片文字问答）、DocVQA（文档问答）和SEED-Bench-2-Plus（文字丰富视觉理解），共7个基准。通用视觉理解方面包括MME（综合多模态评测）、GQA（视觉推理问答）、VQAv2（视觉问答）和ScienceQA（科学问答），共4个基准。图片描述生成方面包括NoCaps、COCO和TextCaps三个标准字幕数据集，均使用CIDEr分数衡量。最终汇报所有14个基准的平均分（ALL AVG）。

在使用较小语言模型（Qwen2.5-1.5B）的条件下，研究团队将GenLIP与多个竞争对手进行了对比，包括CLIP（使用12.8B训练数据）、AIMv2（12.0B）、OpenVision2（12.8B）、SigLIP（40.0B）和SigLIP2（40.0B）。GenLIP在L/16、So/16和g/16三个规模上，ALL AVG分别为61.5、62.6和65.2，均优于同规模的SigLIP2（分别为58.7、60.6、61.5），尽管后者使用了整整40B的训练数据。

在文档与OCR类任务上，GenLIP的优势尤为突出。以g/16规模为例，GenLIP在7个OCR/文档基准上的平均分为53.2，而SigLIP2仅为47.3，差距接近6分。这个差距在多个单项基准上更加明显：ChartQA上GenLIP得45.0对SigLIP2的35.3，DocVQA上得57.0对47.6，OCRBench上得55.6对47.3。

切换到更大的语言模型（Qwen2.5-7B）后，趋势保持一致。GenLIP-So/16以71.8的ALL AVG超越SigLIP2的69.4，GenLIP-g/16以73.6超越SigLIP2的68.9。文档与OCR类任务上的优势依然显著：GenLIP-g/16在DocVQA上得69.0，远超SigLIP2的56.3；在ChartQA上得57.1，同样大幅超过SigLIP2的47.2。

研究团队还在标准的LLaVA-NeXT评测框架下进行了测试，这次视觉编码器不再被冻结，而是和语言模型一起进行指令微调。结果表明，GenLIP-So/16在使用576个图像块时取得了68.5的ALL AVG，在使用729个图像块时取得了70.3的ALL AVG，分别超越了同类竞争对手，在Doc&OCR类任务上的优势依旧明显。

**七、越大越强：规模扩展的故事**

研究团队专门分析了GenLIP的扩展性，包括数据量和模型规模两个维度。

在数据量扩展方面，研究团队在相同的模型规模下，把训练数据从10亿增加到80亿，观察性能变化。结果显示，随着数据量增加，所有三类任务（OCR、VQA、图片描述）的平均分都持续提升。从10亿到40亿阶段，提升幅度较为陡峭；从40亿到80亿阶段，VQA和图片描述任务的提升趋于平缓，但OCR类任务仍有明显增益。值得注意的是，在整个扩展曲线上，加入门控注意力的版本始终优于未加入门控注意力的版本，在数据量较少时这种优势尤为明显。

在模型规模扩展方面，研究团队训练了三个规模的GenLIP：GenLIP-L（约3亿参数，24层，1024维）、GenLIP-So（约4亿参数，27层，1152维）和GenLIP-g（约11亿参数，40层，1536维）。两个训练阶段结束后，性能随模型规模单调递增，g/16始终优于So/16，后者优于L/16。有一个有趣的现象：在第一阶段（固定分辨率预训练）之后，L/16和So/16的差距比较明显，但So/16和g/16的差距相对较小；两个阶段都完成后，g/16的优势变得更加突出。对比之下，SigLIP2在模型规模扩大时的性能提升幅度明显小于GenLIP，这支持了研究团队的判断：更简洁的架构和目标函数有助于更高效的规模扩展。

**八、公平的较量：同等数据下谁更强？**

为了更公平地验证GenLIP的数据效率优势，研究团队设计了一个受控对比实验：让SigLIP（对比学习方法）、OpenVision2（编码器-解码器生成式方法）和GenLIP在完全相同的20亿训练样本上训练，并在统一的评测协议下比较。

为了保证公平性，SigLIP和OpenVision2在224×224的分辨率下训练，然后再用2亿样本进行384×384的高分辨率适应；GenLIP则只训练第一阶段，直接在384×384分辨率下评测（没有进行高分辨率适应阶段）。

结果显示，在相同数据预算下，GenLIP在大多数基准上仍然优于两种基线：GenLIP的OCR类平均分为40.2，OpenVision2为40.3（两者接近，但GenLIP没有进行专门的高分辨率适应），SigLIP仅为39.8。在通用VQA类任务上，GenLIP的GQA得45.4，OpenVision2得44.2，SigLIP得42.7。唯一的例外是OCRBench单项，GenLIP得36.9，低于OpenVision2的43.2，研究团队分析这可能是因为GenLIP在该对比中没有进行高分辨率适应，而密集文字识别任务对高分辨率特别敏感。

**九、不止于"聊天"：判别能力也不差**

GenLIP的主要目标是服务于多模态大语言模型，但研究团队也测试了它在纯视觉判别任务上的表现，以验证它学到的是真实的视觉特征而非仅仅是"语言捷径"。

评测使用的是DINOv2（一个专门训练于视觉自监督的强大基准）设定的协议：冻结视觉编码器，在ImageNet-1K图片分类和ADE20K语义分割两个任务上探测特征质量。由于GenLIP没有传统视觉模型常用的CLS分类标记，研究团队使用了"注意力探针"（一种对所有图像块特征加权汇总的方法）进行分类，使用线性层进行分割。

结果显示，GenLIP在ImageNet-1K上的冻结特征分类准确率从L/16的83.9%提升到g/16的85.2%，在ADE20K语义分割上的mIoU从L/16的41.0提升到g/16的44.5。与基线相比，GenLIP超越了CLIP（85.1%和39.0）和SigLIP（86.7%和40.8）在ADE20K上的成绩，但不及SigLIP2（88.9%和45.4）——后者引入了密集的区域级监督信号。另一个关键发现是：没有加入门控注意力的版本（w/o GA）在ImageNet-1K上的准确率仅为76.2%，远低于加入门控注意力的版本的83.9%以上，直接证明了门控注意力对于抑制注意力汇聚、保护视觉特征质量的必要性。

**十、局限性：诚实的自我剖析**

研究团队在论文中坦诚地指出了GenLIP的几个局限性。首先，所有评测都是在LLaVA-NeXT这个学术级别的多模态框架下进行的，能否推广到更先进的工业级多模态系统尚未验证。其次，训练数据仅使用了10亿规模的数据集，更大规模数据（如100亿以上）的扩展行为尚未探索。第三，GenLIP依赖高质量的图片描述文字作为训练数据，而高质量描述的获取本身需要较高的成本（通常需要用大语言模型对网络图片进行重新描述，而非直接使用原始网页中的配对文字）。

Q&A

Q1：GenLIP和传统的CLIP视觉编码器有什么本质区别？

A：CLIP的训练方式类似于做连连看，让AI学会判断图片和文字是否配对，培养的是判断能力。GenLIP则让AI直接看图写文章，一个字一个字地生成图片描述，训练的是表达能力。这种训练方式更符合多模态大语言模型"逐词生成回答"的工作方式，因此作为视觉编码器时能更自然地配合语言模型。用8B训练数据，GenLIP在多个基准上超越了使用40B数据训练的SigLIP2。

Q2：GenLIP的"注意力黑洞"问题是什么，门控注意力是怎么解决的？

A：在图文混合的序列中，文字生成时需要从图像中提取信息，模型倾向于把大量视觉信息压缩进少数几个图像块（尤其是第一个），导致大多数图像块的特征变得冗余，空间多样性下降，训练也不稳定。门控注意力给每个位置的注意力输出加了一个可学习的阀门，让模型能够自动调节信息汇聚程度，迫使视觉特征保持空间多样性。加入门控注意力后，第一个图像块的平均注意力得分从28.7降至6.0，ImageNet分类准确率也从76.2%提升到84.3%以上。

Q3：GenLIP的第二阶段训练为什么能大幅提升OCR和文档理解能力？

A：第二阶段训练的两个关键变化是：使用了包含更长、更详细描述的高质量图片数据，以及按照图片原始宽高比处理图片而非统一缩放。前者让模型接触到更细粒度的图文对应关系，后者则保留了图片中的细节信息（如小字、表格结构等），这对于识别文字和理解文档至关重要。训练数据量虽然只有3700万（远少于第一阶段的80亿），但由于数据质量高且保留了图片细节，效果提升显著。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.