谷歌DeepMind重磅开源多模态TIPSv2：实现Patch-Text对齐最优表现|新论文|知名企业|patch|计算机视觉|deepmind

谷歌DeepMind重磅开源多模态TIPSv2：实现Patch-Text对齐最优表现

2026-04-27 17:23:04　来源: 机器之心Pro

河北举报

分享至

导语：在多模态大模型飞速发展的今天，视觉 - 语言基础模型在分类、检索、分割和深度预测等任务上取得了巨大进步。然而，如何精准地将密集的 “图像块（Patch）” 表示与对应概念的 “文本嵌入” 对齐，依然是阻碍模型迈向更细粒度理解的 “Achilles' heel”。今天，谷歌 DeepMind 正式推出了 TIPSv2（Text-Image Pretraining with Spatial awareness v2），成功解决了这一核心痛点，并在 9 项任务和 20 个数据集上展现出统治级的性能。

论文标题：TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
项目主页：https://gdm-tipsv2.github.io/
HuggingFace 在线体验：https://huggingface.co/spaces/google/TIPSv2
作者 X (Twitter) 官宣：https://x.com/andrefaraujo/status/2044362911242502498
LinkedIn 讨论：https://www.linkedin.com/posts/andrefaraujo_cvpr2026-cvpr2026-computervision-ugcPost-7449910891069890560-1Yhe?utm_source=share&utm_medium=member_desktop&rcm=ACoAAACIVW4BSMdtaSsUj-OT2zKU6jfeOCRJ-ul

该研究成果《TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment》已成功被计算机视觉顶级会议 CVPR 2026 接收。目前，模型权重（涵盖从 86M 到 1.1B 参数），代码以及在线体验 Demo 已全面开源。

‍ 核心作者团队简介

本文由来自 Google DeepMind 的顶尖研究人员合作完成。通讯作者包括 Bingyi Cao、Koert Chen 以及 André Araujo。

核心团队在计算机视觉及多模态 AI 领域成果斐然，在视觉 - 语言基础模型的架构设计与表征学习方面拥有深厚学术背景与实战经验。该团队长期致力于推动具有 “空间感知能力（Spatial Awareness）” 的多模态大模型前沿研究，此次 TIPSv2 的发布标志着他们在细粒度视觉理解领域树立了全新的里程碑。

1. 发现反直觉现象：

为何 “学生” 超越了 “老师”？

TIPSv2 的诞生，源自于 DeepMind 研究团队对 “预训练（Pre-training）” 与 “知识蒸馏（Distillation）” 之间差异的深度深度剖析。

在视觉大模型（如 CLIP、SigLIP）的常规训练中，模型通常擅长全局图像 - 文本对齐（例如识别整张图中是否有一只猫），但在 “密集任务（Dense Tasks）” 如零样本语义分割中却往往表现乏力。研究团队在早期的消融实验中发现了一个极其反直觉的现象：

通过 “块级别（Patch-level）” 蒸馏出的小参数学生模型（Student Model），在零样本分割等密集型图文对齐任务上，其表现竟然大幅度反超了规模巨大的教师模型（Teacher Model）！

在其他几乎所有评估任务中，大参数模型通常都碾压小模型，唯独在 “Patch-Text 密集对齐” 上出现了惊人的逆转。团队进一步深挖内部机制后发现：核心差异在于对 “可见图像块（Visible Patches）” 的监督方式。在标准的掩码图像建模（Masked Image Modeling, 如 iBOT 机制）中，模型只对被遮挡的 Patch 计算损失；而在蒸馏过程中，学生模型接收了来自教师模型所有 Patch（无论是否被遮挡）的丰富特征指导。正是这种对 “可见 Patch” 的显式学习与约束，解锁了底层网络惊人的密集图文对齐能力。

2. TIPSv2 的三大核心技术创新

基于上述的反直觉洞察，DeepMind 团队直接对底层的多模态预训练配方进行了大刀阔斧的改革，提出了构成 TIPSv2 的三个核心技术组件：

创新一：iBOT++ —— 全局视角的自监督对齐引擎

在经典的 iBOT（被 DINO 等强大视觉模型广泛使用）目标函数中，损失仅针对 Masked Tokens（被掩码的标记）进行计算。TIPSv2 打破了这一范式，引入了全新的 iBOT++ 目标机制。该机制将自监督的 Patch 级别损失强行扩展到了所有的 Tokens（包括未被遮挡的可见 Tokens）。

惊人效果：在不增加任何额外网络参数的条件下，iBOT++ 强制模型在所有局部区域保持细粒度的表征一致性。仅凭这一项底层逻辑的改动，就让模型在 ADE150 数据集上的零样本分割 mIoU 指标实现了+14.1的巨大飞跃（从 3.5 直接飙升至 17.6），一举成为了驱动密集图文对齐的最强引擎。

创新二：Head-only EMA —— 突破显存瓶颈的高效策略

传统的自监督学习（SSL）通常高度依赖对整个模型进行指数移动平均（EMA）参数更新。然而，当训练达到十亿参数级（Billion-scale）的多模态大模型时，全模型的 EMA 会吞噬极其庞大的显存和计算资源。

TIPSv2 团队在实验中发现，由于模型同时接收了强有力的 “文本监督信号”，底层视觉骨干网络在训练初期就已经具备了很好的稳定性。因此，他们提出了创新的Head-only EMA策略 ——仅对顶层的投影头（Projection Layers）执行 EMA 更新，同时冻结视觉主干网络的 EMA。这一策略在完美保持模型卓越性能的同时，大幅度降低了训练时的显存需求，极大提升了模型训练和扩展的性价比。

创新三：多粒度文本描述（Multi-Granularity Captions）

为了避免模型在训练时对粗粒度的视觉关键词 “走捷径（Shortcutting）”，从而忽略空间布局细节，TIPSv2 构建了极度丰富的数据标注配方。团队摒弃了单一的图文对形式，不仅使用了传统的 Alt-text（网页替代文本），还创造性地引入了：

1) 利用 PaliGemma 生成的密集局部字幕；

2) 利用 Gemini Flash 大模型生成的更丰富、更具全局上下文逻辑的深度描述。

在训练过程中，模型会在这些不同粒度的描述之间进行随机交替和博弈。这种多粒度的文本增强约束，极大地提升了模型在应对复杂密集对齐以及全局图像 - 文本检索任务时的鲁棒性。

3. 恐怖的统治力：

9 大任务与 20 个数据集的全面超越

为了严格验证 TIPSv2 的通用视觉能力，团队在涵盖三大维度的 9 个不同核心任务、20 个权威数据集上进行了极其详尽的评估。实验覆盖了从 86M（Base）一直到 1.1B（Giant）的四种模型尺寸梯队（B/14, L/14, SO400m/14, g/14）。

⚔️ 维度一：密集图像 - 文本评估（Dense Image-Text）—— 零样本分割霸主

在最能衡量细粒度空间理解的 “零样本分割（Zero-shot Segmentation）” 四大基准测试中，TIPSv2 实现了无可争议的全面霸榜。

相比于上一代前沿的视觉语言大模型（如 SigLIP2），TIPSv2 不仅性能呈现断崖式领先，更是正面击败了专门针对此类任务优化的 SILC 和 DINOv2 架构。值得一提的是，后两者使用了更为繁重的 TCL 评估协议，而 TIPSv2 以更通用、简洁的架构实现了越级超越。

⚔️ 维度二：全局图像 - 文本评估（Global Image-Text）+ 纯图像评估（Image-Only）—— 极致的参数利用率

在分类、图文跨模态检索等 7 项全局维度的评估中，TIPSv2 在 5 项中强势斩获第一或第二的佳绩。在语义分割、深度估计、表面法线预测、图像自检索等 9 个纯视觉骨干任务中，TIPSv2 在 7 项中稳居榜首或次席。

高光时刻：TIPSv2-g（1.1B 参数版本）在 3/5 的共享评估体系中，硬核击败了目前业界顶尖的PE-core G/14。要知道，PE 模型比 TIPSv2 多出了足足 56% 的参数量，并且喂给了高达47 倍的训练图文对数据！TIPSv2 展现出的恐怖训练效率和参数榨取能力令人惊叹。

⚔️ 维度三：与 DINOv3 的巅峰对决

更引人注目的是它与近期开源的 “最强纯视觉基础大模型” DINOv3 的正面交锋：

DeepMind 团队在双方共有的最大基准尺寸（ViT-L）下进行了绝对公平的对比。DINOv3 的教师模型参数量是 TIPSv2 的 6 倍之多，其使用的图像数据总量更是 TIPSv2 的 15 倍。

最终战绩：在 6 项高度重合的共享评估任务中，TIPSv2 赢下了其中的 4 项（包括极具挑战性的零样本分割核心任务），证明了图文双模态联合约束优于单一纯视觉预训练。

4. 深度特征可视化：比清晰更清晰

除了硬核的量化指标外，团队还通过主成分分析（PCA）对模型的特征图（Feature Maps）进行了直观的视觉分析。相比于上一代 TIPS 和业界流行的 SigLIP2，TIPSv2 的特征图展现出两个极其显著的碾压级优势：

1) 极致的表征平滑性：背景噪音被大幅度抑制，属于同一物体的不同区域，其特征呈现高度且平滑的一致性。

2) 极强的语义聚焦能力：即便与同样以特征平滑著称的 DINOv3 相比，TIPSv2 对物体边界轮廓的勾勒也要更加精准和锐利；并且在区域内部，TIPSv2 展现出了更丰富的 “颗粒度语义细节（Granular semantic details）”。这意味着 TIPSv2 不仅仅是 “看清” 了物体的轮廓边缘，它已经能够在没有人工标注的情况下，深度 “理解” 物体的空间语义构成。

5. 繁荣的开源生态与工具链支持

秉承 Google DeepMind 推动全球开源 AI 社区发展的优良传统，TIPSv2 本次的发布不仅技术硬核、诚意满满，其配套生态也极其完善。

现已向社区全面开源的资源包括：

全矩阵模型权重：全面覆盖 B/14 (86M), L/14 (303M), SO400m/14 (412M), g/14 (1.1B) 等不同尺寸。同时提供 PyTorch 与 Jax (Scenic) 两种原生深度学习框架的适配版本。
DPT 预测头（DPT Heads）：为了让工业界即插即用，团队额外开源了基于 SO400m/14 骨干网的 DPT 网络预测头，直接支持高精度的深度估计（NYU Depth V2）、表面法线预测和语义分割（ADE20K）。
保姆级代码与 Demo：GitHub 仓库内提供了详尽的特征可视化、监督 / 零样本分割的 Colab Notebooks 实操代码。

所有相关代码、模型权重均遵循商业友好的Apache 2.0 开源协议，无论是学术机构探索前沿，还是工业界进行商业落地，都极其便利。强烈建议感兴趣的开发者立即前往 HuggingFace 官方空间上传您自己的图片，在线零门槛体验 TIPSv2 在零样本分割、深度与法线预测等任务上的震撼表现。

结语

TIPSv2 的横空出世，绝不仅仅是多模态领域又一个简单的 “刷榜模型”。它深刻揭示了 “对比学习” 与 “自监督学习” 在微观 Patch 层面的底层化学反应。通过 iBOT++、Head-only EMA 与多粒度文本大模型的巧妙融合，DeepMind 为下一代具有 “极强空间感知能力” 的通用人工智能（AGI）指明了一条极具潜力的预训练破局之路。期待 TIPSv2 在海内外开发者的手中开花结果，为计算机视觉的繁荣带来更多可能！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.