「Thinking with Images」推理速度太慢？「Zooming without Zooming」让AI不调用工具也能「明察秋毫」！|images|zooming|thinking

「Thinking with Images」推理速度太慢？「Zooming without Zooming」让AI不调用工具也能「明察秋毫」！

2026-02-14 21:10:27　来源: AI科技评论

广东举报

分享至

ZwZ 通过"区域到图像蒸馏"将推理时的 Zooming 操作转化为训练目标，让多模态大模型不需要调用工具、仅在单次前向传播中实现细粒度感知，同时达到开源SOTA性能。

上海交通大学与蚂蚁集团联合研究团队发布最新多模态大模型成果“Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception”。这项研究让多模态大模型在单次前向传播中就能实现原本需要反复"放大-观察"才能完成的细粒度感知任务，真正做到"既快又准"。团队开源的 ZwZ（4/7/8B）模型家族在多模态细粒度感知任务中达到开源模型 SOTA 性能，超越 Kimi-K2.5、Qwen3-VL-235B 等众多行业标杆模型。

论文信息

标题: Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

论文: https://arxiv.org/pdf/2602.11858

作者: 魏来、何梁博、兰钧、董凌众、蔡雨彤、李思远、祝慧佳、王维强、孔令和、汪跃、张倬胜、黄维然

单位: 上海交通大学、蚂蚁集团、北京中关村学院、上海创智学院

代码: https://github.com/inclusionAI/Zooming-without-Zooming

模型/数据: https://huggingface.co/collections/inclusionAI/zooming-without-zooming

痛点：AI看图的"近视困境"

当前多模态大语言模型（MLLMs）虽然已具备不错的图像理解能力，但在细粒度感知任务上却仍然容易变成"近视眼"：面对图片中的微小文字与符号常常视而不见，难以辨别细腻的颜色差异和材质纹理，在密集小物体的计数任务上也频繁出错。这类任务的共同特点是：关键证据往往只占图像的很小区域，极易被全局上下文淹没，模型必须从成千上万的视觉 tokens 中精准检索这些"沧海遗珠"，难度可想而知。

为破解这一困局，当前主流方案是“Thinking-with-Images”范式，即让AI像人一样反复缩放、裁剪、观察感兴趣区域。这种交互式方法确实能缓解感知压力，一旦微小区块被单独提取出来，模型便能专注于细节识别，将"大海捞针"转化为直接辨认。然而，代价同样明显：多次工具调用与反复视觉编码带来严重的延迟开销，让实时应用成为奢望。

核心问题：能否既享受"放大观察"的准确性，又保持"一眼扫过"的速度？

破局：把"缩放"从推理工具转成训练目标

为此，研究团队提出了Region-to-Image Distillation（R2I，区域到图像蒸馏）方法，核心思路简洁而巧妙：先通过Zoom in让模型聚焦“小图”合成高质量数据；随后再Zoom out将这些合成的数据映射回全图视角，并基于这些数据进行强化学习，使模型逐步学会直接“从全图看”。最终，模型在推理阶段无需再执行 Zoom in and out 操作，相当于将模型在局部区域（Region）上的高精度能力蒸馏到全图（Image）视角中。

具体而言，R2I 包含以下几个关键步骤：

1、首先利用目标检测系统定位图像中的微小区块（面积小于原图的10%），确保这些区域包含关键视觉证据；

2、接着让 Qwen3-VL-235B、GLM-4.5V 等强模型在裁剪后的清晰小图上生成感知相关问题；

3、通过多模型投票达成共识答案，只保留高置信度的标注以最大限度抑制幻觉；

4、为避免指代歧义，将边界框叠加到原图上，并在问题中加入空间约束（如"只看红框内的物体"）；

5、随后用拒绝采样过滤掉太简单的样本确保训练效率；

6、最后基于视觉锚定后的全图、合成的问题与答案，通过纯强化学习训练，让模型学会直接从全图中定位并看清关键证据，无需任何工具调用。

总结来说：我们在合成数据时为多模态大模型"戴上放大镜"，利用"Zooming"确保合成数据的高质量；训练时基于原图训练，让模型只看原图就能回答正确，实现"裸眼看清"！

ZoomBench：细粒度感知的新基准

为严格评估这种"不缩放也能看清"的能力，研究团队专门构建了ZoomBench基准测试。该 benchmark 包含 845 个高质量样本，涵盖大量高分辨率图片，采用 AI 合成与人工验证相结合的高效混合构建方式——每个问答对先由 AI 合成，再经 3 位作者独立审核，确保问题有效、答案准确。与现有基准相比，ZoomBench 实现了六大感知维度的全覆盖，包括细粒度计数（24%）、OCR（15%）、颜色属性（29%）、结构属性（18%）、材质属性（7%）和物体识别（7%），同时支持多选题与开放题两种格式。

ZoomBench 的核心创新在于双视角评估模式（Dual-View）。每个样本都提供完整原图和对应的关键区域裁剪图，分别对应"全局视角"和"局部视角"两种测试条件。局部视角准确率可视为理论上限（证据明确可见时模型能否答对），全局视角准确率则反映真实场景下的感知能力（能否从完整图片中定位关键证据）。两者之差即为"缩放差距"（Zooming Gap），这一指标直接量化了模型"找不到关键证据"的瓶颈，为诊断细粒度感知能力提供了精确标尺。此外，ZoomBench 还配备自动标注的关键区域边界框，支持基于注意力可视化的可解释性分析。

效果：ZwZ 打败超大规模模型

研究团队基于 Qwen-VL 用 Region-to-Image Distillation 合成的数据进行强化微调，得到的ZwZ 系列模型（4B/7B/8B 参数）在多项基准测试上表现亮眼。值得注意的是，8B 参数的 ZwZ-8B 在综合感知任务平均性能上超过了 235B 参数的 Qwen3-VL-235B，108B 参数的 GLM-4.5V，以及最新发布的 1T 参数的 Kimi-K2.5，并且逼近最顶尖的闭源模型 Gemini-3-Flash。

同时，ZwZ-8B 仅通过测试时单次推理，性能即可超越 Qwen3-VL-8B 结合官方工具的多轮交互效果，以及其他 Thinking with Images Agentic 模型（比如 Deepeyes，Thyme），速度提升约 10 倍。

此外，ZwZ 在 AIGC 检测、GUI Agent 等真实任务上也展现出强劲的泛化能力。

ZoomBench 的独特设计也让我们能精确诊断模型的"视力问题"。在双视角评估模式中，基线模型（Qwen3-VL-8B）呈现出明显的"放大看得懂，不放大找不着"现象：局部视角准确率 63% versus 全局视角 38%，差距高达 25%。而 ZwZ 将这一"缩放差距"显著缩小至 15%，证明模型真正学会了从全局中定位微证据。注意力可视化结果进一步佐证：ZwZ-8B 在关键边界框内的注意力覆盖率从 17.39% 提升至 21.64%，提升了 4.25 个百分点。

深入洞察：什么时候该用工具，什么时候不需要？

论文深入探讨了 “Thinking with Images” 范式的边界，提出信息增益判别准则，将工具动作分为两类：

信息增益型如网页搜索、检索外部知识，这类操作引入当前视图不可预测的新信息，必须使用工具；无信息增益型如缩放、旋转、翻转、2D/3D 定位、去噪等，仅是对已有信息的重新格式化或突出显示，其结果完全可以基于当前视图预测，可通过训练内化到模型中。

核心洞察：如果工具调用只是"重新格式化"已有信息（让关键细节更容易看），而非获取新信息，那么它的收益完全可以用 Algorithm 1 所示的方法，通过训练内化到模型权重中，无需在推理时牺牲速度。

Zooming 正是典型的无信息增益型操作——裁剪后的内容本就存在于原图中，只是被全局上下文"淹没"。R2I 通过训练让模型学会"脑内缩放"，将工具收益压缩进单次前向传播。展望未来，研究团队认为下一代 “Thinking with Images” 范式应当尽可能内化无信息增益的工具调用，同时学会动态灵活地调用能带来信息增益的工具，在速度与能力之间取得最佳平衡。

总结

这项研究不仅提出了一种高效的数据合成方法，更重新定义了"工具使用"与"模型能力"的边界——通过 Region-to-Image Distillation 将"缩放"从推理时工具转化为训练时目标，让多模态大模型在保持单遍推理速度的同时，获得媲美工具调用的细粒度感知能力，为实际部署提供了"既快又准"的新范式。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.