![]()
ZwZ 通过"区域到图像蒸馏"将推理时的 Zooming 操作转化为训练目标,让多模态大模型不需要调用工具、仅在单次前向传播中实现细粒度感知,同时达到开源SOTA性能。
![]()
上海交通大学与蚂蚁集团联合研究团队发布最新多模态大模型成果“Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception”。这项研究让多模态大模型在单次前向传播中就能实现原本需要反复"放大-观察"才能完成的细粒度感知任务,真正做到"既快又准"。团队开源的 ZwZ(4/7/8B)模型家族在多模态细粒度感知任务中达到开源模型 SOTA 性能,超越 Kimi-K2.5、Qwen3-VL-235B 等众多行业标杆模型。
![]()
论文信息
标题: Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
论文: https://arxiv.org/pdf/2602.11858
作者: 魏来、何梁博、兰钧、董凌众、蔡雨彤、李思远、祝慧佳、王维强、孔令和、汪跃、张倬胜、黄维然
单位: 上海交通大学、蚂蚁集团、北京中关村学院、上海创智学院
代码: https://github.com/inclusionAI/Zooming-without-Zooming
模型/数据: https://huggingface.co/collections/inclusionAI/zooming-without-zooming
01
痛点:AI看图的"近视困境"
当前多模态大语言模型(MLLMs)虽然已具备不错的图像理解能力,但在细粒度感知任务上却仍然容易变成"近视眼":面对图片中的微小文字与符号常常视而不见,难以辨别细腻的颜色差异和材质纹理,在密集小物体的计数任务上也频繁出错。这类任务的共同特点是:关键证据往往只占图像的很小区域,极易被全局上下文淹没,模型必须从成千上万的视觉 tokens 中精准检索这些"沧海遗珠",难度可想而知。
为破解这一困局,当前主流方案是“Thinking-with-Images”范式,即让AI像人一样反复缩放、裁剪、观察感兴趣区域。这种交互式方法确实能缓解感知压力,一旦微小区块被单独提取出来,模型便能专注于细节识别,将"大海捞针"转化为直接辨认。然而,代价同样明显:多次工具调用与反复视觉编码带来严重的延迟开销,让实时应用成为奢望。
核心问题:能否既享受"放大观察"的准确性,又保持"一眼扫过"的速度?
02
破局:把"缩放"从推理工具转成训练目标
![]()
为此,研究团队提出了Region-to-Image Distillation(R2I,区域到图像蒸馏)方法,核心思路简洁而巧妙:先通过Zoom in让模型聚焦“小图”合成高质量数据;随后再Zoom out将这些合成的数据映射回全图视角,并基于这些数据进行强化学习,使模型逐步学会直接“从全图看”。最终,模型在推理阶段无需再执行 Zoom in and out 操作,相当于将模型在局部区域(Region)上的高精度能力蒸馏到全图(Image)视角中。
具体而言,R2I 包含以下几个关键步骤:
1、首先利用目标检测系统定位图像中的微小区块(面积小于原图的10%),确保这些区域包含关键视觉证据;
2、接着让 Qwen3-VL-235B、GLM-4.5V 等强模型在裁剪后的清晰小图上生成感知相关问题;
3、通过多模型投票达成共识答案,只保留高置信度的标注以最大限度抑制幻觉;
4、为避免指代歧义,将边界框叠加到原图上,并在问题中加入空间约束(如"只看红框内的物体");
5、随后用拒绝采样过滤掉太简单的样本确保训练效率;
6、最后基于视觉锚定后的全图、合成的问题与答案,通过纯强化学习训练,让模型学会直接从全图中定位并看清关键证据,无需任何工具调用。
总结来说:我们在合成数据时为多模态大模型"戴上放大镜",利用"Zooming"确保合成数据的高质量;训练时基于原图训练,让模型只看原图就能回答正确,实现"裸眼看清"!
03
ZoomBench:细粒度感知的新基准
![]()
为严格评估这种"不缩放也能看清"的能力,研究团队专门构建了ZoomBench基准测试。该 benchmark 包含 845 个高质量样本,涵盖大量高分辨率图片,采用 AI 合成与人工验证相结合的高效混合构建方式——每个问答对先由 AI 合成,再经 3 位作者独立审核,确保问题有效、答案准确。与现有基准相比,ZoomBench 实现了六大感知维度的全覆盖,包括细粒度计数(24%)、OCR(15%)、颜色属性(29%)、结构属性(18%)、材质属性(7%)和物体识别(7%),同时支持多选题与开放题两种格式。
![]()
ZoomBench 的核心创新在于双视角评估模式(Dual-View)。每个样本都提供完整原图和对应的关键区域裁剪图,分别对应"全局视角"和"局部视角"两种测试条件。局部视角准确率可视为理论上限(证据明确可见时模型能否答对),全局视角准确率则反映真实场景下的感知能力(能否从完整图片中定位关键证据)。两者之差即为"缩放差距"(Zooming Gap),这一指标直接量化了模型"找不到关键证据"的瓶颈,为诊断细粒度感知能力提供了精确标尺。此外,ZoomBench 还配备自动标注的关键区域边界框,支持基于注意力可视化的可解释性分析。
04
效果:ZwZ 打败超大规模模型
研究团队基于 Qwen-VL 用 Region-to-Image Distillation 合成的数据进行强化微调,得到的ZwZ 系列模型(4B/7B/8B 参数)在多项基准测试上表现亮眼。值得注意的是,8B 参数的 ZwZ-8B 在综合感知任务平均性能上超过了 235B 参数的 Qwen3-VL-235B,108B 参数的 GLM-4.5V,以及最新发布的 1T 参数的 Kimi-K2.5,并且逼近最顶尖的闭源模型 Gemini-3-Flash。
![]()
同时,ZwZ-8B 仅通过测试时单次推理,性能即可超越 Qwen3-VL-8B 结合官方工具的多轮交互效果,以及其他 Thinking with Images Agentic 模型(比如 Deepeyes,Thyme),速度提升约 10 倍。
![]()
此外,ZwZ 在 AIGC 检测、GUI Agent 等真实任务上也展现出强劲的泛化能力。
![]()
ZoomBench 的独特设计也让我们能精确诊断模型的"视力问题"。在双视角评估模式中,基线模型(Qwen3-VL-8B)呈现出明显的"放大看得懂,不放大找不着"现象:局部视角准确率 63% versus 全局视角 38%,差距高达 25%。而 ZwZ 将这一"缩放差距"显著缩小至 15%,证明模型真正学会了从全局中定位微证据。注意力可视化结果进一步佐证:ZwZ-8B 在关键边界框内的注意力覆盖率从 17.39% 提升至 21.64%,提升了 4.25 个百分点。
![]()
05
深入洞察:什么时候该用工具,什么时候不需要?
论文深入探讨了 “Thinking with Images” 范式的边界,提出信息增益判别准则,将工具动作分为两类:
![]()
信息增益型如网页搜索、检索外部知识,这类操作引入当前视图不可预测的新信息,必须使用工具;无信息增益型如缩放、旋转、翻转、2D/3D 定位、去噪等,仅是对已有信息的重新格式化或突出显示,其结果完全可以基于当前视图预测,可通过训练内化到模型中。
![]()
核心洞察:如果工具调用只是"重新格式化"已有信息(让关键细节更容易看),而非获取新信息,那么它的收益完全可以用 Algorithm 1 所示的方法,通过训练内化到模型权重中,无需在推理时牺牲速度。
Zooming 正是典型的无信息增益型操作——裁剪后的内容本就存在于原图中,只是被全局上下文"淹没"。R2I 通过训练让模型学会"脑内缩放",将工具收益压缩进单次前向传播。展望未来,研究团队认为下一代 “Thinking with Images” 范式应当尽可能内化无信息增益的工具调用,同时学会动态灵活地调用能带来信息增益的工具,在速度与能力之间取得最佳平衡。
06
总结
这项研究不仅提出了一种高效的数据合成方法,更重新定义了"工具使用"与"模型能力"的边界——通过 Region-to-Image Distillation 将"缩放"从推理时工具转化为训练时目标,让多模态大模型在保持单遍推理速度的同时,获得媲美工具调用的细粒度感知能力,为实际部署提供了"既快又准"的新范式。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.