网易首页 > 网易号 > 正文 申请入驻

「Thinking with Images」推理速度太慢?「Zooming without Zooming」 让AI不调用工具也能「明察秋毫」!

0
分享至


ZwZ 通过"区域到图像蒸馏"将推理时的 Zooming 操作转化为训练目标,让多模态大模型不需要调用工具、仅在单次前向传播中实现细粒度感知,同时达到开源SOTA性能。


上海交通大学与蚂蚁集团联合研究团队发布最新多模态大模型成果“Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception”。这项研究让多模态大模型在单次前向传播中就能实现原本需要反复"放大-观察"才能完成的细粒度感知任务,真正做到"既快又准"。团队开源的 ZwZ(4/7/8B)模型家族在多模态细粒度感知任务中达到开源模型 SOTA 性能,超越 Kimi-K2.5、Qwen3-VL-235B 等众多行业标杆模型。


论文信息

标题: Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

论文: https://arxiv.org/pdf/2602.11858

作者: 魏来、何梁博、兰钧、董凌众、蔡雨彤、李思远、祝慧佳、王维强、孔令和、汪跃、张倬胜、黄维然

单位: 上海交通大学、蚂蚁集团、北京中关村学院、上海创智学院

代码: https://github.com/inclusionAI/Zooming-without-Zooming

模型/数据: https://huggingface.co/collections/inclusionAI/zooming-without-zooming

01


痛点:AI看图的"近视困境"

当前多模态大语言模型(MLLMs)虽然已具备不错的图像理解能力,但在细粒度感知任务上却仍然容易变成"近视眼":面对图片中的微小文字与符号常常视而不见,难以辨别细腻的颜色差异和材质纹理,在密集小物体的计数任务上也频繁出错。这类任务的共同特点是:关键证据往往只占图像的很小区域,极易被全局上下文淹没,模型必须从成千上万的视觉 tokens 中精准检索这些"沧海遗珠",难度可想而知。

为破解这一困局,当前主流方案是“Thinking-with-Images”范式,即让AI像人一样反复缩放、裁剪、观察感兴趣区域。这种交互式方法确实能缓解感知压力,一旦微小区块被单独提取出来,模型便能专注于细节识别,将"大海捞针"转化为直接辨认。然而,代价同样明显:多次工具调用与反复视觉编码带来严重的延迟开销,让实时应用成为奢望。

核心问题:能否既享受"放大观察"的准确性,又保持"一眼扫过"的速度?

02


破局:把"缩放"从推理工具转成训练目标


为此,研究团队提出了Region-to-Image Distillation(R2I,区域到图像蒸馏)方法,核心思路简洁而巧妙:先通过Zoom in让模型聚焦“小图”合成高质量数据;随后再Zoom out将这些合成的数据映射回全图视角,并基于这些数据进行强化学习,使模型逐步学会直接“从全图看”。最终,模型在推理阶段无需再执行 Zoom in and out 操作,相当于将模型在局部区域(Region)上的高精度能力蒸馏到全图(Image)视角中。

具体而言,R2I 包含以下几个关键步骤:

1、首先利用目标检测系统定位图像中的微小区块(面积小于原图的10%),确保这些区域包含关键视觉证据;

2、接着让 Qwen3-VL-235B、GLM-4.5V 等强模型在裁剪后的清晰小图上生成感知相关问题;

3、通过多模型投票达成共识答案,只保留高置信度的标注以最大限度抑制幻觉;

4、为避免指代歧义,将边界框叠加到原图上,并在问题中加入空间约束(如"只看红框内的物体");

5、随后用拒绝采样过滤掉太简单的样本确保训练效率;

6、最后基于视觉锚定后的全图、合成的问题与答案,通过纯强化学习训练,让模型学会直接从全图中定位并看清关键证据,无需任何工具调用

总结来说:我们在合成数据时为多模态大模型"戴上放大镜",利用"Zooming"确保合成数据的高质量;训练时基于原图训练,让模型只看原图就能回答正确,实现"裸眼看清"!

03


ZoomBench:细粒度感知的新基准


为严格评估这种"不缩放也能看清"的能力,研究团队专门构建了ZoomBench基准测试。该 benchmark 包含 845 个高质量样本,涵盖大量高分辨率图片,采用 AI 合成与人工验证相结合的高效混合构建方式——每个问答对先由 AI 合成,再经 3 位作者独立审核,确保问题有效、答案准确。与现有基准相比,ZoomBench 实现了六大感知维度的全覆盖,包括细粒度计数(24%)、OCR(15%)、颜色属性(29%)、结构属性(18%)、材质属性(7%)和物体识别(7%),同时支持多选题与开放题两种格式。


ZoomBench 的核心创新在于双视角评估模式(Dual-View)。每个样本都提供完整原图和对应的关键区域裁剪图,分别对应"全局视角"和"局部视角"两种测试条件。局部视角准确率可视为理论上限(证据明确可见时模型能否答对),全局视角准确率则反映真实场景下的感知能力(能否从完整图片中定位关键证据)。两者之差即为"缩放差距"(Zooming Gap),这一指标直接量化了模型"找不到关键证据"的瓶颈,为诊断细粒度感知能力提供了精确标尺。此外,ZoomBench 还配备自动标注的关键区域边界框,支持基于注意力可视化的可解释性分析。

04


效果:ZwZ 打败超大规模模型

研究团队基于 Qwen-VL 用 Region-to-Image Distillation 合成的数据进行强化微调,得到的ZwZ 系列模型(4B/7B/8B 参数)在多项基准测试上表现亮眼。值得注意的是,8B 参数的 ZwZ-8B 在综合感知任务平均性能上超过了 235B 参数的 Qwen3-VL-235B,108B 参数的 GLM-4.5V,以及最新发布的 1T 参数的 Kimi-K2.5,并且逼近最顶尖的闭源模型 Gemini-3-Flash。


同时,ZwZ-8B 仅通过测试时单次推理,性能即可超越 Qwen3-VL-8B 结合官方工具的多轮交互效果,以及其他 Thinking with Images Agentic 模型(比如 Deepeyes,Thyme),速度提升约 10 倍。


此外,ZwZ 在 AIGC 检测、GUI Agent 等真实任务上也展现出强劲的泛化能力。


ZoomBench 的独特设计也让我们能精确诊断模型的"视力问题"。在双视角评估模式中,基线模型(Qwen3-VL-8B)呈现出明显的"放大看得懂,不放大找不着"现象:局部视角准确率 63% versus 全局视角 38%,差距高达 25%。而 ZwZ 将这一"缩放差距"显著缩小至 15%,证明模型真正学会了从全局中定位微证据。注意力可视化结果进一步佐证:ZwZ-8B 在关键边界框内的注意力覆盖率从 17.39% 提升至 21.64%,提升了 4.25 个百分点。


05


深入洞察:什么时候该用工具,什么时候不需要?

论文深入探讨了 “Thinking with Images” 范式的边界,提出信息增益判别准则,将工具动作分为两类:


信息增益型如网页搜索、检索外部知识,这类操作引入当前视图不可预测的新信息,必须使用工具无信息增益型如缩放、旋转、翻转、2D/3D 定位、去噪等,仅是对已有信息的重新格式化或突出显示,其结果完全可以基于当前视图预测,可通过训练内化到模型中


核心洞察:如果工具调用只是"重新格式化"已有信息(让关键细节更容易看),而非获取新信息,那么它的收益完全可以用 Algorithm 1 所示的方法,通过训练内化到模型权重中,无需在推理时牺牲速度。

Zooming 正是典型的无信息增益型操作——裁剪后的内容本就存在于原图中,只是被全局上下文"淹没"。R2I 通过训练让模型学会"脑内缩放",将工具收益压缩进单次前向传播。展望未来,研究团队认为下一代 “Thinking with Images” 范式应当尽可能内化无信息增益的工具调用,同时学会动态灵活地调用能带来信息增益的工具,在速度与能力之间取得最佳平衡。

06


总结

这项研究不仅提出了一种高效的数据合成方法,更重新定义了"工具使用"与"模型能力"的边界——通过 Region-to-Image Distillation 将"缩放"从推理时工具转化为训练时目标,让多模态大模型在保持单遍推理速度的同时,获得媲美工具调用的细粒度感知能力,为实际部署提供了"既快又准"的新范式。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方援柬警用物资交接仪式在金边举行

中方援柬警用物资交接仪式在金边举行

新华社
2026-03-17 22:02:30
新婚夜妻子出上联:人上有人人压人,丈夫的下联让妻子开心不已

新婚夜妻子出上联:人上有人人压人,丈夫的下联让妻子开心不已

周哥一影视
2026-03-17 14:21:07
四川学生被撞身亡后续!知情人曝猛料,出事不是偶然,恐四方担责

四川学生被撞身亡后续!知情人曝猛料,出事不是偶然,恐四方担责

寒士之言本尊
2026-03-17 23:59:22
丹麦美女来中国旅游,家人担心不安全,回国后:中国让人意外!

丹麦美女来中国旅游,家人担心不安全,回国后:中国让人意外!

梁濆爱玩车
2026-03-18 17:12:33
杜聿明晚年谈孙立人,直言:卖主求荣的小人,根本不是民族英雄

杜聿明晚年谈孙立人,直言:卖主求荣的小人,根本不是民族英雄

小豫讲故事
2026-03-17 06:00:03
睡8小时反而伤代谢?顶尖研究颠覆常识:最佳睡眠时长,是这个数

睡8小时反而伤代谢?顶尖研究颠覆常识:最佳睡眠时长,是这个数

果壳
2026-03-18 17:40:21
评论员:我就在罗塞尼尔身后,他一条指令都没向球员传达到!

评论员:我就在罗塞尼尔身后,他一条指令都没向球员传达到!

懂球帝
2026-03-18 09:56:34
射程500误差1500?武契奇:中国导弹太准了,我都有点不习惯

射程500误差1500?武契奇:中国导弹太准了,我都有点不习惯

荷兰豆爱健康
2026-03-18 19:05:33
陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

许三岁
2026-03-16 10:18:04
第61波导弹狂袭!特拉维夫大停电,伊朗复仇怒火震惊世界!

第61波导弹狂袭!特拉维夫大停电,伊朗复仇怒火震惊世界!

子桑说
2026-03-18 12:42:16
不藏了:官媒披露中国空军15000米闪电出击,30秒击落间谍气球

不藏了:官媒披露中国空军15000米闪电出击,30秒击落间谍气球

泠泠说史
2026-03-18 16:49:35
60年前,金门战役里被俘的3000名我军将士,如今都怎么样了

60年前,金门战役里被俘的3000名我军将士,如今都怎么样了

老范谈史
2026-03-17 09:58:57
国产笔记本CPU造假!AMD官方声明:毫不知情

国产笔记本CPU造假!AMD官方声明:毫不知情

3DM游戏
2026-03-17 17:45:15
日产加入丰田、本田的行列,将美国制造的汽车反向进口至日本

日产加入丰田、本田的行列,将美国制造的汽车反向进口至日本

IT之家
2026-03-17 22:02:12
好好的时光:庄向上身世曝光!宝昆向方亮托孤,元媛改嫁老外真相

好好的时光:庄向上身世曝光!宝昆向方亮托孤,元媛改嫁老外真相

慢半拍sir
2026-03-18 23:15:23
邵佳一有魄力!曝国足大换血,共10名U23入选,最新比赛时间如下

邵佳一有魄力!曝国足大换血,共10名U23入选,最新比赛时间如下

侃球熊弟
2026-03-19 01:00:03
全面反华?卡尼正式通知中国:加征25%关税,中企必须卷铺盖走人

全面反华?卡尼正式通知中国:加征25%关税,中企必须卷铺盖走人

科普100克克
2026-03-18 13:08:32
暴跌90%,理想天塌了!

暴跌90%,理想天塌了!

互联网品牌官
2026-03-18 16:00:54
双重计谋!以色列刺杀拉里贾尼,彻底斩断美国退路

双重计谋!以色列刺杀拉里贾尼,彻底斩断美国退路

新民晚报
2026-03-18 11:44:10
台湾面临断油、断气危险,国台办:愿提供稳定可靠的能源资源保障

台湾面临断油、断气危险,国台办:愿提供稳定可靠的能源资源保障

海峡导报社
2026-03-18 11:33:35
2026-03-19 07:51:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7125文章数 20741关注度
往期回顾 全部

科技要闻

腾讯电话会:马化腾首谈“养虾”构想

头条要闻

专家:对伊朗而言不输就是胜利 德黑兰绝不能惧怕损失

头条要闻

专家:对伊朗而言不输就是胜利 德黑兰绝不能惧怕损失

体育要闻

守住底线的中国女足,下一步该怎么走?

娱乐要闻

姚晨侯雯元绯闻升级 双方否认称是谣言

财经要闻

楼市最大的"赌徒",正在批量抄底老破小

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

亲子
时尚
教育
游戏
数码

亲子要闻

小孩不会说谎,但是会胡说八道

女人去油这件事,白衬衫最好使

教育要闻

别再填“服从调剂”了!22年规划师揭秘考生滑档的5大真相#志愿填报

三国望神州:张郃抽取价值分析!铁桶阵自此要升级成不锈钢阵了?

数码要闻

明基MA270S显示器首发8499元:5K苹果色镜面屏

无障碍浏览 进入关怀版