网易首页 > 网易号 > 正文 申请入驻

AI看图一本正经胡说八道?「一拉一推」让模型看得全又准

0
分享至

  • BiPS团队 投稿
    量子位 | 公众号 QbitAI

随着视觉-语言模型(VLM)推理能力不断增强,一个隐蔽的问题逐渐浮现:

很多错误不是推理没做好,而是“看错了”。

在复杂视觉任务中,模型往往能正确识别对象、理解问题,甚至给出完整的推理链,却因捕捉了错误的视觉证据,得出自信却错误的答案。

现有方法通常在推理阶段“指路”——例如生成视觉提示或调用外部工具,以临时对齐证据。这类策略虽有效,却面临明显局限:视觉线索形式受限、高度依赖具体任务,且推理开销大。更重要的是,它引出一个根本性问题:

如果模型始终需要外部提醒才知道“看哪儿”,它是否真的理解了视觉世界?

为此,微软亚洲研究院与清华大学提出BiPS(Bi-directional Perceptual Shaping),从源头重塑模型的“看图方式”。

BiPS不在推理时临时提示关注区域,而是在训练阶段就教会模型:面对特定问题,哪些视觉细节必须关注,哪些可以忽略。通过系统性地对齐问题与视觉证据,BiPS促使模型内化一种核心能力——带着问题去看图。因此,在推理时无需任何额外提示,模型也能自动聚焦于真正决定答案的关键区域与细节。

实验表明,这种“看哪儿”的能力具有跨任务迁移性,为构建更可靠、通用的视觉理解系统开辟了新路径。

视线错位:VLM的“看”与“想”为何脱节?

我们常被视觉-语言模型(VLM)行云流水的回答迷惑,以为它真的“看懂”了图片。但事实可能是:它识别出了图中物体,却抓错了关键信息。

人类的视觉是目标驱动的:问趋势就追曲线,问数值就盯刻度,问关系就比位置。但当前VLM的“看”仍停留在打标签阶段,缺乏对关键证据的精准定位能力。它知道图里有什么,却不知道该看哪里

为解决这一“视线错位”,学界常采用视觉证据引导——通过框选、掩码或线索提示,为模型的“视线”装上“准星”。然而,这种引导式感知存在三重局限:

其一,世界不是矩形的。图表中的折线拐点、几何题中的交叠多边形、医学影像中的弥散病灶……这些关键线索往往是不规则且弥散的,难以被标准框或掩码完整覆盖。裁大引入噪声,裁小丢失细节,模型“看”到了区域,却依然看错了证据。

其二,聚焦能力无法迁移。当前提示方法多为特定任务定制,依赖特定数据分布或标注规则。模型的感知能力被绑死在任务专属的视觉表示上,难以泛化。换一个任务,就得重教它“怎么看”。

其三,感知被推迟到推理之后。多数方案将视觉聚焦视为推理链中的中间补救步骤,不仅拖慢效率,更让错误在后续推理中滚雪球式放大。

核心挑战由此浮现:如何让模型学会“带着问题去看图”?

从“推理时补救”到“训练时内化”:BiPS的核心转向



如果问题根源不在“推理不够聪明”,而在“从第一眼就看错了图”,是否该换个思路?

能否不再依赖推理阶段的视觉外挂,而是在训练阶段,就让模型真正学会识别什么是“正确的视觉证据”?

这正是BiPS(Bi-directional Perceptual Shaping)的核心革命。

它不做边界框、不打掩码、不调工具,而是:

把推理阶段依赖的视觉提示,提前转化为指导模型“该往哪儿看”的训练信号。让模型学会本能聚焦关键证据。

一拉一推:让模型既“看全”,又“看准”

BiPS的核心在于一套方向相反、粒度互补的双重感知塑形机制:

先把模型的视线“拉”回到所有相关证据,再“推”它看向真正关键的细节。



“拉”:看少,但看全

真实问答常依赖分散却环环相扣的视觉证据链——如折线走势、图例颜色、坐标刻度与子图标题的组合。

为此,BiPS构建Evidence-Preserving View(证据保留视图):系统性剔除干扰,仅保留回答必需的视觉元素,宁可粒度粗,也不遗漏关键。

模型需基于这种“信息更少但结构完整”的视图,输出与原始图像一致的答案。

这一过程将模型从噪声与偏见中拉回,使其回答锚定于完整的证据链。

“推”:看对关键细节

“看全”只是起点。若模型仅模糊定位相关区域,仍可能依赖语言先验或统计偏见作答。

BiPS引入Evidence-Ablated View(证据消融视图):精准移除决定答案的关键细节(如某条折线)。这类改动视觉上微小,却足以颠覆答案。

此时训练目标反转:一旦关键证据消失,模型必须拒绝原答案。

这是一种反事实约束——任何绕过关键视觉证据的“替代推理”都应失效。

协同塑形感知

“拉”与“推”构成递进流程:

  • “拉”确保回答基于完整、必要的视觉证据;
  • “推”迫使模型识别不可替代的细粒度线索。

二者协同,推动模型从表面关联走向因果一致的证据依赖,学会像人类一样“带着问题看世界”。

图表是最好的老师:用精确证据,教会模型“看哪里”

当BiPS把“看准”作为训练目标后,一个现实问题随之而来:

那些精细又紧扣问题的视觉证据,到底从哪儿来?

图表是极佳的训练起点:它们以多子图、细折线、小标记与精确刻度等,构成了高密度、高信息量的视觉场景。这些微小元素往往是解题的关键线索,提供了丰富且细粒度的感知材料

更重要的是,图表中的视觉证据是可控的。每个元素都可被程序化地添加、移除或遮蔽,并能直接验证其对答案的影响,从而能够以程序化的方式,准确构建“证据保留”与“证据消融”的对照视图。

因此,在BiPS的训练体系中,图表是一个高复杂度、高度可控的实验场:既足够复杂以提供真实的细粒度证据,又足够可控以精准操纵这些证据。模型在此学习的,并非解读图表,而是在复杂视觉场景中,学会将注意力聚焦于与问题真正相关的局部线索

13K训练样本,8个基准:一次“小数据”的能力迁移

BiPS展示出了一种高效而稳定的训练范式。仅用13K条图表样本对基础模型进行微调,无需人工标注,也未针对不同任务定制专门工具或模板。训练目标单一明确:学会“问题指哪,就看哪”的视觉逻辑



效果显著:在8个不同的评测基准上,模型均实现了一致且显著的性能提升,涵盖:

  • 真实图表理解(如CharXiv)
  • 图像驱动的数理逻辑推理(如MathVision)
  • 通用视觉问答(如MMStar)

以Qwen2.5-VL-7B为基础模型,BiPS带来了平均准确率+7.3%的提升,这一提升并非集中在某一特定领域,而是跨越数据分布、跨越任务类型的全面进步。

即便在推理能力已高度强化的Qwen3-VL-8B-Thinking上,这一效果依然成立:

CharXiv:53.0→58.1;MathVision:62.7→63.9;MMStar:75.3→76.3

这些结果表明,BiPS学到的不是“图表特有的解题技巧”,而是一种可迁移的“看对地方”的能力

学会“看对地方”:迈向通用智能的关键一步

真正的视觉智能不仅是“看到”,更是在复杂信息中,聚焦于与问题相关的关键证据

BiPS实现的并非简单的技巧优化,而是一种根本性的能力转变:使模型的视觉注意力从被动、均匀的扫视,转变为主动、问题驱动的精准聚焦

这无疑是通向通用视觉智能的关键一步,其核心在于:让模型的眼睛,真正看向问题的关键。

论文链接:

https://arxiv.org/abs/2512.22120

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网约车女乘客要求改道送朋友被拒,强抢方向盘导致车祸!涉事平台表示:已对乘客账号实施管控

网约车女乘客要求改道送朋友被拒,强抢方向盘导致车祸!涉事平台表示:已对乘客账号实施管控

鲁中晨报
2026-05-04 18:01:07
缴物业费也要“政治正确”?别拿公职人员的“帽子”吓唬普通人

缴物业费也要“政治正确”?别拿公职人员的“帽子”吓唬普通人

迷世书童H9527
2026-05-04 19:24:17
安徽铜陵万达广场,女子表演天女散花时从高空坠落;工作人员:没有受伤

安徽铜陵万达广场,女子表演天女散花时从高空坠落;工作人员:没有受伤

大风新闻
2026-05-04 14:57:35
与曹云金分手后嫁给萧润邦,如今婚姻生活很幸福

与曹云金分手后嫁给萧润邦,如今婚姻生活很幸福

胖松松与瘦二毛
2026-05-04 20:36:13
堪比努涅斯陨落!利物浦巨星断崖滑坡,名宿怒斥该彻底弃用

堪比努涅斯陨落!利物浦巨星断崖滑坡,名宿怒斥该彻底弃用

澜归序
2026-05-05 01:17:05
伊朗作出关键让步,竟然软成这样

伊朗作出关键让步,竟然软成这样

名人苟或
2026-05-03 11:26:00
遭33岁老将碾压!张本智和惨败世排106怎统治?日乒一哥上限已定

遭33岁老将碾压!张本智和惨败世排106怎统治?日乒一哥上限已定

颜小白的篮球梦
2026-05-04 21:24:15
43岁身材还这么“满”?王心凌的身材到底是怎么保持的?

43岁身材还这么“满”?王心凌的身材到底是怎么保持的?

马拉松跑步健身
2026-05-04 19:32:40
艾伦最新采访:决赛打满4阶段,吴宜泽会夺冠!回应了1局100分钟

艾伦最新采访:决赛打满4阶段,吴宜泽会夺冠!回应了1局100分钟

求球不落谛
2026-05-04 14:44:56
绕开霍尔木兹!全球最大航运公司开通新线

绕开霍尔木兹!全球最大航运公司开通新线

看看新闻Knews
2026-05-04 10:48:10
著名法学家、西南政法大学行政法学科创建人王连昌教授逝世,享年94岁

著名法学家、西南政法大学行政法学科创建人王连昌教授逝世,享年94岁

界面新闻
2026-05-04 13:36:55
“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

妍妍教育日记
2026-04-24 09:05:03
刘大锤时隔 4 个月再爆猛料,白敬亭宋轶分手传闻终于大白

刘大锤时隔 4 个月再爆猛料,白敬亭宋轶分手传闻终于大白

橙星文娱
2026-05-04 17:25:48
太心疼!张柏芝深夜食物中毒晕倒,独自收拾残局,全程无人陪伴

太心疼!张柏芝深夜食物中毒晕倒,独自收拾残局,全程无人陪伴

橙星文娱
2026-05-04 16:11:28
段鹏79岁临终前说出隐情:和尚死在黑云寨,是因为和尚知道了……

段鹏79岁临终前说出隐情:和尚死在黑云寨,是因为和尚知道了……

呆子的故事
2026-02-10 14:44:11
少赛一场落后5分!曼城3-3埃弗顿 多库双响+压哨绝平 格伊送大礼

少赛一场落后5分!曼城3-3埃弗顿 多库双响+压哨绝平 格伊送大礼

狍子歪解体坛
2026-05-05 05:03:10
赖清德已登机返台,路线的选择出人意料,台媒:比想象中还要狼狈

赖清德已登机返台,路线的选择出人意料,台媒:比想象中还要狼狈

阿伧说事
2026-05-05 04:36:52
今日立夏,牢记:1不睡,2要躲,3不碰,4要吃,养精蓄锐安然度夏

今日立夏,牢记:1不睡,2要躲,3不碰,4要吃,养精蓄锐安然度夏

小茉莉美食记
2026-05-05 00:30:03
孙杨扛起撒贝宁扔泳池:你不会死了吧?岳云鹏惊呆 浙江卫视发声

孙杨扛起撒贝宁扔泳池:你不会死了吧?岳云鹏惊呆 浙江卫视发声

念洲
2026-05-02 21:54:13
化痰第一名!吃三天扫光肺里脏东西,比梨汤管用多了!

化痰第一名!吃三天扫光肺里脏东西,比梨汤管用多了!

宝哥精彩赛事
2026-05-03 21:36:21
2026-05-05 05:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12573文章数 176461关注度
往期回顾 全部

科技要闻

在中国市场搞「付费订阅」,豆包咋想的?

头条要闻

白宫附近传出枪声 1人被执法人员开枪击中

头条要闻

白宫附近传出枪声 1人被执法人员开枪击中

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

教育
艺术
时尚
健康
军事航空

教育要闻

不写论文也能获博士学位?成都多所高校已出现“实践博士”

艺术要闻

震惊!43岁妈妈晒女儿合影,30万网友猜测身份!

谁说每年都要穿新衣服?准备一些基础款,百搭耐看又不过时

干细胞治烧烫伤面临这些“瓶颈”

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版