网易首页 > 网易号 > 正文 申请入驻

UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链

0
分享至

本文第一作者是来自南洋理工大学的博士生赵克森,主要研究方向为 Reinforcement Learning in MLLMs. 该论文已被 ICCV 2025 录用。

随着文本领域中思维链(Chain-of-Thought,CoT)推理机制的成功应用,研究者开始将该方法引入视觉理解任务,以提升模型的推理能力和可解释性。

然而,现有模型局限于文本级别的思维链推理,且处理图像的粒度固定,难以根据语义线索动态关注图像中的关键区域。针对上述问题,本文提出UV-CoT(Unsupervised Visual Chain-of-Thought),一种无监督视觉思维链推理新框架

该方法以「关键区域→推理过程」的人类视觉理解方式为参考(如下图所示),设计了无监督的数据生成与偏好优化机制,动态聚焦关键区域,实现细粒度推理,显著提升了模型的空间感知与图文推理能力。

  • 论文标题:Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
  • 论文链接:https://arxiv.org/abs/2504.18397
  • 项目地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html
  • 代码仓库:https://github.com/kesenzhao/UV-CoT
  • 开源模型: https://huggingface.co/papers/2504.18397

背景:有监督训练

需要高昂的人工成本

现有方法采用有监督微调(Supervised Fine-Tuning, SFT)策略训练模型,使用大量有标签的思维链推理数据,由人工标注关键区域及其推理过程。这类方法面临以下挑战:

人工标注成本高,扩展性差:标注关键图像区域和推理路径需要耗费大量人力和时间,尤其在复杂视觉语义理解任务中,难以适应多任务或大规模场景。

训练信号单一,泛化能力有限: SFT 仅利用人工标注的「正样本」(正确区域及回答),忽略其他潜在合理或不合理的区域与推理路径,导致模型在未知场景下的泛化能力不足。

UV-CoT设计了一套自动化的偏好数据生成与评估流程,结合改进的偏好优化算法 Score-DPO(sDPO),在不依赖人工标注的前提下,通过偏好评分排序引导模型实现无监督图像级思维链学习(如下图所示)。

贡献一:无监督偏好数据生成与评估

  • 通过动态生成偏好数据,UV-CoT 减少了对高质量标注数据的依赖,能够在无监督数据条件下实现图像级思维链推理。

贡献二: sDPO 与迭代学习

UV-CoT 使用改进的直接偏好优化(DPO)算法 sDPO,通过引入偏好分数差异优化图像级思维链推理,并采用迭代学习策略动态适应模型输出分布。

sDPO 损失函数如下:

实验亮点

显著性能提升(表 1):在六大基准上,优于有监督的思维链模型 Visual-CoT-7B,远超目标模型 LLaVA-1.5-7B 和其他无思维链模型。

泛化能力强,易于拓展(表 2):在零样本设置下,UV-CoT 平均提升 2.5%,添加额外无标注数据后,平均提升达 5.1%。

胜任高分辨率场景(表 3):在 V* Bench 上,UV-CoT 平均得分 0.402,平均提升 5.5%,尤其在 OCR 任务中提升 8.4%。

不依赖评估模型,边界框生成质量高(表 5):UV-CoT 通过自评估(目标模型作为评估器)表现仍远超目标模型 LLaVA-1.5-7B(+4.8%),接近 12B 模型 OmniLMM-12B(-0.2%)。将 UV-CoT 生成的边界框应用于 OmniLMM-12B 和 LLaVA-1.5-7B 辅助推理,性能分别提升 7.3% 和 4.7%。

偏好数据与思维链推理可视化

结语

UV-CoT 提出了一种创新的无监督视觉思维链推理框架,通过自动化的数据生成与对比评估机制,成功摆脱了对人工标注的依赖,实现了关键图像区域的自动识别与推理优化。该方法为高效、可扩展的多模态推理提供了新思路,为未来无监督视觉理解研究奠定了坚实基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美加墨世界杯1/8决赛前瞻:巴西VS挪威,112年没赢过的克星!哈兰德专杀英超后卫,五星巴西这次真要翻车?

美加墨世界杯1/8决赛前瞻:巴西VS挪威,112年没赢过的克星!哈兰德专杀英超后卫,五星巴西这次真要翻车?

禁止读书
2026-07-05 17:45:26
被巴西队忽视的中场大师,却被西班牙队视若珍宝,32岁才登上巅峰

被巴西队忽视的中场大师,却被西班牙队视若珍宝,32岁才登上巅峰

足篮大世界
2026-07-04 23:10:04
医生发现:能跑能跳的老人,基本在70岁,就已经不做这6件事了

医生发现:能跑能跳的老人,基本在70岁,就已经不做这6件事了

芹姐说生活
2026-06-30 19:12:40
有人预测:到了2035年,房价将是现在的2-3倍,这可能吗?

有人预测:到了2035年,房价将是现在的2-3倍,这可能吗?

细说职场
2026-07-05 11:20:26
高温日推迟 申城下周再现“多云+午后雷阵雨”配方

高温日推迟 申城下周再现“多云+午后雷阵雨”配方

纵相新闻
2026-07-05 17:40:03
非夫妻开房,民警直白提醒:不碰这条红线,没人管你是不是夫妻

非夫妻开房,民警直白提醒:不碰这条红线,没人管你是不是夫妻

皓皓情感说
2026-07-01 09:05:51
前一秒还在取东西,几秒后车就没了,辽宁抚顺暴雨致路面塌陷,轿车坠入3米深坑;暴雨已致3人死亡

前一秒还在取东西,几秒后车就没了,辽宁抚顺暴雨致路面塌陷,轿车坠入3米深坑;暴雨已致3人死亡

台州交通广播
2026-07-05 18:42:17
燃哭!蒯曼1-3落后救赛点,18-16绝杀黑马,国乒三人围堵张本美和

燃哭!蒯曼1-3落后救赛点,18-16绝杀黑马,国乒三人围堵张本美和

衔春信
2026-07-05 20:14:29
沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

沉默45年,中国第二轮"严打"终于来了!目标改变总体战正式打响

细说职场
2026-07-04 22:25:07
超强台风“巴威”来势汹汹,强风雨天气将来袭

超强台风“巴威”来势汹汹,强风雨天气将来袭

新快报新闻
2026-07-05 16:12:27
一场葬礼震撼全香港!百位大佬到场,霍启刚也去了,扶灵只有一人

一场葬礼震撼全香港!百位大佬到场,霍启刚也去了,扶灵只有一人

青梅侃史啊
2026-07-05 07:11:05
东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

背包旅行
2026-05-11 14:51:09
法国1比0晋级,巴拉圭门将一句话惹出更大争议

法国1比0晋级,巴拉圭门将一句话惹出更大争议

常威暴DA来福
2026-07-05 10:44:57
彻底凉凉!黄一鸣案判了,结果大快人心,难怪王思聪不认孩子

彻底凉凉!黄一鸣案判了,结果大快人心,难怪王思聪不认孩子

赵昉是个热血青年
2026-06-27 19:49:44
击毁罕见的俄罗斯米格-29!“废金属”换无人机技术:乌克兰拒绝

击毁罕见的俄罗斯米格-29!“废金属”换无人机技术:乌克兰拒绝

鹰眼Defence
2026-07-05 16:15:31
坐不住了?印度民众不满中方做法,公开喊话:要求中方给印度免签

坐不住了?印度民众不满中方做法,公开喊话:要求中方给印度免签

书写传奇
2026-07-05 13:13:50
打败豆浆和牛奶,伏天早餐就吃它,皮肤白,女人多吃,大便也顺畅

打败豆浆和牛奶,伏天早餐就吃它,皮肤白,女人多吃,大便也顺畅

华庭讲美食
2026-07-05 19:36:16
盒马一门店被曝员工穿皮鞋站在用于制作熟食的铁板和铁架上,客服回应:已对违规人员严肃处理,档口停业整顿全面消杀

盒马一门店被曝员工穿皮鞋站在用于制作熟食的铁板和铁架上,客服回应:已对违规人员严肃处理,档口停业整顿全面消杀

扬子晚报
2026-07-05 20:39:20
中国电影导演协会荣誉揭晓:辛芷蕾凭《日掛中天》获年度女演员,梁家辉凭《捕风追影》获年度男演员

中国电影导演协会荣誉揭晓:辛芷蕾凭《日掛中天》获年度女演员,梁家辉凭《捕风追影》获年度男演员

极目新闻
2026-07-05 20:21:11
7月5日:指数分析、比分、巴西vs挪威、墨西哥vs英格兰

7月5日:指数分析、比分、巴西vs挪威、墨西哥vs英格兰

刘哥谈体育
2026-07-05 16:13:45
2026-07-05 20:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13438文章数 142688关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

世界杯带火岛国佛得角 当地中国人:最近国人多了起来

头条要闻

世界杯带火岛国佛得角 当地中国人:最近国人多了起来

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
游戏
房产
教育
公开课

本地新闻

国内足球之旅?这座小城给你高分答案

《初音未来》新作公布!6人联机 登陆NS2与Steam

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

教育要闻

全国仅6人!14岁成都篮球少年拿下重磅奖学金,将入读“NBA摇篮”高中

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版