网易首页 > 网易号 > 正文 申请入驻

UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链

0
分享至

本文第一作者是来自南洋理工大学的博士生赵克森,主要研究方向为 Reinforcement Learning in MLLMs. 该论文已被 ICCV 2025 录用。

随着文本领域中思维链(Chain-of-Thought,CoT)推理机制的成功应用,研究者开始将该方法引入视觉理解任务,以提升模型的推理能力和可解释性。

然而,现有模型局限于文本级别的思维链推理,且处理图像的粒度固定,难以根据语义线索动态关注图像中的关键区域。针对上述问题,本文提出UV-CoT(Unsupervised Visual Chain-of-Thought),一种无监督视觉思维链推理新框架

该方法以「关键区域→推理过程」的人类视觉理解方式为参考(如下图所示),设计了无监督的数据生成与偏好优化机制,动态聚焦关键区域,实现细粒度推理,显著提升了模型的空间感知与图文推理能力。

  • 论文标题:Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
  • 论文链接:https://arxiv.org/abs/2504.18397
  • 项目地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html
  • 代码仓库:https://github.com/kesenzhao/UV-CoT
  • 开源模型: https://huggingface.co/papers/2504.18397

背景:有监督训练

需要高昂的人工成本

现有方法采用有监督微调(Supervised Fine-Tuning, SFT)策略训练模型,使用大量有标签的思维链推理数据,由人工标注关键区域及其推理过程。这类方法面临以下挑战:

人工标注成本高,扩展性差:标注关键图像区域和推理路径需要耗费大量人力和时间,尤其在复杂视觉语义理解任务中,难以适应多任务或大规模场景。

训练信号单一,泛化能力有限: SFT 仅利用人工标注的「正样本」(正确区域及回答),忽略其他潜在合理或不合理的区域与推理路径,导致模型在未知场景下的泛化能力不足。

UV-CoT设计了一套自动化的偏好数据生成与评估流程,结合改进的偏好优化算法 Score-DPO(sDPO),在不依赖人工标注的前提下,通过偏好评分排序引导模型实现无监督图像级思维链学习(如下图所示)。

贡献一:无监督偏好数据生成与评估

  • 通过动态生成偏好数据,UV-CoT 减少了对高质量标注数据的依赖,能够在无监督数据条件下实现图像级思维链推理。

贡献二: sDPO 与迭代学习

UV-CoT 使用改进的直接偏好优化(DPO)算法 sDPO,通过引入偏好分数差异优化图像级思维链推理,并采用迭代学习策略动态适应模型输出分布。

sDPO 损失函数如下:

实验亮点

显著性能提升(表 1):在六大基准上,优于有监督的思维链模型 Visual-CoT-7B,远超目标模型 LLaVA-1.5-7B 和其他无思维链模型。

泛化能力强,易于拓展(表 2):在零样本设置下,UV-CoT 平均提升 2.5%,添加额外无标注数据后,平均提升达 5.1%。

胜任高分辨率场景(表 3):在 V* Bench 上,UV-CoT 平均得分 0.402,平均提升 5.5%,尤其在 OCR 任务中提升 8.4%。

不依赖评估模型,边界框生成质量高(表 5):UV-CoT 通过自评估(目标模型作为评估器)表现仍远超目标模型 LLaVA-1.5-7B(+4.8%),接近 12B 模型 OmniLMM-12B(-0.2%)。将 UV-CoT 生成的边界框应用于 OmniLMM-12B 和 LLaVA-1.5-7B 辅助推理,性能分别提升 7.3% 和 4.7%。

偏好数据与思维链推理可视化

结语

UV-CoT 提出了一种创新的无监督视觉思维链推理框架,通过自动化的数据生成与对比评估机制,成功摆脱了对人工标注的依赖,实现了关键图像区域的自动识别与推理优化。该方法为高效、可扩展的多模态推理提供了新思路,为未来无监督视觉理解研究奠定了坚实基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

刀锋体育
2026-03-26 10:43:52
巴拿马籍船在华被查44艘,滞留暴涨3倍,船东日亏数十万

巴拿马籍船在华被查44艘,滞留暴涨3倍,船东日亏数十万

观察者海风
2026-03-25 23:03:11
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

大中国
2026-03-26 13:30:16
张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

火山詩话
2026-03-26 10:42:17
巴西记者:等到有扑克牌世界杯的时候,内马尔就能入选巴西队

巴西记者:等到有扑克牌世界杯的时候,内马尔就能入选巴西队

懂球帝
2026-03-26 12:27:11
杨瀚森带不动CBA队友,混音输给马刺,数据显示中国新星不用背锅

杨瀚森带不动CBA队友,混音输给马刺,数据显示中国新星不用背锅

姜大叔侃球
2026-03-26 10:42:36
巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

广东发布
2026-03-26 10:57:43
北京今日傍晚北风渐起,周末有弱降水

北京今日傍晚北风渐起,周末有弱降水

北青网-北京青年报
2026-03-26 13:27:04
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

军机Talk
2026-03-25 17:17:57
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

壹知眠羊
2026-01-28 22:03:28
冯巩在人民日报撰文

冯巩在人民日报撰文

草莓解说体育
2026-03-26 14:13:16
逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

凉湫瑾言
2026-03-23 13:29:51
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
贾马尔-穆雷生涯第4次单场得分50+,掘金队史仅次于约基奇

贾马尔-穆雷生涯第4次单场得分50+,掘金队史仅次于约基奇

懂球帝
2026-03-26 13:21:12
首次全流程展示!国产无人机蜂群作战系统震撼亮相

首次全流程展示!国产无人机蜂群作战系统震撼亮相

环球网资讯
2026-03-25 14:26:17
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
2026-03-26 14:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
亲子
艺术
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版