网易首页 > 网易号 > 正文 申请入驻

UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链

0
分享至

本文第一作者是来自南洋理工大学的博士生赵克森,主要研究方向为 Reinforcement Learning in MLLMs. 该论文已被 ICCV 2025 录用。

随着文本领域中思维链(Chain-of-Thought,CoT)推理机制的成功应用,研究者开始将该方法引入视觉理解任务,以提升模型的推理能力和可解释性。

然而,现有模型局限于文本级别的思维链推理,且处理图像的粒度固定,难以根据语义线索动态关注图像中的关键区域。针对上述问题,本文提出UV-CoT(Unsupervised Visual Chain-of-Thought),一种无监督视觉思维链推理新框架

该方法以「关键区域→推理过程」的人类视觉理解方式为参考(如下图所示),设计了无监督的数据生成与偏好优化机制,动态聚焦关键区域,实现细粒度推理,显著提升了模型的空间感知与图文推理能力。

  • 论文标题:Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
  • 论文链接:https://arxiv.org/abs/2504.18397
  • 项目地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html
  • 代码仓库:https://github.com/kesenzhao/UV-CoT
  • 开源模型: https://huggingface.co/papers/2504.18397

背景:有监督训练

需要高昂的人工成本

现有方法采用有监督微调(Supervised Fine-Tuning, SFT)策略训练模型,使用大量有标签的思维链推理数据,由人工标注关键区域及其推理过程。这类方法面临以下挑战:

人工标注成本高,扩展性差:标注关键图像区域和推理路径需要耗费大量人力和时间,尤其在复杂视觉语义理解任务中,难以适应多任务或大规模场景。

训练信号单一,泛化能力有限: SFT 仅利用人工标注的「正样本」(正确区域及回答),忽略其他潜在合理或不合理的区域与推理路径,导致模型在未知场景下的泛化能力不足。

UV-CoT设计了一套自动化的偏好数据生成与评估流程,结合改进的偏好优化算法 Score-DPO(sDPO),在不依赖人工标注的前提下,通过偏好评分排序引导模型实现无监督图像级思维链学习(如下图所示)。

贡献一:无监督偏好数据生成与评估

  • 通过动态生成偏好数据,UV-CoT 减少了对高质量标注数据的依赖,能够在无监督数据条件下实现图像级思维链推理。

贡献二: sDPO 与迭代学习

UV-CoT 使用改进的直接偏好优化(DPO)算法 sDPO,通过引入偏好分数差异优化图像级思维链推理,并采用迭代学习策略动态适应模型输出分布。

sDPO 损失函数如下:

实验亮点

显著性能提升(表 1):在六大基准上,优于有监督的思维链模型 Visual-CoT-7B,远超目标模型 LLaVA-1.5-7B 和其他无思维链模型。

泛化能力强,易于拓展(表 2):在零样本设置下,UV-CoT 平均提升 2.5%,添加额外无标注数据后,平均提升达 5.1%。

胜任高分辨率场景(表 3):在 V* Bench 上,UV-CoT 平均得分 0.402,平均提升 5.5%,尤其在 OCR 任务中提升 8.4%。

不依赖评估模型,边界框生成质量高(表 5):UV-CoT 通过自评估(目标模型作为评估器)表现仍远超目标模型 LLaVA-1.5-7B(+4.8%),接近 12B 模型 OmniLMM-12B(-0.2%)。将 UV-CoT 生成的边界框应用于 OmniLMM-12B 和 LLaVA-1.5-7B 辅助推理,性能分别提升 7.3% 和 4.7%。

偏好数据与思维链推理可视化

结语

UV-CoT 提出了一种创新的无监督视觉思维链推理框架,通过自动化的数据生成与对比评估机制,成功摆脱了对人工标注的依赖,实现了关键图像区域的自动识别与推理优化。该方法为高效、可扩展的多模态推理提供了新思路,为未来无监督视觉理解研究奠定了坚实基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海女选手裸照被围观这件事,扯下了“体育赛事照片直播”遮羞布

上海女选手裸照被围观这件事,扯下了“体育赛事照片直播”遮羞布

马拉松跑步健身
2026-06-02 20:24:16
油价大逆转!国内油价调整时间定了,6月4日历史罕见油价大幅下调

油价大逆转!国内油价调整时间定了,6月4日历史罕见油价大幅下调

有料财经
2026-06-02 19:38:40
太讽刺了!女方提出28.8万元彩礼要求,男子送来一瓣蒜和百元现金

太讽刺了!女方提出28.8万元彩礼要求,男子送来一瓣蒜和百元现金

火山詩话
2026-06-02 07:25:54
折叠屏iPhone将于6月25日进入量产阶段:白色版机模曝光,或告别花哨配色,价格直接刷新苹果纪录

折叠屏iPhone将于6月25日进入量产阶段:白色版机模曝光,或告别花哨配色,价格直接刷新苹果纪录

大风新闻
2026-06-02 12:15:18
《007:初露锋芒》邦女郎幕后演员揭晓

《007:初露锋芒》邦女郎幕后演员揭晓

山月不知2
2026-06-02 06:33:27
罗马诺:皇马已与科纳特达成口头协议,很快Here we go

罗马诺:皇马已与科纳特达成口头协议,很快Here we go

懂球帝
2026-06-02 21:41:26
天呢!京东GDP超越上海,占据第一位,就问你服不服…

天呢!京东GDP超越上海,占据第一位,就问你服不服…

慧翔百科
2026-06-02 11:37:27
随着中国男足0射门+0-3不敌非洲劲旅,土伦杯最新积分榜出炉

随着中国男足0射门+0-3不敌非洲劲旅,土伦杯最新积分榜出炉

侧身凌空斩
2026-06-02 23:06:26
宝妈“托举”5岁儿子逛山姆后续:她道歉了,但自始至终没有说错

宝妈“托举”5岁儿子逛山姆后续:她道歉了,但自始至终没有说错

李晚书
2026-06-02 18:21:13
巴萨新星自拍意外曝光苹果神秘粉色耳机

巴萨新星自拍意外曝光苹果神秘粉色耳机

灰度测试中
2026-06-01 22:21:06
多家中国创新药企亮相ASCO:康方生物再迎高光,恒瑞91项研究入选

多家中国创新药企亮相ASCO:康方生物再迎高光,恒瑞91项研究入选

澎湃新闻
2026-06-01 22:58:26
黄仁勋拿下宇树科技,震惊全网!

黄仁勋拿下宇树科技,震惊全网!

财经三分钟pro
2026-06-02 15:09:08
辽、金到底对应现在哪些省份?看完刷新你的历史认知

辽、金到底对应现在哪些省份?看完刷新你的历史认知

小豫讲故事
2026-06-02 06:00:29
中国股市:但凡股票出现"空中加油",坚决满仓,不是大涨就是连板

中国股市:但凡股票出现"空中加油",坚决满仓,不是大涨就是连板

股经纵横谈
2026-06-02 20:47:22
40多国离场,中方不接受裁决,菲防长回国前,留下一句很可笑的话

40多国离场,中方不接受裁决,菲防长回国前,留下一句很可笑的话

锅锅爱历史
2026-06-02 22:57:55
“人间异类”陈瑾:20年不吃米饭,跟哥哥相约一生不婚不育

“人间异类”陈瑾:20年不吃米饭,跟哥哥相约一生不婚不育

观察者小海风
2026-06-02 13:43:18
“毛孩子”进餐厅引发消费争议,老乡鸡致歉

“毛孩子”进餐厅引发消费争议,老乡鸡致歉

新京报
2026-06-02 23:46:10
法网女单太残酷了:随着斯维托丽娜1-2出局,世界前十仅剩2人

法网女单太残酷了:随着斯维托丽娜1-2出局,世界前十仅剩2人

侧身凌空斩
2026-06-02 20:28:22
荷兰没料到,闯中国领空这事没完,中方当各国面,让荷兰下不来台

荷兰没料到,闯中国领空这事没完,中方当各国面,让荷兰下不来台

共工之锚
2026-06-01 13:17:56
2次!刻进DNA的恐惧!他被文班防到不敢投!

2次!刻进DNA的恐惧!他被文班防到不敢投!

柚子说球
2026-06-02 22:34:15
2026-06-03 00:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13151文章数 142660关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

本地
艺术
家居
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

艺术要闻

周杰伦花 1.36 亿拍下这幅画

家居要闻

流线型轮廓 包容多元身形

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版