网易首页 > 网易号 > 正文 申请入驻

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

0
分享至

新智元报道

编辑:LRST

【新智元导读】视觉价值模型(VisVM)通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量,减少幻觉现象。实验表明,VisVM能显著提高模型的视觉理解能力,并可通过自我训练进一步提升性能。

在现代多模态视觉语言模型(VLM)的发展中,提高图像描述的准确性和细节丰富性始终是一个挑战。尽管基于大规模数据的训练极大推动了模型性能,但在实际应用中,模型仍面临识别细微图像区域和减少「幻觉」现象的问题。

推理时搜索(inference time search)作为一种提升响应质量的有效方法,已在大型语言模型中展现出巨大潜力。

O1和QwQ等大语言模型通过在推理阶段在语言空间中进行搜索得到更好的回答,在数学和代码等任务中展现了远超越其他模型的卓越性能。

那么,我们能否同样通过推理时搜索来提升多模态视觉语言模型的响应质量,并减少响应中的幻觉呢?答案是是的。

来自马里兰大学和微软的研究团队提出了视觉价值模型(Vision Value Model, VisVM),通过精确控制搜索过程来显著提高模型在视觉任务中的表现。

论文地址: https://arxiv.org/abs/2412.03704

项目页面: https://si0wang.github.io/projects/VisVM/

项目代码:https://github.com/si0wang/VisVM

VisVM是一种价值网络,可以通过对逐步生成描述性标题提供奖励信号来指导视觉语言模型(VLM)在推理时的搜索。

模型训练

VisVM首先使用VLM自身生成多个多样化的响应,并将这些响应按照句子维度拆分成 的sentence pair。

对于每一个current sentence使用CLIP model计算这句话和对应图像的cosine similarity作为reward,最后构成< current sentence, reward,next sentence, Image>的四元组作为VisVM的训练数据。

VisVM使用强化学习中的时序差分学习(Temporal Difference learning)作为损失函数进行训练。这使得VisVM不仅可以评估当前句子与图像之间的匹配程度,还可以预测当前句子如何影响未来句子的生成,为搜索提供一个长期价值信号。

VisVM引导下的推理阶段搜索:

在训练好VisVM之后,作者使用VisVM作为奖励信号来逐步精细化推理过程。这一过程包括以下几个步骤:

1. 生成多个句子候选:首先,模型会生成多个可能的句子,作为响应的候选。

2. 通过VisVM进行评估:接下来,利用VisVM对这些候选句子进行综合评估,考察其与图像内容的匹配度以及对未来生成句子的潜在影响(句子中包含的幻觉,细致程度等)。

3. 选择最佳句子:根据VisVM的评估,从候选中挑选出最优的句子来继续生成。

相比于直接使用只考虑当前句子与图像匹配程度的clip分数作为奖励信号进行搜索,VisVM可以进一步通过考虑后续生成的句子中的潜在幻觉来预测长期价值,使得VisVM能够避开具有更高幻觉风险的响应候选,并生成不易产生幻觉且更详细的图像描述。

通过这种迭代的推理过程,VLM能够构建出完整且高质量的响应序列,有效减少信息遗漏和幻觉错误,显著提升模型的应用性能。

实验

研究人员采用LLaVA-Next-Mistral-7B作为实验的基础模型,通过在其encoder的最后一层添加一个线性层作为value head,构建了VisVM并基于这个结构使用上文中构造的数据集与损失函数进行训练。

在后续的实验中,均使用LLaVA-Next-Mistral-7B作为base model用于生成响应。

研究人员首先评估了使用不同解码方式生成的响应质量,作者从COCO2017数据集中采样了1000个图像,并与llava detailed description 数据集中用于图像描述的9个prompt进行了随机匹配作为测试集用于生成图像藐视。

分别使用人类评估和GPT-4o评估,将VisVM引导的搜索与其他常规方法如CLIP-PRM指导搜索、Best-of-N选择和贪婪解码得到的图像描述进行了比较。

结果表明VisVM在生成图像描述时不仅细节更为丰富,产生的幻觉也大幅减少,其生成的描述性内容更加受到evaluator的青睐。

尤其是在人类作为评估者的情况下,VisVM引导搜索得到的图像描述相比于其他三个方法分别取得了66.0%, 63.5%和74.0%的获胜比率。

例如,在描述这个场景时,VisVM引导的搜索甚至可以描述出挡风玻璃上的水滴挡住了绿色指示牌,这种细节在人类标注的时候甚至都难以察觉。展示了视觉价值模型对于细节描述的强大能力。

在现有幻觉的benchmark中,研究人员在VLM的inference阶段使用了非搜索方式生成响应用于评估。

在CHAIR和MMHal两个用于测试VLM幻觉的benchmark上VisVM引导的搜索取得了显著优于其他方法的效果,展示出减少VLM生成响应中的幻觉的强大能力

并且,作者还进一步探索了了VisVM引导搜索的scaling law,结果发现无论是采用VisVM引导的搜索还是CLIP-PRM引导的搜索,随着搜索步骤大小的增加,模型的性能都会逐步提升。这一现象证明了扩大推理时间的计算量能够显著增强VLM的视觉理解能力。

特别值得注意的是,随着步骤大小的增加,VisVM引导搜索的性能提升速度更快,使得两种方法之间的性能差距不断扩大。VisVM在达到与CLIP-PRM相当的性能时,其计算效率几乎是后者的两倍。

通过扩大搜索步骤,VisVM不仅能更快地达到理想的性能,还能以更低的计算成本实现,这在提升模型处理复杂视觉任务时尤为重要。

基于VisVM强大的减少幻觉的能力,作者使用使用LLaVA-NEXT-Mistral-7B作为基础模型,并利用VisVM作为奖励信号,搜索生成高质量的图像描述作为监督微调(SFT)数据,对LLaVA-NEXT-Mistral-7B进行训练。

在九个理解和幻觉基准上的测试表明,VisVM引导的自我训练使LLAVA-next-7B的性能平均提升了10.8%,相比于其他搜索方法得到的图像描述作为训练数据提升显著。

特别是在提升了视觉理解能力后,VLM的reasoning能力也有所提高,例如MMMU和MathVista两个benchmark,该结果进一步展示了VisVM搜索得到的图像描述质量之高。

此外,这也揭示了VisVM在自我训练框架中的应用潜力,仅通过在语言空间中进行高质量搜索并进行微调,就能显著提升原始VLM的视觉理解能力,这一发现为未来VLM的发展提供了新的方向和思路。

参考资料:

https://arxiv.org/abs/2412.03704

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖南省人医17分视频风波,女方肤白貌美、男方儒雅绅士,均被停职

湖南省人医17分视频风波,女方肤白貌美、男方儒雅绅士,均被停职

鋭娱之乐
2025-11-07 08:39:22
店招引发争议后“人民咖啡馆”声明:积极整改,已迅速调整为“要潮人民咖啡馆”

店招引发争议后“人民咖啡馆”声明:积极整改,已迅速调整为“要潮人民咖啡馆”

极目新闻
2025-11-08 11:59:39
24分6板9助!就在今天,一项前无古人的NBA纪录被威少达成了

24分6板9助!就在今天,一项前无古人的NBA纪录被威少达成了

世界体育圈
2025-11-08 15:03:18
成“老赖”不到72小时,于谦资产被扒底朝天,杨议的话有人信了

成“老赖”不到72小时,于谦资产被扒底朝天,杨议的话有人信了

科学发掘
2025-10-31 14:06:52
遗憾!广州豹11轮不败仍无缘冲超,恒大落幕后广州将4年无中超队

遗憾!广州豹11轮不败仍无缘冲超,恒大落幕后广州将4年无中超队

我爱英超
2025-11-08 16:35:51
A股:股民做好下车准备,信号非常明确,下周将迎来新的变盘

A股:股民做好下车准备,信号非常明确,下周将迎来新的变盘

云鹏叙事
2025-11-08 00:00:03
小米“双11”战报夺冠被打脸:自家统计的数据,纯属自娱自乐

小米“双11”战报夺冠被打脸:自家统计的数据,纯属自娱自乐

吃瓜局
2025-11-07 14:15:39
全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久

全球都在看中国将如何救援航天员!俄罗斯和美国9个月,中国多久

林子说事
2025-11-06 10:56:02
广东16岁女儿被父亲过度宠溺,被母亲回家撞见后,失控将其砍死

广东16岁女儿被父亲过度宠溺,被母亲回家撞见后,失控将其砍死

晓艾故事汇
2024-11-04 10:55:36
台当局做战斗准备!赵少康逼降亲陆派,连战送郑丽文8个字

台当局做战斗准备!赵少康逼降亲陆派,连战送郑丽文8个字

文史旺旺旺
2025-11-07 19:52:06
67岁环卫工打扫时被撞身亡,用人单位诉请撤销工伤认定,称签劳务协议时超退休年龄 法院驳回

67岁环卫工打扫时被撞身亡,用人单位诉请撤销工伤认定,称签劳务协议时超退休年龄 法院驳回

红星新闻
2025-11-07 20:40:10
今夜北风起,局地7级,北京下周还有两次冷空气

今夜北风起,局地7级,北京下周还有两次冷空气

环球网资讯
2025-11-08 16:38:10
绿卡重大改革!给老人申请绿卡面临严查,有慢性病的将被拒签

绿卡重大改革!给老人申请绿卡面临严查,有慢性病的将被拒签

大洛杉矶LA
2025-11-08 04:32:11
中国人集体戒酒

中国人集体戒酒

格隆汇
2025-11-07 19:55:07
沙僧刘大刚死因曝光!4月份动手术后大小眼,10月份又再次住院!

沙僧刘大刚死因曝光!4月份动手术后大小眼,10月份又再次住院!

好贤观史记
2025-11-07 21:50:03
网传:太子集团高管交完保释金后离开法院,面带笑容,轻松淡定!

网传:太子集团高管交完保释金后离开法院,面带笑容,轻松淡定!

眼光很亮
2025-11-07 17:17:57
俄方没想到:冻结俄几千亿的西方,连中方船只都不敢上,乖乖放行

俄方没想到:冻结俄几千亿的西方,连中方船只都不敢上,乖乖放行

古史青云啊
2025-11-07 21:29:06
六氟磷酸锂价格暴涨130%    产能十大龙头曝光!中央汇金提前抢筹

六氟磷酸锂价格暴涨130% 产能十大龙头曝光!中央汇金提前抢筹

元芳说投资
2025-11-08 19:34:59
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

趣文说娱
2025-11-08 17:14:30
2025-11-08 21:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13819文章数 66238关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

豁免到手 欧尔班:谢谢您 总统先生

头条要闻

豁免到手 欧尔班:谢谢您 总统先生

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

房产
教育
本地
数码
公开课

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

教育要闻

春秋假怎么过?香山中学的“Gap Week”提供一种答案

本地新闻

这届干饭人,已经把博物馆吃成了食堂

数码要闻

无视反作弊,玩家成功在12年前的AMD FX-9590设备上跑起《战地6》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版