网易首页 > 网易号 > 正文 申请入驻

ECCV 2024 | 视觉优先&文本偏好?BPO缓解MLLMs幻觉,提升视觉理解力

0
分享至

随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

尽管 MLLMs 具有出色的图文理解能力,但它们仍然会出现错误或幻觉,生成与输入图像不相符的相应,例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。多模态大模型的语言模块往往使用了海量的文本数据进行预训练,而模态对齐阶段则使用更小的数据规模和更短的训练时间。

为了解决上述问题,我们提出了一种偏好对齐方法 -Bootstrapped Preference Optimization(BPO),能在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。

论文标题: Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization 论文链接: https://arxiv.org/pdf/2403.08730 代码链接: https://github.com/pipilurj/bootstrapped-preference-optimization-BPO-

具体来讲,我们设计了两种方法去自动构建偏好学习的负样本,使得多模态模型对与训练的过度依赖暴露出来。之后,我们用原本的数据标注当作正样本,对多模态模型进行偏好微调。总的来说,我们的主要贡献有:

  1. 我们提出了一种新的视角,将多模态对齐问题转化为偏好学习任务,其中预训练偏见和视觉理解能力被视为旧的和新的偏好;

  2. 我们介绍了一种自动化构建大规模偏好数据集的方法。通过该方法能构造出大量带有预训练偏见信息的负面样本;

  3. 在大量实验上证明了我们的方法能有效地提升多模态大模型对于图像的认知能力,训练后的模型在多个基准测试中性能得到提升。

一、可扩展的偏好数据集构建

对于偏好数据集的正面样本,已经有许多为监督微调而设计的现成数据集,例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应,在保证高质量数据对的同时避免了昂贵的人工标注。

为了能收集到能反映预训练偏见的负面响应数据,我们提出了两种方法。

a. 弱化图像提示:我们给偏好数据集中的图片数据加上噪声,以此破坏图像特征,使多模态大模型在回答时更倾向原始的预训练分布,由此产生的错误响应会包含 LLM 模块的固有偏见。从图中可以看到,我们通过像图片中加入不同程度的噪声,正确答案出现的概率就越小,带有预训练偏见的答案出现的概率也就越大。

b. 错误注入:我们要求多模态大模型对应的大语言模型直接改写响应,要求模型生成与答案相近但不完全一样的错误回答。

接下来,我们采用直接偏好优化(DPO)对多模态模型进行优化:

二、实验评估

我们采用经过 BPO 微调过后的 LLaVA 模型(LLaVA-7B-BPO 和 LLaVA-13B-BPO)在 MM-Vet,LLaVA-Wild 和 Object HalBench 上测试。MM-Vet 和 LlaVA-Bench 是专门用来衡量模型综合能力的榜单,Object HalBench 则是评估多模态大模型的视觉可信度。

实验结果表明,经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上,LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。

我们还将 BPO 与监督微调训练(SFT)进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。

在定性结果上,我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案,并且包含更少错误信息。

更多研究细节,可参考原论文。

作者:皮仁杰 来源:公众号【机器之心】

llustration From IconScout By Damas Suryadinata

-The End-

扫码观看

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子中1000万彩票后失踪6年,母亲去女儿家探亲,打开地窖崩溃

男子中1000万彩票后失踪6年,母亲去女儿家探亲,打开地窖崩溃

罪案洞察者
2025-07-10 09:30:11
李沁雷军在一起了!?

李沁雷军在一起了!?

八卦疯叔
2026-01-08 11:36:17
16分惨败马刺!湖人为留克内克特付出代价,东契奇的MVP没戏了

16分惨败马刺!湖人为留克内克特付出代价,东契奇的MVP没戏了

小路看球
2026-01-08 15:54:58
起底太子集团创始人陈志

起底太子集团创始人陈志

中国新闻周刊
2026-01-08 11:39:09
马杜罗被活捉,李毅为何如丧考妣?

马杜罗被活捉,李毅为何如丧考妣?

廖保平
2026-01-08 09:23:43
“十四五”时期我国快递业务量达到千亿级

“十四五”时期我国快递业务量达到千亿级

新华社
2026-01-07 14:57:49
山西悬崖上废弃道观,发现张三丰墓和闭关洞,墓中竟有金身骸骨!

山西悬崖上废弃道观,发现张三丰墓和闭关洞,墓中竟有金身骸骨!

铭记历史呀
2026-01-07 02:43:09
湖北小伙娶非洲酋长女儿,生女儿后定居成都,娘家每月给1万美金

湖北小伙娶非洲酋长女儿,生女儿后定居成都,娘家每月给1万美金

不写散文诗
2026-01-07 19:23:08
美军大批军机飞欧洲!调动模式与去年“空袭伊朗”惊人相似,抓一艘逃亡17天油轮?

美军大批军机飞欧洲!调动模式与去年“空袭伊朗”惊人相似,抓一艘逃亡17天油轮?

红星新闻
2026-01-06 19:14:23
乔丹后首人,弗拉格总得分、篮板、助攻和抢断均为队内最高

乔丹后首人,弗拉格总得分、篮板、助攻和抢断均为队内最高

懂球帝
2026-01-08 10:57:22
中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

知法而形
2026-01-07 16:52:08
四川90后小伙日进百万被举报,调查遇阻:收入不匹配不能说犯罪

四川90后小伙日进百万被举报,调查遇阻:收入不匹配不能说犯罪

千百度篮球视角
2026-01-08 10:44:23
降元大将质问文天祥:我守襄阳6年无援,丞相凭什么骂我乱贼?

降元大将质问文天祥:我守襄阳6年无援,丞相凭什么骂我乱贼?

长风文史
2026-01-06 11:53:13
随着快船111:123完败尼克斯,一场丑陋的比赛揭露三个输球罪人!

随着快船111:123完败尼克斯,一场丑陋的比赛揭露三个输球罪人!

田先生篮球
2026-01-08 12:06:45
太棒了!苹果推出 iPhone 换电池半价活动

太棒了!苹果推出 iPhone 换电池半价活动

XCiOS俱乐部
2026-01-07 15:03:15
美专家挺震惊:中国塔里木盆地藏万亿吨碳,堪比10个五大湖地下海

美专家挺震惊:中国塔里木盆地藏万亿吨碳,堪比10个五大湖地下海

蜉蝣说
2025-12-02 10:50:50
Kpler:“索菲亚”号油轮载有200万桶自委内瑞拉港口装载的原油

Kpler:“索菲亚”号油轮载有200万桶自委内瑞拉港口装载的原油

新浪财经
2026-01-08 00:29:33
是不是觉得很奇怪:日本打遍了大半个中国,为什么没有染指陕西?

是不是觉得很奇怪:日本打遍了大半个中国,为什么没有染指陕西?

史之铭
2026-01-08 07:21:57
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

博览历史
2025-07-21 17:59:30
2026-01-08 16:35:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2300文章数 596关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

中方被指正考虑进一步收紧中重稀土出口 日本业界慌了

头条要闻

中方被指正考虑进一步收紧中重稀土出口 日本业界慌了

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

游戏
教育
艺术
手机
军事航空

欧洲评级泄露《奇异人生》新游 但是开发商没公布

教育要闻

中考数学,求阴影面积?

艺术要闻

颐和园金光穿洞

手机要闻

华为Pura X2曝光:翻书式横向折叠,外屏尺寸增大

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版