网易首页 > 网易号 > 正文 申请入驻

ECCV 2024 | 视觉优先&文本偏好?BPO缓解MLLMs幻觉,提升视觉理解力

0
分享至

随着大型语言模型(LLMs)的进步,多模态大型语言模型(MLLMs)迅速发展。它们使用预训练的视觉编码器处理图像,并将图像与文本信息一同作为 Token 嵌入输入至 LLMs,从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

尽管 MLLMs 具有出色的图文理解能力,但它们仍然会出现错误或幻觉,生成与输入图像不相符的相应,例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。多模态大模型的语言模块往往使用了海量的文本数据进行预训练,而模态对齐阶段则使用更小的数据规模和更短的训练时间。

为了解决上述问题,我们提出了一种偏好对齐方法 -Bootstrapped Preference Optimization(BPO),能在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。

论文标题: Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization 论文链接: https://arxiv.org/pdf/2403.08730 代码链接: https://github.com/pipilurj/bootstrapped-preference-optimization-BPO-

具体来讲,我们设计了两种方法去自动构建偏好学习的负样本,使得多模态模型对与训练的过度依赖暴露出来。之后,我们用原本的数据标注当作正样本,对多模态模型进行偏好微调。总的来说,我们的主要贡献有:

  1. 我们提出了一种新的视角,将多模态对齐问题转化为偏好学习任务,其中预训练偏见和视觉理解能力被视为旧的和新的偏好;

  2. 我们介绍了一种自动化构建大规模偏好数据集的方法。通过该方法能构造出大量带有预训练偏见信息的负面样本;

  3. 在大量实验上证明了我们的方法能有效地提升多模态大模型对于图像的认知能力,训练后的模型在多个基准测试中性能得到提升。

一、可扩展的偏好数据集构建

对于偏好数据集的正面样本,已经有许多为监督微调而设计的现成数据集,例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应,在保证高质量数据对的同时避免了昂贵的人工标注。

为了能收集到能反映预训练偏见的负面响应数据,我们提出了两种方法。

a. 弱化图像提示:我们给偏好数据集中的图片数据加上噪声,以此破坏图像特征,使多模态大模型在回答时更倾向原始的预训练分布,由此产生的错误响应会包含 LLM 模块的固有偏见。从图中可以看到,我们通过像图片中加入不同程度的噪声,正确答案出现的概率就越小,带有预训练偏见的答案出现的概率也就越大。

b. 错误注入:我们要求多模态大模型对应的大语言模型直接改写响应,要求模型生成与答案相近但不完全一样的错误回答。

接下来,我们采用直接偏好优化(DPO)对多模态模型进行优化:

二、实验评估

我们采用经过 BPO 微调过后的 LLaVA 模型(LLaVA-7B-BPO 和 LLaVA-13B-BPO)在 MM-Vet,LLaVA-Wild 和 Object HalBench 上测试。MM-Vet 和 LlaVA-Bench 是专门用来衡量模型综合能力的榜单,Object HalBench 则是评估多模态大模型的视觉可信度。

实验结果表明,经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上,LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。

我们还将 BPO 与监督微调训练(SFT)进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。

在定性结果上,我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案,并且包含更少错误信息。

更多研究细节,可参考原论文。

作者:皮仁杰 来源:公众号【机器之心】

llustration From IconScout By Damas Suryadinata

-The End-

扫码观看

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国女篮两连胜不到24小时,宫鲁鸣醒悟了,,李梦机会来了

中国女篮两连胜不到24小时,宫鲁鸣醒悟了,,李梦机会来了

二爷台球解说
2025-09-19 16:29:36
“带导盲犬爬泰山”当事人:没有虐狗,渴望理解,盲人也想爬山

“带导盲犬爬泰山”当事人:没有虐狗,渴望理解,盲人也想爬山

新京报
2025-09-19 15:12:31
淮阴工学院破局而出,江苏首个新大学即将落户淮安!

淮阴工学院破局而出,江苏首个新大学即将落户淮安!

鬼菜生活
2025-09-19 15:31:43
铁证如山:多项数据表明:泰山队就是被裁判针对了

铁证如山:多项数据表明:泰山队就是被裁判针对了

姜大叔侃球
2025-09-19 20:54:20
男子胃癌早期选择住院,3天后同病房晚期男子:这个给你,好好活着

男子胃癌早期选择住院,3天后同病房晚期男子:这个给你,好好活着

温情邮局
2025-09-12 15:33:32
再见了!市区百年地标被彻底拆平!天津人最后的老念想,终究还是没了!

再见了!市区百年地标被彻底拆平!天津人最后的老念想,终究还是没了!

天津人
2025-09-19 21:09:27
给军区首长开了8年车,他退休时给我个文件袋,打开后我愣住了

给军区首长开了8年车,他退休时给我个文件袋,打开后我愣住了

五元讲堂
2025-09-08 10:43:58
中日对决主场不能输!圣坛组合2-1日本王牌,四强国羽占半壁江山

中日对决主场不能输!圣坛组合2-1日本王牌,四强国羽占半壁江山

钉钉陌上花开
2025-09-19 19:24:44
列宁逝世后,斯大林对他貌美的妻子,下了一个十分残忍的命令

列宁逝世后,斯大林对他貌美的妻子,下了一个十分残忍的命令

红梦史说
2025-09-14 02:50:03
受邀观礼九三阅兵的5位明星,个个口碑好,这才是我们该追的星!

受邀观礼九三阅兵的5位明星,个个口碑好,这才是我们该追的星!

李橑在北漂
2025-09-04 15:43:02
播音女生晒“无欲望脸”,恨自己不争气,没有名校能看上自己

播音女生晒“无欲望脸”,恨自己不争气,没有名校能看上自己

熙熙说教
2025-09-18 20:55:39
儿媳遭婆婆辱骂致流产,5天后婆婆带亲戚来医院嘲笑,推门后沉默了

儿媳遭婆婆辱骂致流产,5天后婆婆带亲戚来医院嘲笑,推门后沉默了

温情邮局
2025-09-19 14:38:40
停运、停航!台风“米娜”已登陆!后面的更凶猛!广州或迎来今年最强“风王”!

停运、停航!台风“米娜”已登陆!后面的更凶猛!广州或迎来今年最强“风王”!

羊城攻略
2025-09-19 22:06:04
上海紧急下架二手房!原因爆光!

上海紧急下架二手房!原因爆光!

新浪财经
2025-09-20 00:15:21
北京大阅兵后,俄方获新情报:美国已为中国准备25款秘密武器

北京大阅兵后,俄方获新情报:美国已为中国准备25款秘密武器

荷兰豆爱健康
2025-09-17 09:43:28
为什么说:这5种葡萄不要买来吃?葡萄大量上市,吃葡萄时要注意

为什么说:这5种葡萄不要买来吃?葡萄大量上市,吃葡萄时要注意

神牛
2025-09-17 14:49:38
哭不出别尬演!《731》满脸恐慌的孙茜出场,假哭演员都无地自容

哭不出别尬演!《731》满脸恐慌的孙茜出场,假哭演员都无地自容

嫹笔牂牂
2025-09-19 07:45:18
面对美国“台湾地位未定论”,郑丽文重磅发声,赵少康表态不一般

面对美国“台湾地位未定论”,郑丽文重磅发声,赵少康表态不一般

DS北风
2025-09-18 17:47:04
中国成功收复南海第一大岛礁,面积超8400平方公里,周围全是宝藏

中国成功收复南海第一大岛礁,面积超8400平方公里,周围全是宝藏

小lu侃侃而谈
2025-09-17 19:33:39
青HD12580火了!全国首台小米SU7出租车投入运营,当事人回应:收入翻了一倍

青HD12580火了!全国首台小米SU7出租车投入运营,当事人回应:收入翻了一倍

极目新闻
2025-09-18 17:49:21
2025-09-20 05:36:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2223文章数 591关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

旅游
数码
亲子
时尚
本地

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

数码要闻

750万小米空调升级10年免费包修:为用户节省15亿元

亲子要闻

每年一次性发放!育儿补贴新规出台

卡其裤+蓝衬衫,简单高级

本地新闻

大学生军训哪家强,广西申请“出战”!

无障碍浏览 进入关怀版