网易首页 > 网易号 > 正文 申请入驻

告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题

0
分享至



本文第一作者是二年级博士生闫熠辰,主要研究方向是多模态大模型的数据质量管理;通讯作者是李环研究员,主要研究方向包括人工智能数据准备、大模型高效推理与部署、时空大数据与模型轻量化等。



01 省流版:一张图看懂 COIDO

在深入技术细节之前,我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案:

正如钟离在漫画中所言,面对海量视觉指令数据的选择任务,传统方法需要遍历全部数据才能进行筛选造成大量「磨损」(高昂计算成本)。同时在面对数据重要性和多样性问题时,传统方法往往顾此失彼。而 COIDO 通过「耦合优化」的新契约,实现了以简驭繁的效果。

02 论文速览



  • 论文题目:COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
  • 收录会议:NeurIPS 2025
  • 作者单位:浙江大学大数据智能团队、杭州电子科技大学、北京邮电大学
  • 项目代码:https://github.com/SuDIS-ZJU/COIDO
  • 论文链接:https://arxiv.org/abs/2510.17847

03 研究背景与动机 (Motivation)



多模态大语言模型(MLLM)的能力在很大程度上依赖于高质量的视觉指令微调(Visual Instruction Tuning)。然而,随着数据集规模的爆炸式增长(如 LLaVA-665K),在全量数据上进行微调带来了巨大的计算开销和冗余 。

现有的数据筛选方法虽然旨在选取高质量子集,但普遍存在两个关键痛点:

  • 高昂的筛选成本:现有方法通常要求目标 MLLM 对全量数据进行反向传播以计算重要性(如梯度、Loss),这导致筛选阶段本身的计算成本就极高,违背了 「降本增效」的初衷 。也就是说,为了筛选出少量有价值数据,我们还是得让全部的数据进入到目标 MLLM 当中并训练。
  • 优化目标的解耦:数据筛选通常需要兼顾重要性(Importance)和多样性(Diversity)。现有方法往往将二者割裂处理——在训练阶段关注重要性,在筛选阶段通过独立算法处理多样性。这种解耦往往导致次优的权衡 。

针对上述问题,本文提出了 COIDO 框架,旨在通过极低成本的训练,实现重要性与多样性的联合(耦合)优化 。

04 方法论 (Mothodology)

COIDO 的核心思想是摒弃「遍历全量数据」的旧范式,转而采用轻量级评分器(Plug-in Scorer)配合小样本采样的策略。



1. 轻量级评分器与小样本学习:不同于需要全量微调 MLLM 的方法,COIDO 引入了一个轻量级的插件评分器(COIDO Scorer)。我们仅从全量数据中随机采样一小部分(例如 20%)作为训练集。评分器通过这部分数据学习整个数据集的分布特征,从而能够对剩余数据进行泛化评分,无需遍历全集进行训练 。

2. 重要性与多样性的耦合优化 (Coupled Optimization):这是本论文的核心创新点。本文将重要性和多样性的优化统一在了一个联合训练框架中,而非分阶段进行:

重要性损失 (L_I):基于 Cross-Entropy Loss 的重加权。我们将评分器输出的得分 w 加权作用于 MLLM 的预测 Loss。根据反向传播原理,模型会自动降低高难度(高 Loss)样本的权重以最小化整体 Loss,从而使得评分器隐式地学习到样本的重要性(即:分数越低,样本越重要 / 越难)
多样性损失 (L_D):基于谱聚类(Spectral Clustering)的方差最小化。我们在特征空间将数据聚类,并计算各簇(Cluster)平均得分的方差。通过最小化该方差,迫使模型在挑选高分样本时,不会过度集中于某一类,从而保证了数据的多样性分布。











05 实验 (Experiments)

本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 数据集上进行了广泛验证,并在 10 个主流多模态基准(包括 VQAv2, GQA, MMBench 等)上进行了测试。



1. 性能与效率的双重 SOTA:实验结果表明,COIDO 仅利用 20% 的数据进行训练和筛选,即可达到全量数据微调 98.2% 的平均性能。与现有的 SOTA 方法(如 ICONS、TIVE、COINCIDE)相比:

  • 计算效率最高:COIDO 拥有最低的 Total FLOPs (4.2E),显著优于需要全量遍历的方法。
  • 筛选质量最优:在相同的数据留存率下,COIDO 在各个 Benchmark 上均取得了极具竞争力的结果。



2. 强大的泛化性与迁移性:将在 LLaVA-665K 上训练好的 COIDO Scorer 直接应用于 Vision-Flan 数据集(Zero-shot Transfer),其表现甚至优于在该数据集上从头训练的评分器,证明了 COIDO 能够学习到通用的数据价值评估标准。

06 总结 (Conclusion)

COIDO 提供了一种全新的多模态数据筛选范式。它打破了「数据筛选必须昂贵」的刻板印象,证明了通过耦合优化和小样本学习,我们可以「以简驭繁」,用极小的计算代价精准定位高价值的视觉指令数据。这不仅为资源受限的研究者提供了高效微调 MLLM 的可能,也为未来大规模多模态数据的自动化清洗与治理提供了新的思路。

关注项目主页获取更多细节与代码实现!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年度销量目标100万台!零跑1月交付32059台 同比增长27%

年度销量目标100万台!零跑1月交付32059台 同比增长27%

快科技
2026-02-01 09:50:06
伊朗已被包围,美开战前,中国卫星过顶,美军一举一动都在掌握中

伊朗已被包围,美开战前,中国卫星过顶,美军一举一动都在掌握中

郭蛹包工头
2026-02-01 13:41:05
朱高炽在位不足一年 ,为何能青史留名?他解决了三个天大的难题

朱高炽在位不足一年 ,为何能青史留名?他解决了三个天大的难题

千秋文化
2026-01-21 20:55:53
每吃一次,大脑萎缩就快一步?劝告:6种食物或是老年痴呆“催化剂”

每吃一次,大脑萎缩就快一步?劝告:6种食物或是老年痴呆“催化剂”

今日养生之道
2026-01-11 11:29:46
唐山杀警案,9年没破案,原来凶手就在专案组

唐山杀警案,9年没破案,原来凶手就在专案组

衍月
2025-12-22 17:53:21
陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

八斗小先生
2025-12-08 11:07:02
张胜谈父亲张爱萍:一生只服5人!自从红军大学后,再也没败过

张胜谈父亲张爱萍:一生只服5人!自从红军大学后,再也没败过

兴趣知识
2026-01-31 11:31:03
罗斯妻子闺蜜现场见证其球衣退役!她是尼克斯忠实粉丝 身材火辣

罗斯妻子闺蜜现场见证其球衣退役!她是尼克斯忠实粉丝 身材火辣

Emily说个球
2026-01-31 21:02:04
因不提供“特殊服务”遭辱,22岁女子刺死1名官员,判决让人欣慰

因不提供“特殊服务”遭辱,22岁女子刺死1名官员,判决让人欣慰

谈史论天地
2026-01-16 11:55:08
杜兰特13+8仍该夸,基德赛后怒批裁判!申京毫无借口,阿门创纪录

杜兰特13+8仍该夸,基德赛后怒批裁判!申京毫无借口,阿门创纪录

鱼崖大话篮球
2026-02-01 13:27:54
场均16+8+7!失误1.6次联盟顶级,美媒晒阿门数据,火箭因祸得福

场均16+8+7!失误1.6次联盟顶级,美媒晒阿门数据,火箭因祸得福

巴叔GO聊体育
2026-02-01 13:12:05
联合国崩?191国收到信函,古特雷斯下台前:阴了中国,帮了美国

联合国崩?191国收到信函,古特雷斯下台前:阴了中国,帮了美国

知法而形
2026-01-31 15:44:13
嫁黎明4年败光7亿家产,离婚后再嫁美国富豪,如今胖成大妈不敢认

嫁黎明4年败光7亿家产,离婚后再嫁美国富豪,如今胖成大妈不敢认

白面书誏
2026-01-03 21:31:21
全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

华人星光
2026-01-12 13:14:21
刚结束访华,斯塔默直奔日本,高市已设下晚宴,中方只回了6个字

刚结束访华,斯塔默直奔日本,高市已设下晚宴,中方只回了6个字

乐享人生风雨
2026-01-31 16:46:06
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

我心纵横天地间
2026-01-30 22:17:29
陈吉宁会见英首相;正部级官员被查;中泰友好物资抵达;乌克兰电力故障 | 2月01日要闻日报

陈吉宁会见英首相;正部级官员被查;中泰友好物资抵达;乌克兰电力故障 | 2月01日要闻日报

今日时事要闻
2026-02-01 01:06:12
过时经验害苦了特朗普,没想到中国敢反抗,最终导致一步错步步错

过时经验害苦了特朗普,没想到中国敢反抗,最终导致一步错步步错

董董历史烩
2026-01-31 15:22:54
鲫鱼立大功!医生研究发现:鲫鱼对这6种疾病有好处,可以常吃

鲫鱼立大功!医生研究发现:鲫鱼对这6种疾病有好处,可以常吃

岐黄传人孙大夫
2026-01-31 15:40:03
2026-02-01 14:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142560关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

中国最北宜家闭店前一日:家居展区几乎空了 食品售罄

头条要闻

中国最北宜家闭店前一日:家居展区几乎空了 食品售罄

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
艺术
数码
时尚
军事航空

教育要闻

高二上学期结束了,英语只有20分怎么办?要如何才能提分?

艺术要闻

明代隐藏的“草书高手”,他的字无人能模仿

数码要闻

苹果改进线上商店购机流程 Mac订单全面改为“自选配置”模式

上年纪的女人买“上衣”:避开3个坑,这样选时髦又显气质

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版