网易首页 > 网易号 > 正文 申请入驻

GIST智能采样算法:解决数据多样性与效用性平衡难题

0
分享至


我们推出了GIST算法,这是一种能够为选择高质量数据子集提供可证明保证的新颖算法,可以最大化数据多样性和数据效用性。

现代机器学习已经实现了前所未有的性能,但代价是需要处理日益庞大和复杂的数据集。从大语言模型到计算机视觉系统,都面临着一个共同挑战:如何处理大量成本高昂的数据。

这使得子集选择变得必要——即从完整数据集中选择一个较小的、具有代表性的数据点组用于典型的训练任务(而非微调)。问题在于:我们如何确保这个子集包含足够的信息来训练准确的模型?

在NeurIPS 2025上,我们介绍了贪婪独立集阈值算法GIST,这是一种新颖的算法,通过平衡数据"多样性"(确保所选数据不冗余)和数据"效用性"(与任务相关且有用的数据)来解决这个问题。GIST不仅在图像分类等最先进的基准任务上表现出色,而且在解决方案质量方面提供数学保证。

数据选择的核心挑战

在选择数据子集时,研究人员必须平衡两个经常冲突的目标:多样性和效用性。强调数据多样性确保所选点不冗余。效用性衡量所选子集的整体有用性或信息价值。

对于多样性,我们专注于最大化任意两个选定数据点之间的最小距离(通常在嵌入空间中),也称为最大最小多样性。如果你选择两个非常相似的数据点(例如,两张几乎相同的金毛猎犬图片),你的多样性就很低。最大最小多样性迫使你选择彼此尽可能远的点,最大限度地减少冗余并确保对数据景观的广泛覆盖。对于效用性,我们专注于单调子模函数类,旨在最大化子集覆盖的总独特信息。

困难在于结合这两个目标。纯粹的最大最小策略可能选择多样但最终无关的数据点,而纯粹的效用策略可能选择一个紧密、高度相关但冗余的点簇。找到既最大分散又最大信息化的子集是一个复杂的组合问题,已知为NP难题,意味着没有算法能够高效地找到最佳解决方案,特别是对于大规模数据集。

这种内在冲突需要巧妙的近似策略。

GIST的创新解决方案

由于找到完美子集不现实,目标转向找到具有可证明近似保证的算法——一个数学安全网,确保解决方案始终接近真正的最优解。这就是GIST提供突破性解决方案的地方。

GIST将多样性-效用性挑战分解为一系列更简单但相关的优化问题:

GIST首先暂时隔离多样性组件。GIST不是试图最大化所有点之间的最小距离(困难部分),而是解决一个更简单的问题:"对于某个固定的最小距离,我们能选择的最佳数据子集是什么?"

通过固定所需的最小距离,GIST使用图处理数据,其中两点仅在距离小于指定距离时才连接。在这个图中,任何两个连接的点都被认为过于相似而无法进入最终子集。

GIST寻找尚未在其他人"泡泡"内的最高分数点。然后算法挑选得分最高的"VIP"数据点(带数字的点),并在其周围画一个"禁区",以确保最终选择既高质量又多样。数字越高,该特定数据片段对学习越有价值。

GIST然后寻找可以选择的最大效用子集,其中该图中没有两个点连接:经典的最大独立集问题。想象规划一个晚宴,某些客人不能坐在一起。你的目标是邀请尽可能有趣的一群人,但必须遵循一个规则:餐桌上没有两个人可以有冲突。这是一个巨大的难题,因为选择一位客人可能"阻止"你邀请其他三位高兴趣的人。要找到最佳组合,你必须检查指数数量的分组,这就是为什么它被认为是计算中最困难的问题之一。

由于最大独立集问题本身是NP完全的(意味着广泛认为不存在高效算法为大规模数据集找到绝对"完美"答案)且不允许合理的近似算法,GIST使用精心构造的双标准贪婪算法来高效近似解决方案。它遍历许多可能的距离阈值,解决相应的独立集问题,并最终选择在所有阈值中找到的最佳解决方案。对于最优解实现的任何最小距离d,GIST在距离阈值d/2处实现与最优效用相当的效用。

双标准贪婪算法就像一个系统的"调节旋钮",找到数据多样性和价值之间的正确平衡。它不是猜测,而是分析所有数据点之间的实际距离来创建潜在间距规则列表。然后逐一测试这些规则:对于每个规则,它"贪婪地"抓取能找到的最有价值的点,前提是它们与已选择的点不太接近。通过在每个相关距离上运行此过程并比较结果,算法识别出特定的"最佳点",该点捕获最有用的信息,同时确保数据尽可能分散。

通过巧妙地近似一系列这些最大独立集问题,GIST成功地满足了效用目标,同时尊重最小多样性要求。

理论保证和实验结果

我们的理论结果是最重要的发现:GIST是第一个为这种多样性-效用权衡提供强有力、可证明保证的算法。GIST算法保证找到一个数据子集,其价值至少是绝对最优解价值的一半(详见论文)。这种强保证为从业者提供了必要的数学安全网,确保算法在最大化效用的同时确保多样化之间做出高效权衡。此外,我们证明找到超过最优值0.56分数的子集是NP难的。

我们还在各种机器学习应用中针对最先进基准评估了GIST,重点关注多样性和效用性都至关重要的场景。

在使用ResNet-56模型在ImageNet等数据集上的实验中,GIST在单次子集选择中表现出显著优势。单次数据下采样一步减少数据集的体积——通常是图像、信号或高维数据——同时保留关键信息。与迭代或多阶段过程不同,这种方法最大化速度和效率,通常用于减少计算负担或优化图形相关任务中的渲染性能。

尽管底层问题复杂,GIST的实际子集选择步骤非常快:其运行时间相比训练最终机器学习模型所需的数小时甚至数天通常可以忽略不计。这种速度使GIST在具有数十亿数据点的大规模训练管道中集成变得实用。

我们还在YouTube首页排名团队中观察到最大最小多样性方法的价值,该团队采用了类似原理来增强视频推荐的多样性,从而改善了长期用户价值。

智能采样的未来

结合竞争优化目标的挑战——如最大化总效用同时保持最大多样性——一直是计算科学中的长期障碍。GIST算法通过提供单一、高效的框架成功解决了数据选择的这一基本权衡。

通过将具有挑战性的多样性-效用权衡问题分解为一系列更简单、可近似的任务,GIST为机器学习社区提供了一个可证明有效的工具。这项研究为下一代可扩展AI系统建立了强大基础,保证随着数据继续增长,我们仍然可以在既最大信息化又最小冗余的子集上训练模型。要点是,GIST确保我们智能地采样数据。

Q&A

Q1:GIST算法是什么?它能解决什么问题?

A:GIST是贪婪独立集阈值算法,是一种新颖的数据子集选择算法。它能够在数据多样性和效用性之间找到最佳平衡,确保选择的数据子集既不冗余又具有高信息价值,并提供可证明的数学保证,其解决方案价值至少是绝对最优解的一半。

Q2:GIST算法的运行速度如何?是否适用于大规模数据?

A:GIST算法运行非常快,其子集选择步骤的运行时间相比机器学习模型训练所需的数小时甚至数天通常可以忽略不计。这种高效性使得GIST非常适合集成到具有数十亿数据点的大规模训练管道中,为实际应用提供了很好的可行性。

Q3:GIST在实际应用中表现如何?有哪些成功案例?

A:GIST在多个基准测试中表现出色,特别是在ImageNet数据集上使用ResNet-56模型的实验中,GIST在单次子集选择任务中显著优于现有方法,持续选择出能够提高模型准确性的子集。YouTube首页排名团队也采用了类似的最大最小多样性原理来增强视频推荐多样性,改善了长期用户价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
军事 | 梅洛尼:爱也特朗普,恨也特朗普

军事 | 梅洛尼:爱也特朗普,恨也特朗普

新民周刊
2026-01-26 09:10:47
日本!暴跌开始了!

日本!暴跌开始了!

大嘴说天下
2026-01-26 20:16:55
对 “台独” 绝不手软!解放军首次确认,抓捕赖清德不惜一切手段

对 “台独” 绝不手软!解放军首次确认,抓捕赖清德不惜一切手段

荷兰豆爱健康
2026-01-24 15:43:46
科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

徐德文科学频道
2026-01-06 19:51:55
主打一个相信,恩佐在埃斯特旺破门前5秒就提前开始庆祝了

主打一个相信,恩佐在埃斯特旺破门前5秒就提前开始庆祝了

懂球帝
2026-01-26 17:43:28
“讹诈”套路生效了,上当的还是欧洲,特朗普得到三项承诺

“讹诈”套路生效了,上当的还是欧洲,特朗普得到三项承诺

温读史
2026-01-27 01:22:40
日本K杯偶像发视频呼吁2月8日一起去投票,粉丝大赞

日本K杯偶像发视频呼吁2月8日一起去投票,粉丝大赞

随波荡漾的漂流瓶
2026-01-26 18:40:03
27国出手,逼解放军后退,大陆海警金门外对峙,台当局又飘了

27国出手,逼解放军后退,大陆海警金门外对峙,台当局又飘了

笑谈历史阿晡
2026-01-27 00:28:21
赖清德再遭暴击!美国新版国防战略发布,对华关系部分让他心寒

赖清德再遭暴击!美国新版国防战略发布,对华关系部分让他心寒

天启谈古说今
2026-01-26 23:02:35
公司重大资产重组完成,中航成飞2025年净利同比预增2927.37%~3105.45%

公司重大资产重组完成,中航成飞2025年净利同比预增2927.37%~3105.45%

财闻
2026-01-26 19:14:36
最低售7.98万元 三款经典热门家轿 哪款才是你的菜?

最低售7.98万元 三款经典热门家轿 哪款才是你的菜?

沙雕小琳琳
2026-01-27 02:28:23
夫妻有属这个生肖,注定惹不起,一辈子钱财不缺,迟早享福

夫妻有属这个生肖,注定惹不起,一辈子钱财不缺,迟早享福

人閒情事
2026-01-26 10:23:01
定档1月26号,东方卫视又一部好剧来袭,演员阵容很强大

定档1月26号,东方卫视又一部好剧来袭,演员阵容很强大

小邵说剧
2026-01-24 21:18:49
霍震霆也没想到,被寄予厚望的儿媳郭晶晶,竟遭到一个这么大教训

霍震霆也没想到,被寄予厚望的儿媳郭晶晶,竟遭到一个这么大教训

天天热点见闻
2026-01-26 08:14:01
再贵也要吃,它是公认的“蔬菜一绝”,比萝卜鲜,比山药补

再贵也要吃,它是公认的“蔬菜一绝”,比萝卜鲜,比山药补

阿龙美食记
2026-01-24 10:32:12
中到大雪马上到安徽

中到大雪马上到安徽

黄河新闻网吕梁频道
2026-01-26 14:12:24
清水梨纱:远藤航就像一位亲切的父亲,他是个很温柔的人

清水梨纱:远藤航就像一位亲切的父亲,他是个很温柔的人

懂球帝
2026-01-26 17:30:13
我入赘给市长的疯女儿,新婚夜她却说:我装疯这么多年就是为了这天

我入赘给市长的疯女儿,新婚夜她却说:我装疯这么多年就是为了这天

萧竹轻语
2025-11-14 16:25:55
金饰每克便宜200元,抢爆了!凌晨6点开始排队,有人拖着行李箱去买

金饰每克便宜200元,抢爆了!凌晨6点开始排队,有人拖着行李箱去买

台州交通广播
2026-01-24 16:30:36
赵露思直播卖货动作幅度太大露出内裤,遭质疑博流量,太败好感!

赵露思直播卖货动作幅度太大露出内裤,遭质疑博流量,太败好感!

桑葚爱动画
2026-01-02 19:46:41
2026-01-27 03:24:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1368文章数 157关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

健康
家居
本地
房产
手机

耳石脱落为何让人天旋地转+恶心?

家居要闻

流韵雅居,让复杂变纯粹

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

房产要闻

突发!三亚官宣,调整安居房政策!

手机要闻

华为Pura X2、OPPO Find N6、荣耀Magic V6,选择纠结了!

无障碍浏览 进入关怀版