伊利诺伊大学香槟分校突破：AI实现精准训练数据筛选|算法|数据源|鲁棒性|数据组|客户端节点

分享至

这项由伊利诺伊大学香槟分校的周晓娜、辛辛那提大学的曾颖燕、弗吉尼亚理工大学的金冉，以及伊利诺伊大学香槟分校的伊斯米尼·洛伦佐四位研究者共同完成的研究，发表于2025年12月的《人工智能促进协会会议》（AAAI 2025），论文编号为arXiv:2512.10952v1。有兴趣深入了解的读者可以通过这个编号在学术数据库中查询完整论文。

现代人工智能就像一个永远饥饿的学徒，它的聪明程度完全取决于"吃"到什么样的训练数据。但现实中的数据就像散落在全世界各个角落的食材库，有些来自知名餐厅（公开数据库），有些来自家庭厨房（不同机构），质量参差不齐，相关性也千差万别。那么问题来了：当你面对成千上万个"食材库"时，该如何快速找到最适合你这道"AI菜谱"的那些食材呢？

传统的方法就像是一个个地品尝每种食材，这不仅费时费力，还可能选到不合适的材料。更糟糕的是，现有的数据选择方法大多只会挑选单独的"食材片段"，完全忽略了这些食材来自哪个"厨房"，以及同一个"厨房"出品的食材往往有着相似的品质特征。

研究团队意识到，现实世界中的数据天然具有层次结构——数据集通常按照来源、机构或者主题进行组织。比如，来自同一家医院的医疗数据可能有着相似的采集标准，来自同一个地区的交通数据可能反映相似的路况特征。如果能利用这种天然的层次关系，就能大大提高数据选择的效率和准确性。

正是基于这样的洞察，研究团队提出了一个名为DaSH（Dataset Selection via Hierarchies，通过层次结构进行数据集选择）的方法。这个方法就像一个经验丰富的采购专家，不仅会评估单个食材的品质，更会考虑整个供应商（数据来源）的信誉和特色，从而做出更明智的选择决策。

一、数据选择的现实困境：为什么传统方法"水土不服"

在深入了解DaSH方法之前，我们先来看看现有数据选择方法面临的核心挑战。

当前的数据选择方法主要分为几类：主动学习、数据估值和子集选择。主动学习就像一个挑剔的美食家，会仔细挑选那些"最有信息量"的数据样本进行标注，目标是用最少的标注成本获得最好的模型性能。数据估值则像是给每个数据样本打分，评估它们对模型性能的贡献度。子集选择方法则致力于构建一个具有代表性的数据子集，既能保持原始数据的多样性，又能提高训练效率。

然而，这些方法都有一个共同的盲点：它们把所有数据都当作孤立的个体来处理，就像在一个巨大的食材市场里逐一检查每个蔬菜，却完全不考虑这些蔬菜是来自有机农场还是普通菜园。这种做法在现实应用中会遇到几个问题。

首先是效率问题。当面对数万甚至数十万个数据集时，逐一评估每个数据样本的价值就像大海捞针，不仅耗时巨大，还可能因为探索不充分而错过高价值的数据源。其次是噪声问题。不同来源的数据往往有着不同的质量标准和采集方式，如果不考虑这些差异，很容易选到看似有用但实际上会"污染"模型的数据。

最重要的是，现有方法忽略了数据的层次结构特性。在现实世界中，数据很少是孤立存在的，它们往往以数据集为单位进行组织和共享。来自同一机构的数据集通常有着相似的采集标准、处理流程和质量水平。来自同一领域的数据集往往具有相似的特征分布和标注规范。这种天然的组织结构蕴含着丰富的信息，可以帮助我们更有效地进行数据选择。

研究团队通过实验发现，当使用传统方法进行数据选择时，经常出现这样的情况：算法会从多个低质量的数据源中各选择一些样本，而不是集中选择来自高质量数据源的完整数据集。这就像在购买食材时，不是选择一家信誉良好的商店购买一套完整的食材，而是从各个摊位随机买一点东西，最终可能导致搭配不当或质量不一致。

更严重的是，在多源数据环境中，不同数据源之间可能存在标注冲突、分布偏移或质量差异。如果不能正确识别和筛选数据源，就可能引入大量噪声，反而降低模型性能。这就解释了为什么在某些实验中，加入外部数据后模型性能不升反降的现象。

二、DaSH的核心理念：像行家一样"知人善任"

面对传统方法的局限性，DaSH提出了一种全新的思路：既然数据天然具有层次结构，为什么不利用这种结构来指导选择过程呢？

DaSH的设计哲学可以用一个简单的类比来解释。假设你是一个餐厅老板，需要为新菜品采购食材。传统方法就像是在一个巨大的农贸市场里，随机品尝每个摊位的产品，然后根据单次品尝的感受来决定采购。而DaSH则更像是一个经验丰富的采购经理，他不仅会评估具体的食材质量，更会考虑供应商的整体信誉、专业领域和历史表现。

具体来说，DaSH将数据选择问题建模为一个两层的层次决策过程。在第一层，算法需要决定选择哪个数据组（相当于选择哪个供应商）；在第二层，算法需要在选定的组内决定具体选择哪个数据集（相当于在选定的供应商那里挑选具体的产品）。

这种层次化的建模方式带来了几个显著优势。首先，它大大减少了搜索空间。与其在成千上万个数据集中盲目搜索，DaSH可以先快速识别出最有潜力的数据组，然后在这些有限的候选组中进行精细化选择。这就像是先确定要去哪个商圈购物，再在该商圈内选择具体的店铺，明显比在整个城市里漫无目的地逛街要高效得多。

其次，层次化建模能够更好地处理数据质量的不确定性。当算法从某个数据组中选择了一个高质量的数据集后，这个正面反馈会传播到整个数据组的评估中，提高对该组其他数据集的信心度。相反，如果某个数据集质量不佳，这个负面信号也会降低对整个数据组的期望。这种信息传播机制使得算法能够快速学习和适应，避免在低质量的数据源上浪费太多时间。

DaSH的技术核心是贝叶斯推理框架。简单来说，贝叶斯方法就像是一个善于学习的专家，它会根据每次的观察结果不断更新自己的认知。在DaSH中，算法为每个数据组和每个数据集都维护一个"信心度分布"，这个分布反映了算法对该数据源质量的当前认知水平。

当算法选择某个数据集并观察到其性能表现后，它会同时更新两个层面的信心度：一是对该具体数据集的信心度，二是对该数据集所属数据组的信心度。这种双重更新机制确保了算法能够在个体和群体两个层面上进行学习，从而做出更加明智的后续选择。

举个具体例子来说明这个过程。假设算法正在为图像分类任务选择训练数据，候选数据包括来自不同机构的医疗图像数据集。当算法从"A医院"这个数据组中选择了一个X光片数据集，并发现它显著提升了模型性能时，算法不仅会提高对这个特定X光片数据集的评价，还会提高对"A医院"整个数据组的信心度。下次在选择数据组时，"A医院"就更可能被优先考虑，即使算法还没有尝试过该医院的其他数据集。

这种学习机制的巧妙之处在于，它能够在有限的探索中快速识别出高质量的数据源，从而将更多的注意力集中在这些有价值的来源上。这不仅提高了选择效率，还降低了选择到低质量数据的风险。

三、技术实现的精妙之处：数学美学与现实需求的完美融合

DaSH的技术实现可以说是数学美学与工程实用性的完美结合。整个系统基于一个优雅的概率模型，但这个模型的每个组件都有清晰的现实意义和直觉解释。

在DaSH的世界里，每个数据组都有一个"潜在质量参数"θi，这个参数就像是该数据组的"DNA"，决定了这个组整体的数据质量水平。同样，每个具体的数据集也有自己的质量参数θi,j，但这个参数并不是完全独立的，而是在其所属数据组的影响下形成的。

这种建模方式体现了一个重要的现实观察：虽然来自同一机构或同一领域的数据集各有特色，但它们往往会呈现出某种家族相似性。比如，来自同一家医院的不同科室数据集，虽然关注的疾病类型不同，但在数据采集标准、图像质量、标注规范等方面通常会有相似的特征。

算法的选择过程分为两个步骤，这个过程就像是一个理性的决策者在面对复杂选择时的思考路径。首先，算法会评估所有数据组的当前"吸引力"。这个吸引力不仅取决于该组历史上的表现，还会考虑算法对该组认知的不确定性。在机器学习的术语中，这被称为"探索与利用的平衡"——算法既要选择已知表现良好的数据组（利用），也要给那些还没有充分探索的数据组一些机会（探索）。

一旦选定了数据组，算法就会在该组内部进行精细化选择。这个过程同样遵循探索与利用的原则，但现在的决策空间大大缩小了，使得算法可以进行更加细致的评估和比较。

DaSH的数学框架还有一个巧妙的特性：它能够自动调节探索的强度。当算法对某个数据组的认知还很模糊时，它会保持相对开放的态度，给不同的数据集更多的尝试机会。但随着观察数据的增加，算法的认知会逐渐收敛，选择会变得更加确定和集中。这种自适应的探索策略确保了算法既不会过早收敛到次优解，也不会无休止地进行低效探索。

从计算复杂度的角度来看，DaSH展现出了明显的效率优势。传统的平面选择方法需要在每一步都评估所有候选数据集，其计算复杂度随着数据集总数线性增长。而DaSH的层次化设计使得每一步的计算复杂度只与数据组的数量和所选组内数据集的数量有关，这通常比总的数据集数量要小得多。

更重要的是，DaSH的层次化学习能够实现信息的有效传播和复用。当算法从某个数据组获得反馈时，这个信息不仅会用于更新对具体数据集的评估，还会用于更新对整个数据组的评估，从而影响对该组其他数据集的期望。这种信息传播机制大大减少了算法达到良好性能所需的样本数量，使得DaSH能够在有限的探索步数内找到高质量的数据集。

四、实验验证：理论与实践的完美印证

为了验证DaSH的有效性，研究团队在两个广泛使用的公开数据集上进行了全面的实验验证。这两个数据集——DIGIT-FIVE和DOMAINNET——就像是数据选择领域的"标准测试场"，被众多研究者用来评估和比较不同的方法。

DIGIT-FIVE数据集包含了来自五个不同领域的手写数字图像：MNIST（干净的灰度手写数字）、MNIST-M（带有复杂背景的数字图像）、USPS（来自邮件扫描的数字图像）、SVHN（真实街景中的门牌号数字）和SYN（合成的数字图像）。虽然都是数字识别任务，但这些数据的风格、质量和特征分布存在显著差异，就像是同一道菜的不同烹饪方法。

DOMAINNET数据集则更加多样化，包含了四个不同风格的物体识别数据：CLIPART（剪贴画风格）、QUICKDRAW（简笔画风格）、REAL（真实照片）和SKETCH（手绘素描）。这个数据集的挑战在于，不同风格之间的差异更加明显，就像是在比较油画、素描、摄影和卡通画。

研究团队设计了三种不同的数据分组策略来测试DaSH在不同场景下的表现。第一种是"完美分组"，将来自同一领域的数据集归为一组，这模拟了理想情况下的数据组织方式。第二种是"混合分组"，将来自不同领域的数据集混合组织，这更接近现实中数据组织可能存在的不完美情况。第三种是"跨领域分组"，故意将数据集进行"错误"的组织，用来测试DaSH在极端情况下的鲁棒性。

实验结果令人印象深刻。在DIGIT-FIVE数据集上，DaSH的平均准确率达到了78.3%，几乎与使用所有相关数据训练的全局模型性能（78.8%）相当，而显著超过了仅使用本地数据的基准性能（51.2%）。更重要的是，DaSH在所有五个子任务上都表现稳定，标准差很小，这说明方法具有良好的可靠性。

与其他先进的数据选择方法相比，DaSH的优势更加明显。比如，FreeSel方法的平均性能比DaSH低了25.8个百分点，ActiveFT和BiLAF方法也分别落后26.2和20.4个百分点。这些巨大的性能差距清晰地表明了层次化建模的价值。

特别值得注意的是，那些传统方法在某些任务上甚至出现了性能下降的情况。比如在MNIST-M和SYN任务上，其他方法选择的数据不仅没有帮助，反而降低了模型性能。这种现象在数据选择领域被称为"负迁移"，即选择了不合适的数据后，模型性能反而不如不添加任何外部数据。DaSH之所以能够避免这个陷阱，正是因为它的层次化建模能够更好地识别和避免低质量或不相关的数据源。

在DOMAINNET数据集上，虽然所有方法的性能差距相对较小（因为数据预处理使用了共同的特征提取器），但DaSH仍然保持了3.3到10.8个百分点的领先优势。这进一步验证了DaSH在不同类型任务上的通用性和鲁棒性。

研究团队还进行了详细的消融实验来分析DaSH各个组件的贡献。他们比较了完整的DaSH方法与其非层次化版本（称为DaS-flat）的性能差异。结果显示，层次化建模带来的性能提升是显著且一致的。在大多数任务上，DaSH不仅能够达到更高的最终性能，还能够用更少的探索步数达到相同的性能水平。

特别有趣的是关于分组策略的实验结果。即使在"混合分组"的情况下（数据集被故意组织得不太合理），DaSH的性能下降也很有限，通常在1-2个百分点以内。这表明DaSH具有相当的鲁棒性，即使在数据组织不完美的现实环境中也能保持良好的性能。

研究团队还测试了DaSH在极端条件下的表现。他们故意构造了一个"无有用数据"的场景，即候选数据池中不包含任何对目标任务有用的数据集。在这种情况下，DaSH表现出了良好的"自知之明"——算法能够正确识别出数据池的无用性，所有数据集的后验评分都保持在较低水平，避免了错误的选择决策。

五、方法优势的深度剖析：为什么DaSH如此有效

DaSH之所以能够在数据选择任务中展现出如此优异的性能，背后有着深刻的方法论优势和理论支撑。

首先是信息利用效率的提升。传统方法在评估每个数据集时都是孤立进行的，就像是在黑暗中摸索，每次只能获得关于单个数据集的信息。而DaSH通过层次化建模，能够将对单个数据集的观察转化为对整个数据组的认知更新。这种信息传播机制使得算法能够用更少的尝试次数获得更多的有用信息。

具体来说，当DaSH从某个医院的CT扫描数据集中获得正面反馈时，这个信息不仅会提高对该特定数据集的评价，还会提升对该医院其他医学影像数据集（如X光片、MRI等）的期望值。这种"一荣俱荣"的机制大大加速了高质量数据源的发现过程。

其次是搜索空间的有效约简。在面对大规模数据集池时，全面探索是不现实的。DaSH通过先选择数据组，再在组内选择具体数据集的策略，将一个大规模的搜索问题分解为两个相对较小的子问题。这种分而治之的策略不仅降低了计算复杂度，还提高了搜索的针对性和效率。

DaSH的另一个重要优势是对不确定性的优雅处理。在现实的数据选择场景中，算法面临的是一个充满不确定性的环境——既不知道哪些数据集是有用的，也不知道它们的相对价值如何。DaSH通过贝叶斯框架，将这种不确定性显式地建模到算法中，使得算法能够在探索和利用之间找到最优平衡。

当算法对某个数据组的认知还很模糊时（不确定性高），它会倾向于进行更多的探索，给该组内不同数据集更多的尝试机会。随着观察数据的增加，算法的认知逐渐变得确定，选择策略也会相应地从探索转向利用。这种自适应的行为使得DaSH能够在不同阶段采用最合适的策略。

从数据质量控制的角度来看，DaSH展现出了优秀的"品质意识"。传统方法往往会被个别高质量样本误导，从而选择整体质量一般的数据集。而DaSH通过层次化评估，能够更准确地评估数据源的整体质量水平。如果某个数据组中的多个数据集都表现不佳，算法会快速降低对该组的评价，避免在低质量数据源上浪费更多时间。

DaSH还表现出了良好的可扩展性。随着数据集数量的增加，DaSH的计算复杂度增长是亚线性的，这主要得益于其层次化的设计。在研究团队的扩展性实验中，即使将候选数据集的数量从15个增加到51个，DaSH所需的探索步数也只是亚线性增长，同时性能还有进一步提升。

从实际应用的角度来看，DaSH还具有很好的可解释性。算法的决策过程是透明的——先选择哪个数据组，再选择组内的哪个数据集，每一步都有明确的理由和依据。这种可解释性在实际部署中非常重要，因为数据科学家需要理解算法的选择逻辑，并能够根据具体需求进行调整。

值得特别提到的是DaSH对"负迁移"问题的有效防范。负迁移是数据选择领域的一个重要挑战，指的是添加某些外部数据后，模型性能反而下降的现象。这通常是因为选择了与目标任务不匹配或质量较差的数据。DaSH通过层次化的质量评估，能够更有效地识别和避免这类有害数据，从而保证数据选择的正面效果。

六、现实应用前景：从实验室到产业的桥梁

DaSH不仅仅是一个学术研究成果，它更是一个具有广阔实际应用前景的技术方案。在数字化时代，几乎每个需要处理大量数据的组织都可能从这项技术中受益。

在医疗健康领域，DaSH的应用潜力特别值得关注。现代医疗机构面临着海量且多样化的医疗数据，包括来自不同医院的病历、影像、检验报告等。这些数据的质量、格式和标准往往存在显著差异。使用DaSH，医疗AI系统可以智能地选择最相关、最高质量的数据来训练诊断模型，而不是简单地将所有可获得的数据混合在一起。

考虑这样一个场景：一家医院想要开发一个肺癌筛查的AI系统，可以从多家合作医院获得CT扫描数据。传统方法可能会随机选择一些样本进行训练，但DaSH可以智能地识别出哪些医院的数据质量更高、更适合特定的任务需求。比如，某家专科医院的数据可能在早期肺癌检测方面特别有价值，而另一家医院的数据可能在良恶性判断方面更有优势。

在自动驾驶领域，DaSH同样具有重要价值。自动驾驶系统需要在各种天气、道路和交通条件下都能可靠工作，这需要大量多样化的训练数据。不同地区、不同时间、不同传感器采集的数据往往具有不同的特征和质量。DaSH可以帮助自动驾驶公司从全球各地的数据收集点中智能选择最有价值的数据，优化模型在特定场景下的性能。

金融行业也是DaSH的重要应用领域。金融机构经常需要从多个数据源（市场数据、客户数据、第三方数据等）中选择训练数据来开发风控模型、投资策略或客户服务系统。不同数据源的及时性、准确性和相关性可能差异很大，DaSH可以帮助金融机构建立更加精准和可靠的选择机制。

在科学研究领域，DaSH的应用前景同样广阔。现代科学研究越来越依赖于跨机构、跨国界的数据合作。比如在气候变化研究中，科学家需要整合来自全球各地气象站、卫星、海洋浮标等多种来源的数据。DaSH可以帮助研究人员智能地选择最相关、最可靠的数据源，提高研究结果的质量和可信度。

从商业角度来看，DaSH技术还可能催生新的商业模式。数据交易平台可以集成DaSH技术，为数据买方提供智能推荐服务，帮助他们从海量的数据产品中找到最适合自己需求的数据集。这不仅提高了数据交易的效率，还能够促进数据价值的更好实现。

云计算平台也是DaSH技术的重要应用场景。现在的云平台都提供了大量的公开数据集和预训练模型，但用户往往难以选择最适合自己任务的数据。集成DaSH技术的云平台可以为用户提供个性化的数据推荐服务，大大降低数据科学项目的门槛。

在教育技术领域，DaSH可以帮助在线教育平台从海量的学习数据中选择最有助于提升特定学生群体学习效果的训练样本，从而开发更加个性化和有效的教学系统。

需要注意的是，DaSH技术的广泛应用也带来了一些需要考虑的问题。首先是数据隐私和安全问题。在选择和使用多源数据时，必须确保符合相关的数据保护法规和伦理要求。其次是算法公平性问题。需要确保DaSH的选择机制不会引入或放大现有的偏见和歧视。

此外，DaSH技术的有效性在很大程度上依赖于数据的合理组织和分类。这要求数据提供方能够提供准确的元数据信息，包括数据来源、采集方法、质量指标等。建立标准化的数据描述框架将是DaSH技术大规模应用的重要前提。

七、技术发展的未来方向：无限可能的探索空间

虽然DaSH已经在数据选择领域取得了显著进展，但这仅仅是这个研究方向的开始。研究团队在论文中提到了几个值得进一步探索的方向，这些方向不仅具有学术价值，更有望推动技术向更加实用和强大的方向发展。

首先是多目标优化的扩展。当前的DaSH主要关注模型准确性这一单一目标，但在实际应用中，数据选择往往需要考虑多个相互竞争的目标。比如，除了准确性之外，还可能需要考虑公平性、鲁棒性、训练效率、推理速度等因素。未来的研究可以将DaSH扩展为多目标优化框架，使其能够在多个维度上进行权衡和优化。

公平性是一个特别重要的考虑因素。在选择训练数据时，需要确保不同群体都能得到公平的代表，避免算法偏见的产生或放大。DaSH的层次化框架为处理这个问题提供了天然的优势——可以在数据组层面引入公平性约束，确保来自不同群体或地区的数据都能得到适当的考虑。

动态适应是另一个重要的发展方向。当前的DaSH假设数据集的质量和相关性是静态的，但在现实中，这些特性可能会随时间发生变化。比如，某个数据源的质量可能因为采集设备的更新而提升，或者因为标注人员的变动而下降。未来的研究可以开发动态版本的DaSH，使其能够实时适应这些变化。

跨模态数据处理也是一个有前景的扩展方向。当前的研究主要关注单一模态的数据（如图像或文本），但在实际应用中，往往需要处理多模态数据。比如，在医疗诊断中可能需要同时考虑影像数据、文本病历和数值化的检验结果。扩展DaSH以处理跨模态数据选择将大大拓展其应用范围。

联邦学习环境下的数据选择是另一个重要的研究方向。在联邦学习中，数据分布在多个参与方那里，无法直接访问。在这种设定下，如何进行有效的数据选择是一个全新的挑战。DaSH的层次化思想可能为解决这个问题提供新的思路——可以在不暴露具体数据的情况下，通过协作学习来评估不同数据源的价值。

从技术实现的角度来看，还有很多值得探索的优化方向。比如，可以研究更加高效的贝叶斯推理算法，或者开发基于深度学习的数据价值评估方法。这些技术改进可能会进一步提升DaSH的性能和可扩展性。

人机协作也是一个有意思的研究方向。虽然DaSH能够自动进行数据选择，但在实际应用中，领域专家的知识和直觉往往是非常宝贵的。研究如何将专家知识有效地融入到DaSH的决策过程中，可能会产生更加强大和可信的数据选择系统。

从应用场景的角度来看，还有很多领域等待DaSH技术的探索。比如在自然语言处理领域，如何从海量的文本语料中选择最适合特定任务的训练数据；在时间序列预测中，如何选择最相关的历史数据；在推荐系统中，如何选择最有价值的用户行为数据等等。

标准化和基准测试也是推动这个领域发展的重要工作。建立统一的评估标准、公开的测试数据集和标准化的比较框架，将有助于不同研究组之间的交流合作，促进技术的快速发展。

说到底，DaSH代表的不仅仅是一个具体的算法，更是一种新的思维方式——用层次化的观点来理解和处理数据选择问题。这种思维方式的影响可能会远远超出数据选择这个具体问题，为整个机器学习和人工智能领域带来新的启发和突破。

随着数据规模的继续增长和应用场景的不断扩展，智能化的数据选择技术将变得越来越重要。DaSH及其未来的发展方向，很可能会成为这个技术演进过程中的重要里程碑，为构建更加智能、高效和可靠的AI系统提供关键支撑。

说到底，这项研究告诉我们一个简单而深刻的道理：在数据的海洋中，找到真正有价值的珍珠，需要的不仅仅是耐心和运气，更需要智慧的方法和系统的思考。DaSH正是这样一种智慧方法的体现，它让我们看到了在大数据时代如何更加科学和高效地处理数据选择这个基础性问题。虽然技术还在不断发展中，但这个方向的前景无疑是充满希望的。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2512.10952v1查询这篇发表于2025年12月AAAI会议的完整研究论文。

Q&A

Q1：DaSH数据选择方法与传统数据选择方法有什么本质区别？

A：传统方法就像在食材市场里逐个品尝每种食材，而DaSH更像经验丰富的采购经理，既评估具体食材质量，更考虑供应商整体信誉。DaSH将数据选择建模为两层决策：先选择数据组（供应商），再选择具体数据集（产品），能够利用数据的天然层次结构，大大提升选择效率和准确性。

Q2：DaSH方法在实际应用中能带来多大的性能提升？

A：根据研究团队的实验结果，DaSH在DIGIT-FIVE数据集上比其他先进方法高出20-26个百分点的准确率，在DOMAINNET上也有3-11个百分点的提升。更重要的是，DaSH能避免"负迁移"问题，即选择错误数据导致性能下降的情况，同时需要的探索步数也显著减少。

Q3：什么样的场景最适合使用DaSH数据选择方法？

A：DaSH特别适合需要从多个机构、多个来源获取数据的场景，比如医疗机构间的数据合作、多地区交通数据整合、跨国科研数据共享等。只要数据具有天然的层次结构（按来源、机构或主题组织），且需要在大量候选数据中进行选择，DaSH都能发挥显著优势。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.