网易首页 > 网易号 > 正文 申请入驻

如何划分数据集?

0
分享至

在机器学习项目开发中,合理划分训练集、验证集和测试集是构建高性能模型的关键前置步骤。这一过程不仅影响模型训练效率,更直接关系到模型泛化能力的评估可靠性。本文将系统阐述数据集划分的核心原则、方法论及实践技巧,帮助数据科学家建立科学的数据分割框架。

一、数据集划分的核心目标

  1. 模型训练需求训练集需足够大以捕捉数据分布特征,同时保留代表性样本供后续验证。典型比例建议:
  • 小规模数据(<1万样本):60%训练/20%验证/20%测试
  • 中等规模数据(1万-10万样本):70%训练/15%验证/15%测试
  • 大规模数据(>10万样本):80%训练/10%验证/10%测试
  1. 验证集的核心作用验证集作为超参数调优的"试金石",需满足:
  • 独立于训练集,防止过拟合
  • 保持与测试集相似的分布特征
  • 容量足够支撑多轮实验(建议≥1000样本)
  1. 测试集的终极使命作为模型性能的"终极裁判",必须严格遵守:
  • 单次使用原则:仅在最终模型选择时使用
  • 完全隔离:整个开发周期不可接触测试集
  • 分布一致性:与实际应用场景数据分布严格对齐
二、经典划分方法论



1. 简单随机划分法

适用场景:数据量充足且分布均匀的场景
实现步骤

python

from sklearn.model_selection import train_test_split

# 初级划分:训练+临时集

X_train, X_temp, y_train, y_temp = train_test_split(

X, y, test_size=0.3, stratify=y, random_state=42

# 二次划分:临时集→验证+测试

X_val, X_test, y_val, y_test = train_test_split(

X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42

关键参数

  • stratify:保证类别比例一致
  • random_state:确保可重复性
  • 推荐两阶段划分法,避免单次随机分割的偶然性
2. 分层抽样策略

核心价值:解决类别不平衡问题
实施要点

  • 分类任务:保持各分类在各子集中的比例
  • 回归任务:按分位数区间进行分层
  • 特殊场景处理:医疗数据:按疾病严重程度分层金融风控:按违约概率分层
3. 时间序列划分法

适用场景:时序预测、股票预测等场景
划分原则

  • 严格按时间顺序切割
  • 验证集选择最近时间窗口
  • 测试集需包含模型部署后的真实数据示例方案
  • 训练集:2010-2018年
  • 验证集:2019年
  • 测试集:2020年(滚动预测需保留未来时间点)
4. 交叉验证增强方案

适用场景:数据量有限(<5000样本)时
进阶方案

  • 嵌套交叉验证:外层评估模型选择,内层调参
  • 时间序列交叉验证:扩展Rolling Origin Validation
  • 群体划分:按用户ID分组进行GroupKFold
三、特殊场景处理方案1. 小样本数据集(<1000样本)

挑战:传统划分导致子集代表性不足
解决方案

  • 留一法交叉验证(Leave-One-Out)
  • 蒙特卡洛交叉验证(重复随机划分)
  • 数据增强:生成对抗网络(GAN)合成数据
2. 图像识别任务

特殊要求

  • 保持物体方向/光照条件分布一致
  • 推荐分层+随机组合策略
  • 测试集需包含未见过的类别(Open Set识别场景)
3. NLP任务处理

关键考量

  • 文本长度分布一致性
  • 保留完整的语义单元(如按文档划分)
  • 测试集需包含领域外数据(Domain Adaptation场景)
四、划分质量评估体系1. 分布一致性检验

量化指标

  • KL散度:衡量概率分布差异
  • Wasserstein距离:评估分布位移程度
  • 类别比例方差:分类任务必需检查项

可视化工具

  • 分布直方图对比
  • t-SNE降维可视化
  • 累积分布函数(CDF)图
2. 泄漏检测机制

常见泄漏源

  • 时间戳信息泄露
  • 唯一标识符(如用户ID)
  • 预处理特征包含目标信息检测方法
  • 互信息分析:特征与目标的关联性
  • 特征重要性排序:验证集特征是否被模型过度利用
五、工程实践建议
  1. 划分顺序规范推荐流程:原始数据 → 训练集(60-80%) → 验证集(10-20%) → 测试集(10-20%)关键原则:先划分测试集,再处理剩余数据
  2. 版本控制策略
  • 为每个划分结果生成唯一hash标识
  • 记录划分参数(随机种子、分层字段等)
  • 使用DVC等工具管理数据版本
  1. 动态划分方案适用场景:持续学习系统实现要点
  • 滑动窗口机制更新训练集
  • 定期刷新验证集(季度/年度)
  • 隔离测试集永不更新
六、常见错误案例解析1. 错误案例:验证集污染

现象:使用测试集特征进行特征选择
后果:模型在测试集上过拟合
修复方案:建立三阶段划分流程,严格隔离各集合

2. 错误案例:时间穿越

现象:股票预测模型使用未来数据训练
后果:实盘交易时模型失效
修复方案:强制按时间戳排序后划分

3. 错误案例:类别泄漏

现象:用户聚类任务中,同一用户数据分布在多个集合
后果:模型评估结果虚高
修复方案:按用户ID进行GroupKFold划分

七、前沿研究方向

  1. 自适应划分算法基于数据分布动态调整划分比例,如使用聚类算法识别边界样本
  2. 隐私保护划分差分隐私技术在数据划分中的应用,防止敏感信息泄露
  3. 主动学习集成通过不确定性采样动态选择验证集样本,提升调参效率

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国在这个技术上的突破,令俄罗斯失去最大市场,如今追悔莫及

中国在这个技术上的突破,令俄罗斯失去最大市场,如今追悔莫及

南风不及你温柔
2026-03-06 06:43:09
陪睡陪玩是冰山一角?制片人公开内涵关晓彤,暗指其角色来路不明

陪睡陪玩是冰山一角?制片人公开内涵关晓彤,暗指其角色来路不明

小徐讲八卦
2026-03-05 13:44:43
沉默8天后,国台办公开表态,开出两岸对话条件,赖清德口风变了

沉默8天后,国台办公开表态,开出两岸对话条件,赖清德口风变了

策略述
2026-03-05 18:05:19
三百名医生提醒:晨起喝温水对心脑血管的影响,建议抽一分钟看看

三百名医生提醒:晨起喝温水对心脑血管的影响,建议抽一分钟看看

垚垚分享健康
2026-03-06 10:40:08
6号收评:三大指数集体收涨!所有人都注意,大盘下周或将这样走

6号收评:三大指数集体收涨!所有人都注意,大盘下周或将这样走

春江财富
2026-03-06 15:24:23
台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

晨光苏醒a
2026-02-13 09:16:50
1979年,张国焘冻死在养老院,许世友:除了主席,没人是他的对手

1979年,张国焘冻死在养老院,许世友:除了主席,没人是他的对手

文史季季红
2026-03-05 13:35:03
中东战火越烧越旺,日本认清现实,急着抱团志同道合国家自保

中东战火越烧越旺,日本认清现实,急着抱团志同道合国家自保

流年顛簸
2026-03-06 15:08:57
绿军没想到,黄蜂这么狠!克努佩尔让全联盟惊醒

绿军没想到,黄蜂这么狠!克努佩尔让全联盟惊醒

扣篮达人
2026-03-06 09:35:42
谢娜祸不单行!被曝走红后甩掉刘烨,和张杰住在刘烨买的房子里

谢娜祸不单行!被曝走红后甩掉刘烨,和张杰住在刘烨买的房子里

古希腊掌管月桂的神
2026-03-04 09:26:31
厉害了!中东撤侨,中国直接把规矩立住:只认台胞证,只护中国人

厉害了!中东撤侨,中国直接把规矩立住:只认台胞证,只护中国人

丁丁鲤史纪
2026-03-05 12:47:32
深海猎杀时刻 美军MK-48重型鱼雷 如何击穿伊朗海军的最后防线

深海猎杀时刻 美军MK-48重型鱼雷 如何击穿伊朗海军的最后防线

武器知识
2026-03-06 00:15:03
速滑世锦赛|宁忠岩500米滑出个人最佳,总积分暂列第三

速滑世锦赛|宁忠岩500米滑出个人最佳,总积分暂列第三

北青网-北京青年报
2026-03-06 10:25:03
为何历史课本只教我们苟且一隅的南宋,却不提威震中亚的西辽?

为何历史课本只教我们苟且一隅的南宋,却不提威震中亚的西辽?

掠影后有感
2026-03-03 10:50:35
伊朗发射携带1吨重弹头的导弹打击以色列

伊朗发射携带1吨重弹头的导弹打击以色列

新华社
2026-03-05 19:08:15
特朗普这回真栽了!本想欺负伊朗,结果自家后院着火了。

特朗普这回真栽了!本想欺负伊朗,结果自家后院着火了。

南权先生
2026-03-06 15:13:23
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
短短两天内,伊朗大骗局露馅,最高领袖阵亡,美以双双栽跟头

短短两天内,伊朗大骗局露馅,最高领袖阵亡,美以双双栽跟头

面包夹知识
2026-03-02 17:21:21
狂轰17+10+4!郭士强关注男篮新星,有望取代焦泊乔,亮相世预赛

狂轰17+10+4!郭士强关注男篮新星,有望取代焦泊乔,亮相世预赛

小火箭爱体育
2026-03-06 11:10:45
战火蔓延中东多国,专家:伊朗很无奈,阿联酋最受伤,中东稳定“压舱石”承压

战火蔓延中东多国,专家:伊朗很无奈,阿联酋最受伤,中东稳定“压舱石”承压

红星新闻
2026-03-05 22:10:15
2026-03-06 16:04:49
每天五分钟玩转人工智能 incentive-icons
每天五分钟玩转人工智能
没有梦想和神经网络有什么区别
488文章数 54关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

经济主题记者会 潘功胜吴清等出席演讲

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

房产
旅游
艺术
本地
公开课

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

旅游要闻

昆明金殿第十届花朝盛会3月8日启幕 古风盛宴邀客共赏春

艺术要闻

敦煌壁画里的“动物世界”,温馨有爱!

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版