网易首页 > 网易号 > 正文 申请入驻

如何划分数据集?

0
分享至

在机器学习项目开发中,合理划分训练集、验证集和测试集是构建高性能模型的关键前置步骤。这一过程不仅影响模型训练效率,更直接关系到模型泛化能力的评估可靠性。本文将系统阐述数据集划分的核心原则、方法论及实践技巧,帮助数据科学家建立科学的数据分割框架。

一、数据集划分的核心目标

  1. 模型训练需求训练集需足够大以捕捉数据分布特征,同时保留代表性样本供后续验证。典型比例建议:
  • 小规模数据(<1万样本):60%训练/20%验证/20%测试
  • 中等规模数据(1万-10万样本):70%训练/15%验证/15%测试
  • 大规模数据(>10万样本):80%训练/10%验证/10%测试
  1. 验证集的核心作用验证集作为超参数调优的"试金石",需满足:
  • 独立于训练集,防止过拟合
  • 保持与测试集相似的分布特征
  • 容量足够支撑多轮实验(建议≥1000样本)
  1. 测试集的终极使命作为模型性能的"终极裁判",必须严格遵守:
  • 单次使用原则:仅在最终模型选择时使用
  • 完全隔离:整个开发周期不可接触测试集
  • 分布一致性:与实际应用场景数据分布严格对齐
二、经典划分方法论



1. 简单随机划分法

适用场景:数据量充足且分布均匀的场景
实现步骤

python

from sklearn.model_selection import train_test_split

# 初级划分:训练+临时集

X_train, X_temp, y_train, y_temp = train_test_split(

X, y, test_size=0.3, stratify=y, random_state=42

# 二次划分:临时集→验证+测试

X_val, X_test, y_val, y_test = train_test_split(

X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42

关键参数

  • stratify:保证类别比例一致
  • random_state:确保可重复性
  • 推荐两阶段划分法,避免单次随机分割的偶然性
2. 分层抽样策略

核心价值:解决类别不平衡问题
实施要点

  • 分类任务:保持各分类在各子集中的比例
  • 回归任务:按分位数区间进行分层
  • 特殊场景处理:医疗数据:按疾病严重程度分层金融风控:按违约概率分层
3. 时间序列划分法

适用场景:时序预测、股票预测等场景
划分原则

  • 严格按时间顺序切割
  • 验证集选择最近时间窗口
  • 测试集需包含模型部署后的真实数据示例方案
  • 训练集:2010-2018年
  • 验证集:2019年
  • 测试集:2020年(滚动预测需保留未来时间点)
4. 交叉验证增强方案

适用场景:数据量有限(<5000样本)时
进阶方案

  • 嵌套交叉验证:外层评估模型选择,内层调参
  • 时间序列交叉验证:扩展Rolling Origin Validation
  • 群体划分:按用户ID分组进行GroupKFold
三、特殊场景处理方案1. 小样本数据集(<1000样本)

挑战:传统划分导致子集代表性不足
解决方案

  • 留一法交叉验证(Leave-One-Out)
  • 蒙特卡洛交叉验证(重复随机划分)
  • 数据增强:生成对抗网络(GAN)合成数据
2. 图像识别任务

特殊要求

  • 保持物体方向/光照条件分布一致
  • 推荐分层+随机组合策略
  • 测试集需包含未见过的类别(Open Set识别场景)
3. NLP任务处理

关键考量

  • 文本长度分布一致性
  • 保留完整的语义单元(如按文档划分)
  • 测试集需包含领域外数据(Domain Adaptation场景)
四、划分质量评估体系1. 分布一致性检验

量化指标

  • KL散度:衡量概率分布差异
  • Wasserstein距离:评估分布位移程度
  • 类别比例方差:分类任务必需检查项

可视化工具

  • 分布直方图对比
  • t-SNE降维可视化
  • 累积分布函数(CDF)图
2. 泄漏检测机制

常见泄漏源

  • 时间戳信息泄露
  • 唯一标识符(如用户ID)
  • 预处理特征包含目标信息检测方法
  • 互信息分析:特征与目标的关联性
  • 特征重要性排序:验证集特征是否被模型过度利用
五、工程实践建议
  1. 划分顺序规范推荐流程:原始数据 → 训练集(60-80%) → 验证集(10-20%) → 测试集(10-20%)关键原则:先划分测试集,再处理剩余数据
  2. 版本控制策略
  • 为每个划分结果生成唯一hash标识
  • 记录划分参数(随机种子、分层字段等)
  • 使用DVC等工具管理数据版本
  1. 动态划分方案适用场景:持续学习系统实现要点
  • 滑动窗口机制更新训练集
  • 定期刷新验证集(季度/年度)
  • 隔离测试集永不更新
六、常见错误案例解析1. 错误案例:验证集污染

现象:使用测试集特征进行特征选择
后果:模型在测试集上过拟合
修复方案:建立三阶段划分流程,严格隔离各集合

2. 错误案例:时间穿越

现象:股票预测模型使用未来数据训练
后果:实盘交易时模型失效
修复方案:强制按时间戳排序后划分

3. 错误案例:类别泄漏

现象:用户聚类任务中,同一用户数据分布在多个集合
后果:模型评估结果虚高
修复方案:按用户ID进行GroupKFold划分

七、前沿研究方向

  1. 自适应划分算法基于数据分布动态调整划分比例,如使用聚类算法识别边界样本
  2. 隐私保护划分差分隐私技术在数据划分中的应用,防止敏感信息泄露
  3. 主动学习集成通过不确定性采样动态选择验证集样本,提升调参效率

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河北网友爆料村口标语,举报散煤奖2千!种地一年不够取暖费?

河北网友爆料村口标语,举报散煤奖2千!种地一年不够取暖费?

你食不食油饼
2026-01-06 17:13:14
闫学晶报应来了!代言品牌或要解约,评论区沦陷,春晚节目疑落空

闫学晶报应来了!代言品牌或要解约,评论区沦陷,春晚节目疑落空

小徐讲八卦
2026-01-06 08:32:20
特朗普声称美国已“掌控”委内瑞拉?委代总统:未受外部势力统治

特朗普声称美国已“掌控”委内瑞拉?委代总统:未受外部势力统治

财联社
2026-01-07 08:44:51
心脏装了6个支架的王石日本看病实录,值得深思

心脏装了6个支架的王石日本看病实录,值得深思

深度报
2026-01-01 23:17:29
2026年变天了!中国生存法则彻底变了!

2026年变天了!中国生存法则彻底变了!

水木然
2026-01-05 23:12:52
白宫直说了:拿下格陵兰岛,不惜动武

白宫直说了:拿下格陵兰岛,不惜动武

观察者网
2026-01-07 08:15:10
海信发布136英寸巨型MicroLED电视:2488万颗LED灯 亮度可达10000尼特

海信发布136英寸巨型MicroLED电视:2488万颗LED灯 亮度可达10000尼特

快科技
2026-01-06 10:10:07
1985年,李讷带丈夫去买车,厂长盯着她的脸看了半天,死活不肯收钱,结果她接下来的举动,让在场所有人都红了脸

1985年,李讷带丈夫去买车,厂长盯着她的脸看了半天,死活不肯收钱,结果她接下来的举动,让在场所有人都红了脸

桃烟读史
2026-01-07 01:02:14
马斯克一句话,全网炸了:我们可能真的进入了“奇点”

马斯克一句话,全网炸了:我们可能真的进入了“奇点”

AI范儿
2026-01-05 11:46:03
美媒披露:马杜罗夫妇躲避美军时撞伤头部

美媒披露:马杜罗夫妇躲避美军时撞伤头部

参考消息
2026-01-07 14:07:04
赖清德想向大陆摊牌,郑丽文直接变脸了,解放军或有大动作

赖清德想向大陆摊牌,郑丽文直接变脸了,解放军或有大动作

南宫一二
2026-01-04 17:27:53
委国和伊朗同时生乱,普京军师:它俩一旦倒台,中国将就是下一个

委国和伊朗同时生乱,普京军师:它俩一旦倒台,中国将就是下一个

王裕庆
2026-01-07 17:05:05
金日成,已任浙江大学特聘研究员、博士生导师

金日成,已任浙江大学特聘研究员、博士生导师

双一流高校
2026-01-07 07:58:46
中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

知法而形
2026-01-07 16:52:08
揭秘尼姑庵的黑暗面:尼姑平均年龄不到25,香客人来人往究竟为何

揭秘尼姑庵的黑暗面:尼姑平均年龄不到25,香客人来人往究竟为何

丰谭笔录
2026-01-06 11:40:49
32岁未婚独生女重度抑郁了!父母双亡,只留下一套房和160万存款

32岁未婚独生女重度抑郁了!父母双亡,只留下一套房和160万存款

火山詩话
2026-01-05 08:57:12
50岁安吉丽娜·朱莉出售洛杉矶2450万美元豪宅,被曝计划移居,“或为摆脱与前夫布拉德·皮特的纠葛”

50岁安吉丽娜·朱莉出售洛杉矶2450万美元豪宅,被曝计划移居,“或为摆脱与前夫布拉德·皮特的纠葛”

鲁中晨报
2026-01-07 15:57:25
国外网友曝光外卖app各种极限压榨用户和外卖员的骚操作... 然而,这居然是个局??

国外网友曝光外卖app各种极限压榨用户和外卖员的骚操作... 然而,这居然是个局??

英国那些事儿
2026-01-06 23:28:34
2换1!曝蓉城送中场核心+铁卫去深圳新鹏城,将换来当红国脚前锋

2换1!曝蓉城送中场核心+铁卫去深圳新鹏城,将换来当红国脚前锋

体坛鉴春秋
2026-01-07 13:23:47
浓眉19+16独行侠逆转送国王6连败 弗拉格20+8+6关键一传

浓眉19+16独行侠逆转送国王6连败 弗拉格20+8+6关键一传

醉卧浮生
2026-01-07 14:40:55
2026-01-07 18:40:49
每天五分钟玩转人工智能 incentive-icons
每天五分钟玩转人工智能
没有梦想和神经网络有什么区别
473文章数 53关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

委官员:美军原本只强掳马杜罗 马杜罗妻子要求一起走

头条要闻

委官员:美军原本只强掳马杜罗 马杜罗妻子要求一起走

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

教育
艺术
亲子
家居
手机

教育要闻

【喜讯】C 计划《学会思考》入选财新传媒 2025 教育书单啦!

艺术要闻

David Grossmann:不一样的风景画

亲子要闻

女婴出生长了4条腿,父母在医院哭晕,姑姑的做法感动无数人

家居要闻

宁静不单调 恰到好处的美

手机要闻

消息称realme真我回归OPPO越级定位不变,将接入全国门店网点

无障碍浏览 进入关怀版