时序数据在金融、运营、工程和研究领域无处不在,但处理这类数据有一组绕不开的重复任务:原始数据时间戳不规则需要重采样,异常尖峰需要识别,趋势和季节性要从噪声中分离,多序列之间的关系也不能只靠肉眼判断。
这里提供五个Python脚本,专门处理这些高频出现的时序任务。它们直接对接标准CSV或Excel输入,输出干净的结果,配置起来也不复杂。完整代码已放在GitHub上。
![]()
脚本1:不规则时序的重采样与聚合
真实世界的时序数据很少均匀到达。传感器读数、交易日志、事件流都有间隔、重复和时间戳不一致的问题。有意义的分析之前,必须先对齐到统一频率。
这个脚本接收带时间戳列和数值列的CSV或Excel文件,按你指定的频率重采样,并对每列应用聚合函数。它会填充或标记空缺,输出干净文件,附带变更摘要。
具体实现上,脚本用pandas解析时间戳列设为索引,通过resample()配合可配置频率字符串处理。每列的聚合方法在配置中单独定义——温度列可以用均值,销售额列用求和。重采样后的缺失间隔按设置选择前向填充、插值或显式NaN标记。最后生成空缺报告,列出原始数据中所有无数据的区间。
脚本2:时序数据异常检测
单个异常尖峰或下跌就能扭曲均值、破坏下游模型、掩盖真实趋势。靠扫描图表或原始值来手动识别,数据量稍大就不现实。
这个脚本扫描时序文件中的一个或多个数值列,用三种方法之一标记超出预期范围的数据点:z-score、四分位距(IQR)或滚动统计。输出带异常标记的注释文件,另附独立摘要报告。
z-score方法标记标准化值超过可配置阈值(默认±3)的点。IQR方法标记超出1.5倍四分位距的点。滚动方法则在可配置窗口上计算移动均值和标准差,标记与局部上下文显著偏离的点——这对趋势强烈的序列特别有用。
(注:原文在此处截断,后续脚本3-5内容未提供)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.