- 博客(11)
- 收藏
- 关注
原创 实战:自定义时序数据集的预处理与插补
本文演示了如何使用PyPOTS框架对合成eICU医疗时间序列数据进行预处理和缺失值插补。首先将原始数据标准化为三维张量格式(n_samples, n_steps, n_features),通过填充/截断保持48个时间步的统一长度。然后采用SAITS模型进行插补训练,该模型采用Transformer架构,可调整ORT和MIT权重参数。实验结果显示测试集平均绝对误差为0.1936,验证了插补效果。最后将处理后的三维数据还原为DataFrame格式,包含样本ID、时间戳、特征和标签,并保存为CSV文件供后续分析使
2025-05-27 14:08:58
742
原创 时序预测下游任务的端到端学习
本文探讨了端到端学习在时序数据分析中的优势,以PhysioNet2012数据集为例演示了使用BRITS模型进行端到端分类的完整流程。传统两阶段方法(先插补后建模)可能丢失缺失模式中的有用信息,而端到端方法能直接利用原始数据(包括缺失值)进行学习,具有更大潜力。实验部分详细展示了数据加载、模型训练和评估过程,最终BRITS模型在测试集上取得了0.5823的ROC-AUC和0.4272的PR-AUC。虽然性能有待提升,但验证了端到端方法的可行性。
2025-05-25 15:23:41
211
原创 时序预测下游任务的两阶段处理
本文介绍了时序数据处理的两阶段方法,并实现了基于LSTM的分类模型。首先解释了时序数据常存在缺失值、异常点等问题,需要先进行预处理(第一阶段)再进行建模(第二阶段)。然后详细展示了LSTM分类器的实现过程:1) 构建自定义数据集类处理填补后的数据;2) 设计LSTM模型结构,使用最后一个时间步的隐藏状态进行分类;3) 实现训练流程,包含早停机制和优化器设置;4) 加载Physionet2012数据集并训练模型。最终在测试集上评估不平衡二分类任务,报告了ROC-AUC和PR-AUC指标。代码采用PyTorch
2025-05-24 16:32:40
724
原创 时间序列插补工作流
时间序列插补是处理缺失数据的重要步骤,旨在通过合理方法填补数据空白,确保后续分析的准确性。本文以PhysioNet2012数据集为例,展示了使用SAITS模型进行时间序列插补的完整流程。
2025-05-23 17:54:11
253
原创 注意力机制与多头注意力(Multi-Head Attention)详解
注意力机制是一种让模型动态关注输入数据关键部分的技术,类似于人类在阅读时聚焦重要信息。其核心是通过权重分配决定不同输入对当前处理的贡献。
2025-05-23 17:35:09
322
原创 布尔掩码(Boolean Mask)
布尔掩码是由True和False组成的数组,其形状与原数据一致,用于标记满足特定条件的数据位置,如缺失值、特定数值或文本等。通过NumPy库,可以利用布尔掩码处理NaN值。核心步骤包括:使用np.isnan()生成布尔掩码标记NaN位置,通过异或运算(^)比较两个掩码以找出NaN位置的变化,再通过逻辑与(&)分离出新增或修复的NaN位置。这种方法适用于数据清洗监控、数据质量分析和异常检测等场景,帮助跟踪和处理数据集中的缺失值变化。
2025-05-23 16:51:58
325
原创 模拟实现strncpy
对于两个数组arr1和arr2,要实现把arr2拷贝到arr1上,引入一个函数my_strncpy,传入的参数为arr1和arr2数组名以及要拷贝的字符长度,引入参数start,用while语句,并且将*src的值赋值给 *dest,然后src++,dest++,这样循环下去,直到src指向空字符.由图易知char*strncpy(char*destination, const char * source, size_t num);比函数strcpy多传入了参数num,用来限定复制的字符串的位数。
2024-04-01 22:54:58
126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人