食死徒军师-CSDN博客

原创实战：自定义时序数据集的预处理与插补

本文演示了如何使用PyPOTS框架对合成eICU医疗时间序列数据进行预处理和缺失值插补。首先将原始数据标准化为三维张量格式(n_samples, n_steps, n_features)，通过填充/截断保持48个时间步的统一长度。然后采用SAITS模型进行插补训练，该模型采用Transformer架构，可调整ORT和MIT权重参数。实验结果显示测试集平均绝对误差为0.1936，验证了插补效果。最后将处理后的三维数据还原为DataFrame格式，包含样本ID、时间戳、特征和标签，并保存为CSV文件供后续分析使

2025-05-27 14:08:58 742

原创时序预测下游任务的端到端学习

本文探讨了端到端学习在时序数据分析中的优势，以PhysioNet2012数据集为例演示了使用BRITS模型进行端到端分类的完整流程。传统两阶段方法（先插补后建模）可能丢失缺失模式中的有用信息，而端到端方法能直接利用原始数据（包括缺失值）进行学习，具有更大潜力。实验部分详细展示了数据加载、模型训练和评估过程，最终BRITS模型在测试集上取得了0.5823的ROC-AUC和0.4272的PR-AUC。虽然性能有待提升，但验证了端到端方法的可行性。

2025-05-25 15:23:41 211

原创时序预测下游任务的两阶段处理

本文介绍了时序数据处理的两阶段方法，并实现了基于LSTM的分类模型。首先解释了时序数据常存在缺失值、异常点等问题，需要先进行预处理（第一阶段）再进行建模（第二阶段）。然后详细展示了LSTM分类器的实现过程：1) 构建自定义数据集类处理填补后的数据；2) 设计LSTM模型结构，使用最后一个时间步的隐藏状态进行分类；3) 实现训练流程，包含早停机制和优化器设置；4) 加载Physionet2012数据集并训练模型。最终在测试集上评估不平衡二分类任务，报告了ROC-AUC和PR-AUC指标。代码采用PyTorch

2025-05-24 16:32:40 724

原创时间序列插补工作流

时间序列插补是处理缺失数据的重要步骤，旨在通过合理方法填补数据空白，确保后续分析的准确性。本文以PhysioNet2012数据集为例，展示了使用SAITS模型进行时间序列插补的完整流程。

2025-05-23 17:54:11 253

原创注意力机制与多头注意力（Multi-Head Attention）详解

注意力机制是一种让模型动态关注输入数据关键部分的技术，类似于人类在阅读时聚焦重要信息。其核心是通过权重分配决定不同输入对当前处理的贡献。

2025-05-23 17:35:09 322

原创布尔掩码（Boolean Mask）

布尔掩码是由True和False组成的数组，其形状与原数据一致，用于标记满足特定条件的数据位置，如缺失值、特定数值或文本等。通过NumPy库，可以利用布尔掩码处理NaN值。核心步骤包括：使用np.isnan()生成布尔掩码标记NaN位置，通过异或运算（^）比较两个掩码以找出NaN位置的变化，再通过逻辑与（&）分离出新增或修复的NaN位置。这种方法适用于数据清洗监控、数据质量分析和异常检测等场景，帮助跟踪和处理数据集中的缺失值变化。

2025-05-23 16:51:58 325

原创模拟实现strncpy

对于两个数组arr1和arr2，要实现把arr2拷贝到arr1上，引入一个函数my_strncpy，传入的参数为arr1和arr2数组名以及要拷贝的字符长度，引入参数start,用while语句，并且将*src的值赋值给 *dest,然后src++,dest++,这样循环下去,直到src指向空字符.由图易知char*strncpy(char*destination, const char * source, size_t num);比函数strcpy多传入了参数num，用来限定复制的字符串的位数。

2024-04-01 22:54:58 126