时序数据集---Server Machine Dataset(SMD)+补充:每个维度具体含义

本文介绍了一个包含28台机器5周连续数据的异常检测数据集,每机38维,分为无标签训练集和有标签测试集,时间信息隐匿。数据文件以machine-x-y.txt命名,链接在百度网盘提供。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据集简介

  • 数据集收集的是28个机器连续5周的数据,相邻两组数据间间隔一分钟。

  • 总共收集28个机器的数据,每个机器收集38个维度(变量)的信息。

  • 训练集与测试集的数据量是1:1的,训练集无label,测试集有label。

  • 时间信息是隐匿的

数据文件中内容说明

    • 文件名采用machine-x-y.txt的形式,其中x代表组,y是组里的index,每一个machine-x-y代表一个具体的机器。

    • train:包含数据的前半部分,作为训练集,无标签。

    • test:包含数据的后半部分,作为测试集,有标签。

    • test_label: 测试集标签,表明某一时间节点处是否处于异常状态。

    • interpretation_label:该数据集给出异常点的具体异常

数据展示

数据集分享:

链接:https://pan.baidu.com/s/1fgMz1m50vNQaECscT11DRA 

提取码:loix 

--来自百度网盘超级会员V6的分享

鉴于很多兄弟们询问该数据集的每个通道的具体含义,我做了一些调查,在作者那里找到了回复,现做补充。

补充:

cpu_r,load_1,load_5,load_15,mem_shmem,mem_u,mem_u_e,total_mem,disk_q,disk_r,disk_rb,disk_svc,disk_u,disk_w,disk_wa,disk_wb,si,so,eth1_fi,eth1_fo,eth1_pi,eth1_po,tcp_tw,tcp_use,active_opens,curr_estab,in_errs,in_segs,listen_overflows,out_rsts,out_segs,passive_opens,retransegs,tcp_timeouts,udp_in_dg,udp_out_dg,udp_rcv_buf_errs,udp_snd_buf_errs

每一行都在同一时间间隔内采样。

### 关于SMD数据集的处理方法 #### 数据预处理概述 SMDServer Machine Dataset数据集主要用于多变量时间序列异常检测任务,其原始数据可能包含噪声、缺失值以及冗余特征等问题。因此,在实际应用前需要对其进行一系列预处理操作以提升后续分析的效果。 #### 处理步骤详解 1. **数据加载与初步探索** 加载SMD数据集后,应先对其结构进行了解,包括但不限于样本数量、维度数及其分布特性等基本信息[^2]。这一步骤有助于制定合理的预处理策略。 2. **异常与缺失值处理** 对于存在异常或者丢失的数据点,可采用插补法填补空缺位置;对于极端偏离正常范围之外的数据,则需判断是否剔除或修正为合理数值。此部分工作通常依据业务逻辑完成,并结合统计学手段辅助决策[^1]。 3. **标准化/归一化变换** 时间序列中的不同指标往往具有不同的量纲和尺度,为了消除这种差异带来的影响,在建模之前应对各维特征实施统一的标准缩放处理。常用的方法有Z-score标准化及Min-Max Scaling两种方式[^3]。 4. **降噪平滑滤波** 利用移动平均或其他类型的低通滤波器去除高频干扰成分,保留趋势性和周期性的有效信号信息。这一环节尤其适用于含有大量随机波动的时间序列记录[^4]。 5. **划分训练测试合** 将整个数据划分为独立互斥的两大部分——用于构建模型参数估计规律的学习样本组(Training Set),以及验证算法泛化能力评估表现好坏程度的一系列未知实例(Test Set)[^2]。 ```python import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler def preprocess_smd_data(file_path): # Load data df = pd.read_csv(file_path) # Handle missing values and outliers (example with simple imputation) df.fillna(method='ffill', inplace=True) # Forward fill for NaNs scaler = StandardScaler() scaled_features = scaler.fit_transform(df.iloc[:, :-1]) # Exclude label column if present return scaled_features, df['label'].values # Assuming last col is 'label' ``` 上述代码片段展示了基于Python实现的一个基础版SMD数据集预处理流程,涵盖了读取CSV文件、填充缺失项以及执行标准差规范化等功能模块。 ---
评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

末世灯光

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值