使用学习过的理论知识（Numpy数值分析基础、Matplotlib数据可视化基础、Pandas统计分析基础），对data.csv用户用户用电量数据进行相关处理，其中数据中有编号为1-200的200位电力用户，DATA_DATE表示时间，如2015/1/1表示2015年1月1日，KWH为用电量。请完成以下工作：1、将数据进行转置，转置后行为用户编号、列为日期、值为用户每日用电量。2、对数据中的异常数据进行识别并处理。3、统计每个用户用电数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度。4、每个用户用电数据按日差分，并求取差分结果的基本统计量，统计量同3。5、求取每个用户的5%分位数。6、每个用户按周求和并差分（一周7天，年度分开），并求取差分结果的基本统计量，统计量同三。7、统计每个用户的日用电量在其最大值0.9倍以上的次数。8、求取每个用户日为最大值/最小值的索引月份，若最大值/最小值存在于多个月份中，则输出含有最大值/最小值最多的那个月份。如1号用户的最小值为0，则看哪个月的0最多。9、求取每个用户七八月电量和与三四月电量和的比值，最大值的比值，最小值的比值，均值（日均电量）的比值。10、合并上述特征。

时间: 2023-12-06 21:45:43 浏览: 201

1、将数据进行转置，转置后行为用户编号、列为日期、值为用户每日用电量。 ```python import pandas as pd # 读取数据 df = pd.read_csv('data.csv') # 转换日期格式 df['DATA_DATE'] = pd.to_datetime(df['DATA_DATE']) # 转置数据 df_pivot = df.pivot(index='ID', columns='DATA_DATE', values='KWH') ``` 2、对数据中的异常数据进行识别并处理。 ```python import numpy as np # 计算每个用户每天用电量的标准差 std = df_pivot.std(axis=1) # 计算每个用户每天用电量的平均值 mean = df_pivot.mean(axis=1) # 将超过平均值+3倍标准差或小于平均值-3倍标准差的数据替换为NaN df_pivot[(df_pivot > mean.values[:, np.newaxis] + 3 * std.values[:, np.newaxis]) | (df_pivot < mean.values[:, np.newaxis] - 3 * std.values[:, np.newaxis])] = np.nan ``` 3、统计每个用户用电数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度。 ```python from scipy.stats import skew, kurtosis # 统计每个用户用电数据的基本统计量 statistics = pd.DataFrame({ 'max': df_pivot.max(), 'min': df_pivot.min(), 'mean': df_pivot.mean(), 'median': df_pivot.median(), 'sum': df_pivot.sum(), 'var': df_pivot.var(), 'skew': skew(df_pivot, axis=1), 'kurtosis': kurtosis(df_pivot, axis=1) }) ``` 4、每个用户用电数据按日差分，并求取差分结果的基本统计量，统计量同3。 ```python # 按日差分 df_diff = df_pivot.diff(axis=1) # 删除第一列的NaN值 df_diff = df_diff.iloc[:, 1:] # 统计每个用户用电数据按日差分后的基本统计量 diff_statistics = pd.DataFrame({ 'max': df_diff.max(), 'min': df_diff.min(), 'mean': df_diff.mean(), 'median': df_diff.median(), 'sum': df_diff.sum(), 'var': df_diff.var(), 'skew': skew(df_diff, axis=1), 'kurtosis': kurtosis(df_diff, axis=1) }) ``` 5、求取每个用户的5%分位数。 ```python # 求取每个用户的5%分位数 quantile_5 = df_pivot.quantile(q=0.05, axis=1) ``` 6、每个用户按周求和并差分（一周7天，年度分开），并求取差分结果的基本统计量，统计量同3。 ```python # 按周求和 df_weekly = df_pivot.resample('W', axis=1).sum() # 按年度分开 df_weekly = df_weekly.groupby(df_weekly.columns.year, axis=1) # 差分 df_weekly_diff = df_weekly.diff(axis=1) # 删除第一列的NaN值 df_weekly_diff = df_weekly_diff.iloc[:, 1:] # 统计每个用户用电数据按周差分后的基本统计量 weekly_diff_statistics = pd.DataFrame({ 'max': df_weekly_diff.max(), 'min': df_weekly_diff.min(), 'mean': df_weekly_diff.mean(), 'median': df_weekly_diff.median(), 'sum': df_weekly_diff.sum(), 'var': df_weekly_diff.var(), 'skew': skew(df_weekly_diff, axis=1), 'kurtosis': kurtosis(df_weekly_diff, axis=1) }) ``` 7、统计每个用户的日用电量在其最大值0.9倍以上的次数。 ```python # 统计每个用户的日用电量在其最大值0.9倍以上的次数 count = (df_pivot > df_pivot.max() * 0.9).sum() ``` 8、求取每个用户日为最大值/最小值的索引月份，若最大值/最小值存在于多个月份中，则输出含有最大值/最小值最多的那个月份。如1号用户的最小值为0，则看哪个月的0最多。 ```python # 求取每个用户日为最大值的索引月份 max_month = df_pivot.idxmax(axis=1).dt.month # 求取每个用户日为最小值的索引月份 min_month = df_pivot.idxmin(axis=1).dt.month # 统计每个用户日为最大值/最小值的索引月份中出现次数最多的月份 max_month_count = max_month.value_counts() min_month_count = min_month.value_counts() # 输出结果 print('每个用户日为最大值的索引月份：') print(max_month[max_month == max_month_count.idxmax()].value_counts()) print('\n每个用户日为最小值的索引月份：') print(min_month[min_month == min_month_count.idxmax()].value_counts()) ``` 9、求取每个用户七八月电量和与三四月电量和的比值，最大值的比值，最小值的比值，均值（日均电量）的比值。 ```python # 求取每个用户七八月电量和 summer_sum = df_pivot.loc[:, df_pivot.columns.month.isin([7, 8])].sum(axis=1) # 求取每个用户三四月电量和 spring_sum = df_pivot.loc[:, df_pivot.columns.month.isin([3, 4])].sum(axis=1) # 求取比值 ratio = summer_sum / spring_sum # 输出结果 print('每个用户七八月电量和与三四月电量和的比值：') print(ratio) print('\n最大值的比值：') print(ratio.max()) print('\n最小值的比值：') print(ratio.min()) print('\n均值的比值：') print(ratio.mean()) ``` 10、合并上述特征。 ```python # 合并特征 features = pd.concat([ statistics, diff_statistics, pd.DataFrame({'quantile_5': quantile_5}), weekly_diff_statistics, pd.DataFrame({'count': count}), pd.DataFrame({'max_month': max_month, 'min_month': min_month}), pd.DataFrame({'ratio': ratio}) ], axis=1) ```

阅读全文

相关推荐

python基础+数据分析三大件Numpy Pandas Matplotlib

Python数据分析深度学习：Pandas、NumPy、SciPy与Matplotlib（含代码示例）

Python-建模分析师之硬技能 Python数据分析基础 机器学习numpy和pandas基础 共147页.pdf

Python数据分析三剑客 数学建模基础 numpy、pandas、matplotlib.zip

06.Numpy、Pandas和Matplotlib包基础知识1

Data-Science:Numpy，Pandas，Matplotlib和数据处理

Data-Analysis-And-Visualization-using-python:使用熊猫进行Covid-19数据分析，使用Matplotlib和Plotly使用Numpy进行数据可视化...

机器学习与数据科学_python编程_Scikit-learn框架_TensorFlow库_PyTorch库_NumPy数组处理_Pandas数据分析_Matplotlib可视化_.zip

Python数据分析numpy、pandas、matplotlib库安装及使用方法总结

numpy+pandas+matplotlib+gis学习笔记.zip

python数据分析（numpy、pandas、matplotlib）64位exe安装包

Python --numpy,pandas,matplotlib等学习笔记.zip

Python数据分析三剑客源码大全【Numpy+Pandas+Matplotlib】

python数据分析包含numpy pandas matplotlib

机器学习_数据分析_回归预测_波士顿房价_基于Scikit-Learn和Pandas的房屋价格预测模型_使用NumPy进行特征工程_通过Matplotlib可视化分析_应用Jupy.zip

Python数据分析相关的学习笔记（numpy、matplotlib、pandas）.zip

Python+Numpy+Pandas+Matplotlib综合入门教程.zip

Introduction-to-Numpy-and-Matplotlib:02_numpy_matplotlib.ipynb分配1

掌握机器学习预科三剑客：Numpy、Pandas、Matplotlib

掌握Numpy、Pandas、Matplotlib与Seaborn进行数据分析

大家在看

STM32H743驱动SDRAM读写（W9825G6KH）【支持STM32H7系列单片机_寄存器库驱动】.zip

Aptra NDC Reference manual

TreeComboBox控件

jdk-7u191-linux-x64.tar.zip

cubase 5 机架 好用方便的机架文件，内含效果器插件

最新推荐

Numpy&pandas（八）–股票分析实例

案例：通过空气质量指数AQI学习统计分析并进行预测（上）

Python数据分析实战【第三章】3.12-Matplotlib箱型图【python】

Python数据分析和特征提取

langchain4j-1.0.0-beta2.jar中文-英文对照文档.zip

Wamp5: 一键配置ASP/PHP/HTML服务器工具

【数据融合技术】：甘肃土壤类型空间分析中的专业性应用

sht20温湿度传感器使用什么将上拉电阻和滤波电容引出

Delphi仿速达财务软件导航条组件开发教程

【空间分布规律】：甘肃土壤类型与农业生产的关联性研究

Python-建模分析师之硬技能 Python数据分析基础机器学习numpy和pandas基础共147页.pdf

Python数据分析三剑客数学建模基础 numpy、pandas、matplotlib.zip

cubase 5 机架好用方便的机架文件，内含效果器插件