pandas处理NaN缺失值

最新推荐文章于 2024-12-23 10:40:04 发布

原创最新推荐文章于 2024-12-23 10:40:04 发布 · 2.7k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

Pandas 专栏收录该内容

16 篇文章

订阅专栏

本文介绍如何在数据预处理阶段处理缺失值。主要分为两种方法：删除含有缺失值的样本和替换/插补缺失值。详细解释了如何使用Pandas库中的dropna()和fillna()函数来实现这两种方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import pandas as pd

缺失值处理

两种方法:

删除含有缺失值的样本
替换/插补

处理缺失值为NaN

先判断数据中是否存在NaN,通过下面两个方法中任意一个

pd.isnull(dataframe)
# dataframe为数据
如果数据中存在NaN返回True,如果没有就返回False

pd.notnull(dataframe)
该方法与isnull相反

any()  和 all()
"""
pd.isnull(dataframe).any()
判断哪一个字段中存在缺失值没有就返回False

pd.notnull(dataframe).all()
判断哪一个字段中存在缺失值没有就返回True
"""

使用numpy也可以进行判断


import numpy as np

np.any(pd.isnull(dataframe)) # 如果返回True,说明数据中存在缺失值

np.all(pd.notnull(dataframe)) # 如果返回False, 说明数据中存在缺失值

然后进行数据处理
方式一: 删除空值行

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

"""
函数作用：删除含有空值的行或列
dropna() 是删除空值数据的方法, 默认将只要含有NaN的整行数据删除, 
如果想要删除整行都是空值的数据需要添加how='all'参数

默认是删除整行, 如果对列做删除操作, 需要添加axis参数, 
		axis=1表示删除列, axis=0表示删除行

axis:维度，axis=0表示index行,axis=1表示columns列，默认为0

how:"all"表示这一行或列中的元素全部缺失（为nan）才删除这一行或列，"any"表示这一行或列中只要有元素缺失，就删除这一行或列

thresh:一行或一列中至少出现了thresh个才删除。

subset：在某些列的子集中选择出现了缺失值的列删除，不在子集中的含有缺失值得列或行不会删除（有axis决定是行还是列）

inplace: 是否在当前的dataframe中执行此操作,
		True表示在原来的基础上修改,
		False表示返回一个新的值, 不修改原有数据

"""

方式二: 替换/插补

dataframe.fillna('替换的值value',inplace=False)
'''
把替换NaN的值传入到fillna()中
'''

缺失值NaN有默认标记的值

比如有的空值不是NaN, 有的是一个’?’

先替换
使用numpy把"?"替换为NaN

import numpy as np

# 替换
dataframe.replace(to_replace="?", value=np.nan)

把其他的缺失值换为NaN后, 然后就按照缺失值为NaN的方式就行操作

删除数据

如果只是单独的删除数据可以使用drop()方法

DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)

'''
代码解释:
labels : 就是要删除的行列的名字,用列表指定
index : 直接指定要删除的行
columns : 直接指定要删除的列
inplace=False : 表示返回一个新的值, 不修改原有数据
inplace=True : 表示在原来的基础上修改
'''

例:


import pandas as pd
df = pd.read_csv('/text.xlsx')
# 删除第0行和第1行
df.drop(labels=[0,1],axis=0)

# 删除列名为 age 的列
df.drop(axis=1,columns=age)