目录
6.reset_index 和 set_index (添加列名)
3. 序列:arange , linspace , random
8. argsort (返回从小到大的排列在数组中的索引位置)
一.pandas常用api
1.isnull()(空数)
1,1 判断是否为空,缺失则返回True,否则为false
1.2 isnull().sum() : 返回缺失值数量
1.3 isnull().any() : 判断所有缺失值
2.shape() (列,行数)
2.1 返回处理后的行数与列数,以元组形式(x,y)
lg: df['xx'].shape[0] 返回xx字段的行数
3.groupby ()(分组)
3.1按照字段进行分组
例:df.groupby('xx')['yy'].sum() 对xx字段进行分组,然后按照yy进行求和
常搭配使用的api有:
count() => 计数
size() => 频率统计
mean() =>平均值
median() =>中位数
std()/var() => 标准差/方差
min()/max() =>最小值/最大值
sum() =>求和
4.unique 和 nunique (统计)
4.1 unique: 计算计算去重后的值
4.2 nunique : 计算统计去重后的值的数量
5. idxmax 和 argmax
idxmax: 获取最大值的键
argmax: 获取最大值的下标
6.reset_index 和 set_index (添加列名)
本质:一般是配合groupby分组后为没有列名的列添加列名,默认是原先列名作为新列名使用,或者自定义列名
作用:
1.如果在不指定任何参数的情况下使用reset_index(),则序列号将成为新索引,而原始索引将保留为新列,说白了就是将原来的列名作为新的列名使用
例子:
data=df.groupby('xx')['yy'].reset_index() => 分组后将原来列名作为新列名使用
2.如果要为列设置新列名则许需要使用set_index("new列名"),但是它是基于reset_index()使用的
例子:
data=df.groupby('xx')['yy'].reset_index().set_index('自定义列名')
7.sort_values (分组后排序)
主要是对groupby分组后对列进行的排序
主要参数:
by: 要排序的名称或名称列表(也可以按照索引或者列名)
例子:
单列排序可以写成:
data=df.groupby('xx')['yy'].reset_index()
data.sort_values(by='列名'])
多列排序: data.sort_values(by=['列名1','列名2'])
ascending: 排序类型,默认为True,则为升序,false为降序
inplace:排序后是否替换原来数据,默认为False ,则不替换
8.value_counts() (统计不同值个数)
作用:
用来统计列中不同值的个数
value_counts(values,sort=True, ascending=False, normalize=False,bins=None,dropna=True)
参数:
sort=True: 是否要进行排序 。默认进行排序
ascending=False: 设置排序, 默认降序排列;
normalize=False: 是否要对计算结果进行标准化并显示标准化后的结果,默认是False
dropna=True: 是否删除缺失值nan,默认删除
9.get_dummies (one-hot)
作用 :