关于Pandas及Numpy常用api_python pandas api-CSDN博客

3.1按照字段进行分组

例：df.groupby('xx')['yy'].sum() 对xx字段进行分组，然后按照yy进行求和

常搭配使用的api有：

count() => 计数

size() => 频率统计

mean()         =>平均值

median()         =>中位数

std()/var()         => 标准差/方差

min()/max()         =>最小值/最大值

sum()                 =>求和

4.unique 和 nunique (统计）

4.1 unique: 计算计算去重后的值

4.2 nunique : 计算统计去重后的值的数量

5. idxmax 和 argmax

idxmax：获取最大值的键

argmax: 获取最大值的下标

6.reset_index 和 set_index （添加列名）

本质：一般是配合groupby分组后为没有列名的列添加列名，默认是原先列名作为新列名使用，或者自定义列名

作用：

1.如果在不指定任何参数的情况下使用reset_index（），则序列号将成为新索引，而原始索引将保留为新列，说白了就是将原来的列名作为新的列名使用

例子：

data=df.groupby('xx')['yy'].reset_index() => 分组后将原来列名作为新列名使用

2.如果要为列设置新列名则许需要使用set_index("new列名")，但是它是基于reset_index()使用的

例子：

data=df.groupby('xx')['yy'].reset_index().set_index('自定义列名')

7.sort_values （分组后排序）

主要是对groupby分组后对列进行的排序

主要参数：

by: 要排序的名称或名称列表（也可以按照索引或者列名）

例子：

单列排序可以写成：

data=df.groupby('xx')['yy'].reset_index()

data.sort_values(by='列名'])

多列排序： data.sort_values(by=['列名1','列名2'])

ascending: 排序类型，默认为True,则为升序，false为降序

inplace：排序后是否替换原来数据，默认为False ,则不替换

8.value_counts() (统计不同值个数）

作用：
用来统计列中不同值的个数

value_counts(values,sort=True, ascending=False, normalize=False,bins=None,dropna=True)

参数：

sort=True：是否要进行排序。默认进行排序
ascending=False：设置排序，默认降序排列；
normalize=False：是否要对计算结果进行标准化并显示标准化后的结果，默认是False
dropna=True：是否删除缺失值nan，默认删除

9.get_dummies （one-hot)

作用：

关于Pandas及Numpy常用api

一.pandas常用api

1.isnull（）(空数）

2.shape（） （列，行数)

3.groupby （）（分组）

4.unique 和 nunique (统计）

5. idxmax 和 argmax

6.reset_index 和 set_index （添加列名）

7.sort_values （分组后排序）

8.value_counts() (统计不同值个数）

9.get_dummies （one-hot)

2.shape（）（列，行数)