关于Pandas及Numpy常用api

本文详细介绍了Pandas库中的一系列重要API,包括数据检查、形状操作、分组、统计和数据转换等,以及Numpy中处理数组数据的方法,如数据类型转换、序列生成、数组属性和数学运算。这些API对于数据清洗、预处理和分析至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

.pandas常用api

1.isnull()(空数)

 2.shape() (列,行数)

3.groupby ()(分组)

 4.unique 和 nunique (统计)

5. idxmax 和 argmax 

6.reset_index 和 set_index (添加列名)

 7.sort_values (分组后排序)

8.value_counts() (统计不同值个数)

9.get_dummies (one-hot)

10. cut  (分组打标签)

11. replace (替换)

12 .loc (行:列)

13.pd.to_numeric

 作用:

14. merge (合并数据集)

 15.pivot_table (数据透视表)

16.drop_duplicates (去重)

17.describe  (统计摘要函数)

二.Numpy 常用api

1.传入数据

 2.astype()

强制将数据类型转换

 3. 序列:arange , linspace , random

4.数组属性

5.切片与索引

6.where 和 >

7.sort(默认从小到大排序)

8. argsort (返回从小到大的排列在数组中的索引位置)


一.pandas常用api

1.isnull()(空数)

1,1 判断是否为空,缺失则返回True,否则为false

1.2 isnull().sum() : 返回缺失值数量

1.3 isnull().any() : 判断所有缺失值

 2.shape() (列,行数)

2.1 返回处理后的行数与列数,以元组形式(x,y)

lg: df['xx'].shape[0]    返回xx字段的行数

3.groupby ()(分组)

3.1按照字段进行分组

例:df.groupby('xx')['yy'].sum()      对xx字段进行分组,然后按照yy进行求和

常搭配使用的api有:

count()   => 计数

size()        => 频率统计

mean()         =>平均值

median()         =>中位数

std()/var()         => 标准差/方差

min()/max()         =>最小值/最大值

sum()                 =>求和

 4.unique 和 nunique (统计)

4.1  unique:    计算计算去重后的值

4.2  nunique :  计算统计去重后的值的数量

5. idxmax 和 argmax 

 idxmax:  获取最大值的键

 argmax:   获取最大值的下标

6.reset_index 和 set_index (添加列名)

本质:一般是配合groupby分组后为没有列名的列添加列名,默认是原先列名作为新列名使用,或者自定义列名

作用:

1.如果在不指定任何参数的情况下使用reset_index(),则序列号将成为新索引,而原始索引将保留为新列,说白了就是将原来的列名作为新的列名使用

例子:

data=df.groupby('xx')['yy'].reset_index()       => 分组后将原来列名作为新列名使用

2.如果要为列设置新列名则许需要使用set_index("new列名"),但是它是基于reset_index()使用的

例子:

data=df.groupby('xx')['yy'].reset_index().set_index('自定义列名')

 7.sort_values (分组后排序)

主要是对groupby分组后对列进行的排序

主要参数:

by: 要排序的名称或名称列表(也可以按照索引或者列名)

例子:

单列排序可以写成:

                      data=df.groupby('xx')['yy'].reset_index()

                      data.sort_values(by='列名'])

多列排序:    data.sort_values(by=['列名1','列名2'])


ascending: 排序类型,默认为True,则为升序,false为降序


inplace:排序后是否替换原来数据,默认为False ,则不替换
 

8.value_counts() (统计不同值个数)

作用:
用来统计列中不同值的个数

value_counts(values,sort=True, ascending=False, normalize=False,bins=None,dropna=True)

参数:

sort=True:                 是否要进行排序  。默认进行排序
ascending=False:     设置排序, 默认降序排列;
normalize=False:      是否要对计算结果进行标准化并显示标准化后的结果,默认是False
dropna=True:            是否删除缺失值nan,默认删除

9.get_dummies (one-hot)

作用 :

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小辉懂编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值