DataFrame的基本函数
时间: 2023-11-03 14:18:48 浏览: 117
DataFrame是Pandas库中的一个数据结构,用于处理二维表格数据。下面是DataFrame的一些基本函数:
1. head():查看DataFrame的前几行数据,默认是前5行。
2. tail():查看DataFrame的后几行数据,默认是后5行。
3. info():查看DataFrame的基本信息,包括每一列的数据类型、数据条数、缺失值情况等。
4. describe():对DataFrame的数值列进行统计描述,包括计数、均值、标准差、最小值、25%分位数、中位数、75%分位数、最大值等。
5. shape:查看DataFrame的维度。
6. columns:查看DataFrame的列名。
7. index:查看DataFrame的行名。
8. loc[]:按行列标签进行数据访问,如df.loc[2,'name']。
9. iloc[]:按行列位置进行数据访问,如df.iloc[1,3]。
10. drop():删除指定行或列,如df.drop('name',axis=1)删除name列。
11. dropna():删除有缺失值的行或列。
12. fillna():填充缺失值。
13. groupby():对数据进行分组操作。
14. merge():按照指定的列名将两个DataFrame进行合并。
15. pivot_table():对DataFrame进行透视操作。
相关问题
dataframe merge函数
DataFrame merge函数是pandas库中的一个函数,用于合并两个数据框(DataFrame),将它们按照指定的列进行连接。
在pandas中,merge函数有多种用法。其中最常见的两种用法是:按照某一列进行连接,或者按照多个列进行连接。
首先,按照某一列进行连接时,需要使用on参数指定连接键,即两个数据框要进行连接的那一列。默认情况下,merge函数会自动选择两个数据框中重叠的列为连接键。连接时,可以选择inner(交集)、outer(并集)、left(左连接)、right(右连接)等方式进行连接。例如,我们有两个数据框df1和df2,它们都有一列名为“key”,我们可以使用下面的代码将它们按照“key”列进行内连接:
merged_df = pd.merge(df1, df2, on='key', how='inner')
其次,按照多个列进行连接时,需要使用left_on和right_on参数指定多个连接键。例如,我们有两个数据框df1和df2,它们的连接键分别为“key1”和“key2”,我们可以使用下面的代码将它们按照这两个列进行连接:
merged_df = pd.merge(df1, df2, left_on=['key1', 'key2'], right_on=['key1', 'key2'], how='inner')
除了这两种用法之外,merge函数还有很多其他参数,如suffixes、validate等。使用merge函数能够方便进行数据框的合并,也是进行数据处理中的一个基本方法之一。
dataframe rolling函数
DataFrame 的 rolling() 函数可以对数据进行滚动计算,即对每一列的数据按照指定的窗口大小进行滑动计算。这个函数可以用于多种数据分析场景,如计算移动平均值、计算某段时间内的最大值等。
rolling() 函数的基本语法如下:
```python
DataFrame.rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)
```
参数说明:
- window:滑动窗口的大小,可以是一个整数,表示窗口大小,或者是一个时间周期的字符串,表示时间窗口的大小。
- min_periods:可选参数,指定每个滚动窗口中所需的最小非 NA 值数量,不足会返回 NaN。
- center:可选参数,默认为 False,表示窗口的计算方式是以窗口右侧的值为准还是以窗口中心的值为准。
- win_type:可选参数,表示窗口的类型,默认为 None,表示普通的滑动窗口。可以选择其他窗口类型,如高斯窗口等。
- on:可选参数,表示对某个列进行窗口计算,需要指定该列的列名。
- axis:可选参数,默认为 0,表示按列进行滑动计算。如果设置为 1,则表示按行进行滑动计算。
- closed:可选参数,表示是否包含窗口的两端数据。默认为 None,表示包含两端数据。如果设置为 left 或 right,则表示不包含左侧或右侧数据。
rolling() 函数返回一个 Rolling 对象,是一个 DataFrameGroupBy 对象。可以在该对象上进行聚合操作,如 mean()、sum() 等。例如:
```python
import pandas as pd
data = {'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
rolling_df = df.rolling(window=3)
rolling_mean = rolling_df.mean()
print(rolling_mean)
```
输出结果为:
```
A B
0 NaN NaN
1 NaN NaN
2 2.0 20.0
3 3.0 30.0
4 4.0 40.0
```
可以看到,rolling() 函数计算出了每一列的滑动平均值。其中前两行为 NaN 是因为在窗口大小为 3 的情况下,前两个数据无法计算出平均值。
阅读全文
相关推荐

















