pd.DataFrame函数的介绍
时间: 2025-07-12 17:21:56 浏览: 2
### pandas DataFrame 函数使用介绍
#### 1. DataFrame 的基本定义
Pandas 中的 DataFrame 是一种带有标签轴(行和列)的二维大小可变的数据结构,可以处理异构的表格数据。它类似于 Excel 表格或 SQL 表格,支持算术运算并对齐行和列标签[^2]。
#### 2. 创建 DataFrame 的方法
可以通过多种方式创建 DataFrame,包括字典、Numpy 数组、Series 对象等。以下是常见的创建方式:
- **通过字典创建**:
```python
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
print(df)
```
- **通过 Numpy 数组创建**:
```python
import numpy as np
import pandas as pd
data = np.array([[1, 2, 3], [4, 5, 6]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
print(df)
```
- **通过 Series 对象创建**:
```python
import pandas as pd
data = {'A': pd.Series([1, 2, 3]), 'B': pd.Series([4, 5, 6])}
df = pd.DataFrame(data)
print(df)
```
#### 3. 常用属性
以下是一些常用的 DataFrame 属性[^2]:
- **`df.shape`**:返回 DataFrame 的形状(行数和列数)。
- **`df.columns`**:返回 DataFrame 的列名。
- **`df.index`**:返回 DataFrame 的索引。
- **`df.dtypes`**:返回每列的数据类型。
示例代码:
```python
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
print("Shape:", df.shape) # 输出形状
print("Columns:", df.columns) # 输出列名
print("Index:", df.index) # 输出索引
print("Data Types:", df.dtypes) # 输出数据类型
```
#### 4. 常用操作函数
以下是一些常用的 DataFrame 操作函数:
- **`df.head(n)`**:返回前 n 行数据。
- **`df.tail(n)`**:返回后 n 行数据。
- **`df.describe()`**:生成数值列的描述性统计信息。
- **`df.info()`**:显示 DataFrame 的简要信息。
- **`df.isnull()`**:检查缺失值。
- **`df.dropna()`**:删除包含缺失值的行或列。
- **`df.fillna(value)`**:用指定值填充缺失值。
示例代码:
```python
import pandas as pd
data = {'A': [1, 2, None], 'B': [4, None, 6]}
df = pd.DataFrame(data)
print("Head:\n", df.head(2)) # 输出前两行
print("Describe:\n", df.describe()) # 描述性统计
print("Is Null:\n", df.isnull()) # 检查缺失值
print("Drop NA:\n", df.dropna()) # 删除缺失值
print("Fill NA:\n", df.fillna(0)) # 填充缺失值
```
#### 5. 数据筛选与过滤
可以通过布尔索引对 DataFrame 进行筛选和过滤[^2]。
示例代码:
```python
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
# 筛选 A 列大于 1 的行
filtered_df = df[df['A'] > 1]
print(filtered_df)
```
#### 6. 数据排序
可以使用 `sort_values` 和 `sort_index` 方法对 DataFrame 进行排序。
示例代码:
```python
import pandas as pd
data = {'A': [3, 1, 2], 'B': [6, 4, 5]}
df = pd.DataFrame(data)
# 按 A 列升序排序
sorted_df = df.sort_values('A')
print(sorted_df)
# 按索引降序排序
sorted_index_df = df.sort_index(ascending=False)
print(sorted_index_df)
```
#### 7. 元素比较
可以使用 `ne` 方法对 DataFrame 元素进行不等式比较[^3]。
示例代码:
```python
import pandas as pd
data = {'A': [1, 2, 3], 'B': [1, 2, 4]}
df = pd.DataFrame(data)
# 比较 A 列与 B 列是否相等
comparison = df['A'].ne(df['B'])
print(comparison)
```
阅读全文
相关推荐


















