dataframe常用函数

DataFrame是Pandas库中非常重要的数据结构，它类似于二维表格，包含了行索引和列标签。DataFrame有许多内置函数用于处理、操作和分析数据，下面是一些常用的函数： 1. **head()** 和 **tail()**：显示数据框的前几行（默认5行）或后几行，用于快速查看数据概览。 2. **info()**：提供关于数据框基本信息，如每列的数据类型、非空值的数量等。 3. **describe()**：计算每个数值型列的基本统计信息，包括计数、平均值、标准差、最小值和最大值。 4. **select_dtypes()** 或 **dtypes**：返回数据类型的别名系列，帮助识别哪些列是数值型、分类型等。 5. **shape**：获取数据框的维度，即行数和列数。 6. **loc[]** 和 **iloc[]**：位置选择，前者基于标签，后者基于整数位置。 7. **merge()** 或 **concat()**：合并多个DataFrame，可以按列或行拼接。 8. **groupby()**：对数据分组并应用聚合函数，例如求和、平均等。 9. **apply()** 和 **map()**：分别用于对每一项应用自定义函数和将序列映射到另一序列上。 10. **dropna()**：删除包含缺失值的行或列。 11. **fillna()** 或 **replace()**：填充缺失值或替换特定值。

pd.DataFrame常用统计函数

Pandas 的 DataFrame 类提供了许多常用的统计函数，用于计算和分析数据。以下是一些常用的统计函数示例： - `df.mean()`: 计算每列的平均值。 - `df.median()`: 计算每列的中位数。 - `df.min()`: 计算每列的最小值。 - `df.max()`: 计算每列的最大值。 - `df.std()`: 计算每列的标准差。 - `df.var()`: 计算每列的方差。 - `df.sum()`: 计算每列的总和。 - `df.count()`: 计算每列的非空值数量。 - `df.describe()`: 提供有关每列的基本统计摘要，包括计数、均值、标准差、最小值、25%、50%、75% 分位数和最大值。这些函数可以应用于整个 DataFrame，或者通过指定轴参数应用于特定的行或列。你还可以通过在这些函数后面添加 `axis` 参数来指定计算的轴方向，默认为按列计算。除了上述示例之外，Pandas 还提供了许多其他统计函数，如协方差、相关性、百分位数等。你可以根据具体的需求选择适当的函数来分析和处理数据。

DataFrame 的常用函数

<think>好的，我现在需要回答用户关于DataFrame常用函数的问题。首先，我得回忆一下自己了解的Pandas库中的DataFrame函数，确保信息准确。用户可能刚接触DataFrame，所以需要结构清晰，分步骤介绍，并且用中文。首先，应该明确DataFrame是Pandas的核心数据结构，用于处理结构化数据。接下来，需要分类别介绍常用函数，这样用户更容易理解。比如数据查看、数据清洗、数据统计、数据合并、分组聚合、时间处理等。数据查看方面，head()和tail()是基本函数，用来查看前后几行。info()和describe()也很重要，能显示数据概览和统计摘要。shape和columns属性也需要提到，虽然不是函数，但用户常用到。数据清洗部分，dropna()和fillna()处理缺失值，drop()删除行列，rename()重命名列，这些是常用函数。替换数据的话，replace()也很关键。数据统计方面，sum()、mean()、median()、max()、min()这些聚合函数要提到。还有corr()计算相关性，unique()和nunique()处理唯一值。数据合并，用户可能需要用merge()和concat()，所以需要解释它们的用途。分组聚合的话，groupby()结合agg()是核心，需要举例说明。时间处理方面，如果数据有时间列，to_datetime()转换格式，resample()进行重采样，比如按周、月聚合数据。排序和筛选部分，sort_values()和sort_index()负责排序，而loc和iloc用于数据筛选，虽然它们是属性，但用户经常使用，应该包括进来。应用函数部分，apply()和applymap()可以用来对数据应用自定义函数，这部分对于复杂操作很有帮助。最后，加上一个示例，让用户更直观地理解如何使用这些函数。同时提醒参考官方文档，确保用户知道如何深入了解更多内容。需要注意用户提到的系统级指令，比如数学公式的格式，但这个问题不涉及数学公式，所以可能不需要处理。但需要检查是否有其他格式要求，比如列表的使用，结构清晰。总结步骤：先分大类，每个大类下列举常用函数，简要说明用途，并给出示例代码。这样用户能一步步了解每个函数的用途和用法。确保语言简洁，避免术语晦涩，适合初学者理解。</think>DataFrame 是 Python 中 `pandas` 库的核心数据结构，用于处理结构化数据。以下是其常用函数分类及说明，结合示例逐步讲解： --- ### 一、**数据查看与信息获取** 1. **`head(n)` / `tail(n)`** 查看前/后 `n` 行数据（默认 `n=5`）。 ```python df.head(3) # 显示前3行 ``` 2. **`info()`** 显示数据概况：列名、非空值数量、数据类型。 ```python df.info() # 输出各列数据类型和缺失情况 ``` 3. **`describe()`** 生成数值型列的统计摘要（均值、标准差、分位数等）。 ```python df.describe() ``` 4. **`shape`** 返回 DataFrame 的行列数（属性，非函数）。 ```python print(df.shape) # 输出 (行数, 列数) ``` 5. **`columns`** 获取所有列名（属性，可修改）。 ```python df.columns = ['新列名1', '新列名2'] # 重命名列 ``` --- ### 二、**数据清洗** 1. **`dropna()`** 删除包含缺失值的行或列。 ```python df.dropna(axis=1) # 删除含缺失值的列 ``` 2. **`fillna(value)`** 填充缺失值。 ```python df.fillna(0) # 用0填充缺失值 ``` 3. **`drop()`** 删除指定行/列。 ```python df.drop('列名', axis=1) # 删除某列 ``` 4. **`rename()`** 重命名列或行索引。 ```python df.rename(columns={'旧列名': '新列名'}) ``` 5. **`replace()`** 替换指定值。 ```python df.replace('旧值', '新值') ``` --- ### 三、**数据统计与计算** 1. **`sum()` / `mean()` / `median()` / `max()` / `min()`** 按列或行计算统计值。 ```python df['列名'].sum() # 计算某列总和 ``` 2. **`corr()`** 计算列之间的相关系数矩阵。 ```python df.corr() # 显示相关性矩阵 ``` 3. **`value_counts()`** 统计某列唯一值的频次。 ```python df['列名'].value_counts() ``` 4. **`unique()` / `nunique()`** 获取唯一值列表或数量。 ```python df['列名'].unique() # 返回唯一值数组 ``` --- ### 四、**数据合并与重塑** 1. **`merge()`** 按列合并两个 DataFrame（类似 SQL JOIN）。 ```python pd.merge(df1, df2, on='公共列名') ``` 2. **`concat()`** 按行或列拼接多个 DataFrame。 ```python pd.concat([df1, df2], axis=0) # 垂直拼接 ``` 3. **`groupby()`** 按指定列分组，配合聚合函数使用。 ```python df.groupby('列名').mean() # 按列分组后求均值 ``` --- ### 五、**时间处理** 1. **`to_datetime()`** 将列转换为日期时间格式。 ```python df['日期列'] = pd.to_datetime(df['日期列']) ``` 2. **`resample()`** 按时间频率重采样（如按周、月聚合）。 ```python df.resample('M').sum() # 按月求和 ``` --- ### 六、**排序与筛选** 1. **`sort_values()`** 按某列的值排序。 ```python df.sort_values('列名', ascending=False) # 降序排列 ``` 2. **`sort_index()`** 按索引排序。 ```python df.sort_index(ascending=True) ``` 3. **`loc[]` / `iloc[]`** 按标签 (`loc`) 或位置 (`iloc`) 筛选数据。 ```python df.loc[df['列名'] > 10] # 筛选某列大于10的行 ``` --- ### 七、**应用函数** 1. **`apply(func)`** 对行或列应用自定义函数。 ```python df['新列'] = df['列名'].apply(lambda x: x*2) ``` 2. **`applymap(func)`** 对每个元素应用函数。 ```python df.applymap(lambda x: len(str(x))) ``` --- ### 示例：综合使用 ```python import pandas as pd # 创建示例 DataFrame data = {'A': [1, 2, None], 'B': ['x', 'y', 'z']} df = pd.DataFrame(data) # 填充缺失值 → 按列求和 → 重命名列 df_filled = df.fillna(0) df_sum = df_filled.sum() df_renamed = df.rename(columns={'A': '新列名'}) ``` --- 通过灵活组合这些函数，可以高效完成数据清洗、分析和可视化。建议结合具体场景查阅 [`p

阅读全文

dataframe常用函数

pd.DataFrame常用统计函数

DataFrame 的常用函数

相关推荐

Python pandas常用函数详解

Python如何在DataFrame增加数值

基于DataFrame改变列类型的方法

DataFrame 内置函数

DataFrame中apply函数的强大应用

python dataframe find函数

dataframe重点函数讲解

DataFrame常用方法

dataframe常用方法

DataFrame函数

python dataframe函数用法

DataFrame 替换的函数

DataFrame()函数

python pd.dataframe函数

pandas库的DataFrame函数

pandas库中DataFrame函数作用

pd.DataFrame函数的介绍

dataframe的常用操作

大家在看

常用的网络拓朴图素材.zip

最新VISIO各种图形图标大集合.

2020_0610_应对新兴毫米波应用的测试挑战.pdf

国家/地区：国家/地区信息应用

Xilinx 7系列FPGA手册[打包下载]

最新推荐

从DataFrame中提取出Series或DataFrame对象的方法

Pandas读取MySQL数据到DataFrame的方法

学籍管理系统C语言实训报告.doc

全面解析SOAP库包功能与应用

编程语言选择指南：为不同项目量身定制的编程语言策略

手写vue2的插件vue-router

《软件工程：实践者的方法》第6版课件解析

QUARTUS II 13.0全攻略：新手到专家的10个必备技能

IllegalArgumentException.class

高效进程监控工具的探索与应用