python pandas 分组统计
时间: 2025-02-01 14:52:48 浏览: 54
### 使用Python Pandas实现数据的分组统计
#### 导入必要的库并读取CSV文件
为了进行分组统计操作,首先需要导入`pandas`库,并加载待处理的数据集。
```python
import pandas as pd
df = pd.read_csv('JD.csv', encoding='gbk')
```
#### 提取所需列并准备用于分组的数据框
选取感兴趣的特定几列作为后续分析的基础:
```python
df1 = df[['一级分类', '7天点击量', '订单预定']]
```
#### 应用GroupBy方法进行分组汇总
通过调用`groupby()`函数指定按哪个字段来进行分组,之后利用`.sum()`完成每组数值型字段总和计算:
```python
df1_grouped_sum = df1.groupby('一级分类').sum()
print(df1_grouped_sum)
```
此过程会返回一个新的DataFrame对象,其中包含了基于所选键(这里是'一级分类')对原始表格中其他两列表现出来的数量特征进行了累加的结果[^1]。
#### 利用Agg自定义聚合方式
除了简单的求和外,还可以借助于`agg()`函数来定制更加复杂的多维度聚合逻辑。例如同时获取均值、最小值以及最大值等不同类型的统计数据:
```python
aggregations = {
'7天点击量': ['mean', 'min', 'max'],
'订单预定': ['count']
}
result_df = df1.groupby('一级分类').agg(aggregations)
print(result_df)
```
上述代码片段展示了如何针对不同的目标变量设置个性化的聚合运算规则[^3]。
#### 运用Apply执行更为灵活的操作
当面临较为特殊的业务场景时,则可考虑采用`apply()`配合lambda表达式或其他预定义好的辅助函数形式实施更精细控制下的变换与加工流程:
```python
def custom_function(group):
return group['订单预定'].nlargest(3).sum()
custom_result = df1.groupby('一级分类').apply(custom_function)
print(custom_result)
```
这段脚本实现了对于每一个类别内部挑选出前三高销量商品销售额相加之目的[^2]。
阅读全文
相关推荐

















