【python】Pandas 数据分析之分组聚合操作|代码讲解|建议在Jupyter Notebook 中运行

最新推荐文章于 2025-04-09 16:13:55 发布

丕羽

最新推荐文章于 2025-04-09 16:13:55 发布

阅读量736

点赞数 14

CC 4.0 BY-SA版权

分类专栏：数据处理与统计分析文章标签： jupyter pandas python 数据分析开发语言

本文链接：https://blog.csdn.net/weixin_57336987/article/details/142398500

建议在Jupyter Notebook 中运行
jupyter notebook环境搭建

文章目录

1. Pandas加载数据
- 1.1 根据列名加载数据
- 1.2 根据行加载数据
- 1.3 加载指定行, 指定列的数据
2. 分组聚合
3. Pandas基本绘图
5. 常用的排序函数
- 5.1 找到小成本高口碑的电影
- 5.2 找到每年 imdb评分最高的电影.
- 5.3 提取每年, 每种电影分级中预算少的电影.

import numpy as np
import pandas as pd
import os

os.chdir(r'D:\hm\homework\pywork\workProject\numpyProject')  # 改变当前的工作目录.  change current work directory

1. Pandas加载数据

# 1. 读取文件, 获取df对象.

df = pd.read_csv('data/gapminder.tsv', sep='\t')
df.head()

1.1 根据列名加载数据

# 场景1: 加载1列数据. 

# 格式: df['列名'] 或者 df.列名

df['country']
df.country

# 场景2: 加载多列数据.

# 格式: df[['列名1', '列名2'...]]

df[['country', 'year', 'lifeExp']]

1.2 根据行加载数据

# head(), 默认是前5行

df.head()
df.head(n=2)  # 前2行

# tail(), 默认是后5行

df.tail()
df.tail(n=3)  # 后3行 
df.tail(n=1)  # 最后1行 

# loc: 根据 索引列 来获取数据的. 

df.loc[0]  # 第1行 => Series对象
df.loc[[0, 1, 2]]  # 第1, 2, 3行 => DataFrame对象

# df.loc[-1]              # 最后一行, 如果写-1, 则: 报错.

# iloc: 根据 行号 来获取数据的. 

df.iloc[0]  # 第1行 => Series对象
df.iloc[[0, 1, 2]]  # 第1, 2, 3行 => DataFrame对象

df.iloc[-1]  # 最后一行

1.3 加载指定行, 指定列的数据

# 格式: df对象.loc[[行], [列]]        # 索引列值 + 列名 的方式获取.

# 格式: df对象.iloc[[行], [列]]       # 行号 + 列的编号(索引) 的方式获取.

# 1. 精准的获取某几行的, 某几列.

df.loc[[0, 21, 211], :]  # : 可以代表: 所有行, 所有列.
df