建议在Jupyter Notebook 中运行
jupyter notebook环境搭建
文章目录
- 1. Pandas加载数据
-
- 1.1 根据 列名 加载数据
- 1.2 根据 行 加载数据
- 1.3 加载 指定行, 指定列 的数据
- 2. 分组聚合
- 3. Pandas基本绘图
- 5. 常用的排序函数
-
- 5.1 找到 小成本 高口碑的电影
- 5.2 找到每年 imdb评分最高的电影.
- 5.3 提取每年, 每种电影分级中 预算少的电影.
import numpy as np
import pandas as pd
import os
os.chdir(r'D:\hm\homework\pywork\workProject\numpyProject') # 改变当前的工作目录. change current work directory
1. Pandas加载数据
# 1. 读取文件, 获取df对象.
df = pd.read_csv('data/gapminder.tsv', sep='\t')
df.head()
1.1 根据 列名 加载数据
# 场景1: 加载1列数据.
# 格式: df['列名'] 或者 df.列名
df['country']
df.country
# 场景2: 加载多列数据.
# 格式: df[['列名1', '列名2'...]]
df[['country', 'year', 'lifeExp']]
1.2 根据 行 加载数据
# head(), 默认是前5行
df.head()
df.head(n=2) # 前2行
# tail(), 默认是后5行
df.tail()
df.tail(n=3) # 后3行
df.tail(n=1) # 最后1行
# loc: 根据 索引列 来获取数据的.
df.loc[0] # 第1行 => Series对象
df.loc[[0, 1, 2]] # 第1, 2, 3行 => DataFrame对象
# df.loc[-1] # 最后一行, 如果写-1, 则: 报错.
# iloc: 根据 行号 来获取数据的.
df.iloc[0] # 第1行 => Series对象
df.iloc[[0, 1, 2]] # 第1, 2, 3行 => DataFrame对象
df.iloc[-1] # 最后一行
1.3 加载 指定行, 指定列 的数据
# 格式: df对象.loc[[行], [列]] # 索引列值 + 列名 的方式获取.
# 格式: df对象.iloc[[行], [列]] # 行号 + 列的编号(索引) 的方式获取.
# 1. 精准的获取某几行的, 某几列.
df.loc[[0, 21, 211], :] # : 可以代表: 所有行, 所有列.
df