注:
数据集team.xlsx,可以从网址 https://www.gairuo.com/file/data/dataset/team.xlsx下载
一、调用Pandas的所有功能
import pandas as pd # 引入 Pandas库,按惯例起别名pd
二、读取数据
# 以下两种效果一样,如果是网址,它会自动将数据下载到内存
df = pd.read_excel('https://www.gairuo.com/file/data/dataset/team.xlsx')
df = pd.read_excel('team.xlsx') # 文件在notebook文件同一目录下
# 如果是CSV,使用pd.read_csv(),还支持很多类型的数据读取
三、查看数据
df.head() # 查看前5条,括号里可以写明你想看的条数
df.tail() # 查看尾部5条
df.sample(5) # 随机查看5条
四、验证数据
df.shape # 查看行数和列数,不需要加括号
df.info() # 查看数据类型、索引情况、行列数、各字段数据类型、 内存占用等
df.describe() # 查看数值型列的汇总统计
df.dtypes # 查看各字段类型,不需要加括号
df.axes # 显示数据行和列名,不需要加括号
df.columns # 列名,不需要加括号
五、建立索引
df.set_i