1. 读取数据
import pandas as pd
df = pd.read_csv('data.csv')
-
也可以使用
read_excel
,read_json
,read_sql
,read_parquet
等。
2. 查看数据基本信息
df.head() # 查看前5行
df.tail() # 查看后5行
df.info() # 数据类型与缺失信息
df.describe() # 数值型列的统计摘要
3. 选择行列
df['列名'] # 选择单列
df[['列1', '列2']] # 选择多列
df.iloc[0:3] # 通过位置选取行
df.loc[df['列名'] > 100] # 条件筛选
4. 缺失值处理
df.isna().sum() # 每列缺失值数量
df.dropna() # 删除含缺失值的行
df.fillna(0) # 填充缺失值
5. 数据排序
df.sort_values(by='列名', ascending=False)
6. 新增列 / 修改列
df['新列'] = df['列1'] + df['列2'] # 新增列
df['列1'] = df['列1'].apply(lambda x: x*2) # 修改列
7. 分组聚合(groupby)
df.groupby('列名')['数值列'].mean() # 求平均
df.groupby(['列1', '列2']).agg({'值': 'sum'}) # 多重分组
8. 去重
df.drop_duplicates() # 删除重复行
df.drop_duplicates(subset='列名') # 根据某列去重
9. 合并与连接
pd.concat([df1, df2]) # 纵向拼接
pd.merge(df1, df2, on='id') # 横向关联(类SQL的join)
10. 导出数据
df.to_csv('output.csv', index=False)
df.to_excel('output.xlsx', index=False)