DataFrame常用命令

本文深入探讨了Pandas库在数据处理方面的高级应用,包括DataFrame的创建、索引操作、数据清洗、聚合分析、文件读写及转换等关键功能。通过实例演示了如何使用Pandas进行高效的数据分析和处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

df = pd.DataFrame(np.random.randn(6,4), 
    index = ['one','two','three','four','five', 'six'], 
    columns = list('abcd'))

df.index
df.columns
df.head()
df.tail()
df['a']
df.loc['one']
df.loc[['one','four'],['a','c']]
df.iloc[3]
df.describe()
df.sort_values(by = 'c')
df.reindex([1,2,4,6])
df.reindex(index = [2,3], columns =['a','b'])
del df['a']
df.dropna(how = 'all')
df.fillna(0)


df.apply(lambda x : x.max() - x.min())
df['a'].apply | map(lambda x: x + 10)
df.applymap(lambda x: x + 10)
df.idxmax()
df.a.value_counts()[:10]

pd.read_csv('aaa.csv',sep = ',', skiprows = [0,1])
pd.read_csv('aaa.csv',headers = None, names = ['one','two'], nrows = 3)
data.to_csv('aaa.csv', index = False)
pd.read_excel('aaa.xslx', sheetname = 'ajfdla')
pd.read_csv('aaa.csv', index_col = 'location')


data.stack()
data.unstack()
data.duplicated()
data.drop_duplicated( |'one')
data.replace(2, np.nan)
data.k2.map(lambda x : x.replace("beijing", "shanghai"))
data.k2.str.replace("beijing", "shanghai")


bins = [0,10,20,30,40]
cats = pd.cut(data.k1, bins|4)
cats.value_counts()

groupby(df["animal"])['weight'].mean()
groupby("animal")['weight'].mean()
groupby("animal")['weight'].apply(lambda x: x - x.mean())
groupby("animal").size()

gb = groupby(['animal'])
gb.get_group('cat')

dic = {'a':'aa', 'b':'bb'}
data.columns = data.columns.map(lambda x: dic.get(x))
data.group(['leixing','gongzi'])['yuegongshi'].mean().unstack()

(data[['a','b','c']].isnull()).sum()
data = data[['a','b','c']].dropna()

复制代码
Pandas是Python中一个强大的数据处理库,它提供了一个灵活的数据结构DataFrame,用于数据清洗、转换、分析等操作。以下是一些常用的Pandas命令: 1. **数据读取**: - `pd.read_csv(file_path)`:从CSV文件读取数据。 - `pd.read_excel(file_path)`:读取Excel文件。 - `pd.read_sql_query(sql, con)`:从SQL数据库查询数据。 2. **创建DataFrame**: - `pd.DataFrame(data, index=None, columns=None)`:根据数据创建DataFrame。 - `pd.DataFrame({'column1': data1, 'column2': data2}, index=...)`:指定列和索引。 3. **查看数据**: - `df.head()`:显示数据框的前几行。 - `df.tail()`:显示数据框的后几行。 - `df.info()`:显示数据的基本信息,包括每列的非空值数量等。 4. **数据清洗**: - `df.dropna()`:删除含有缺失值的行或列。 - `df.fillna(value)`:填充缺失值。 - `df.replace(to_replace, value)`:替换特定值。 5. **数据选择与切片**: - `df['column_name']`:选择单列数据。 - `df.iloc[row_index, column_index]`:按位置选择元素。 - `df.loc[row_label, column_label]`:按标签选择元素。 6. **数据操作**: - `df.groupby('column')`:按列分组。 - `df.merge(df2, on='key', how='inner')`:合并数据。 - `df.sort_values(by='column')`:按某列排序。 7. **数据统计**: - `df.describe()`:计算各数值列的统计摘要。 - `df.sum()`, `df.mean()`, `df.min()`, `df.max()`:计算各类统计量。 8. **数据透视表**: - `df.pivot_table(values='value_column', index='index_column', columns='column_column')`:创建数据透视表。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值