Python-Pandas学习笔记——基础-CSDN博客

本文链接：https://blog.csdn.net/broken312/article/details/149009749

Pandas

用于数据分析、数据处理以及数据可视化

特点
- 高性能
- 容易使用的数据结构、以及数据工具

Pandas 主要引入了两种新的数据结构：Series 和 DataFrame。

Series：类似于一维数组或列表,是由一组数据以及与之相关的数据标签(索引)构成。
Series 可以看作是 DataFrame 中的一列,也可以是单独存在的一维数据结构。

DataFrame：类似于一个二维表格,它是 Pandas 中最重要的数据结构。
DataFrame 可以看作是由多个 Series 按列排列构成的表格,它既有行索引也有列索引,因此可以方便地进行行列选择、过滤、合并等操作。

Series + Series = DataFrame

安装(原生python)：`pip install 包名 -i https://pypi.tuna.tsinghua.edu.cn/simple`

导入pandas(别名pd)：import pandas as pd
使用pandas.__version__ 查看版本

Pandas 数据结构 - Series

Series 是 Pandas 中的一个核心数据结构,类似于一个一维的数组,具有数据和索引。
Series 可以存储任何数据类型(整数、浮点数、字符串等),并通过标签(索引)来访问元素。
Series 的数据结构是非常有用的,因为它可以处理各种数据类型,同时保持了高效的数据操作能力,比如可以通过标签来快速访问和操作数据。

特点：

一维数组：Series 中的每个元素都有一个对应的索引值。
索引：每个数据元素都可以通过标签(索引)来访问,默认情况下索引是从 0 开始的整数,但你也可以自定义索引。
数据类型： Series 可以容纳不同数据类型的元素,包括整数、浮点数、字符串、Python 对象等。
大小不变性：Series 的大小在创建后是不变的,但可以通过某些操作(如 append 或 delete)来改变。
操作：Series 支持各种操作,如数学运算、统计分析、字符串处理等。
缺失数据：Series 可以包含缺失数据,Pandas 使用NaN(Not a Number)来表示缺失或无值。
自动对齐：当对多个 Series 进行运算时,Pandas 会自动根据索引对齐数据,这使得数据处理更加高效。
大概长这样
Series Index1 Series Name1
Series Index1 Series Values1
Series Index1 Series Values1
Series Index1 Series Values1

Series Index1	Series Name1
Series Index1	Series Values1
Series Index1	Series Values1
Series Index1	Series Values1

构造方法

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

data:Series的数据部分；如果没有提供此参数则创建一个空的series
index:Series的索引部分,用于对数据的标记；如果没有提供此参数则创建一个默认的整数索引
dtype：指定 Series 的数据类型,如果不提供此参数,则根据数据自动推断数据类型。
name：Series 的名称,用于标识 Series 对象。如果提供了此参数,则创建的 Series 对象将具有指定的名称。
copy：是否复制数据。默认为 False,表示不复制数据。如果设置为 True,则复制输入的数据。
fastpath：是否启用快速路径。默认为 False。启用快速路径可能会在某些情况下提高性能。
如果导入dict字典型,那么key就变成了索引值

Series 方法

import pandas as pd
str = pd.Series() #创建Series

str.方法 #运用
str['索引'] # 返回索引标签 'a' 对应的元素
s[1:4]  # 获取索引为1到3的值

# 索引和值的对应关系
for index, value in s.items():
    print(f"Index: {index}, Value: {value}")
	
# 为特定的索引标签赋值
s['a'] = 10  # 将索引标签 'a' 对应的元素修改为 10

# 通过赋值给新的索引标签来添加元素
s['e'] = 5  # 在 Series 中添加一个新的元素,索引标签为 'e'

# 使用 del 删除指定索引标签的元素。
del s['a']  # 删除索引标签 'a' 对应的元素

# 使用 drop 方法删除一个或多个索引标签,并返回一个新的 Series。
s_dropped = s.drop(['b'])  # 返回一个删除了索引标签 'b' 的新 Series

# 算术运算
result = s * 2  # 所有元素乘以2

# 过滤(使用布尔表达式)
filtered_series = s[s > 2]  # 选择大于2的元素

# 数学函数
import numpy as np
result = np.sqrt(series)  # 对每个元素取平方根

方法名称	功能描述
.index	获取 Series 的索引
.head(n)	返回 Series 的前 n 行(默认为 5)
.tail(n)	返回 Series 的后 n 行(默认为 5)
.iloc[]	按整数位置选择数据
.loc[]	通过标签索引来选择数据
.values	获取 Series 的数据部分(返回 NumPy 数组)
.dtype	返回 Series 中数据的类型
.map(func,na_action=None)	将指定函数应用于 Series 中的每个元素;(func：函数、字典或 Series(用于映射);na_action：None 或 ‘ignore’(忽略 NaN 值))
.sum(axis=None, skipna=True,level=None,numeric_only=None, min_count=0,`**kwargs`)	输出 Series 的总和;(axis：{0 或 ‘index’}，对 Series 无实际作用skipna：是否排除 NA/null 值(默认 True);level：多级索引时指定层级;numeric_only：仅包含 float/int/bool 列(对 Series 无意义);min_count：计算所需的最小有效值数量(默认 0;`**kwargs`：其他关键字参数)
.mean(axis=None, skipna=True,level=None,numeric_only=None)	输出 Series 的平均值(同`sum`)
.max(axis=None, skipna=True,level=None,numeric_only=None)	输出 Series 的最大值(同`sum`)
.min(axis=None, skipna=True,level=None,numeric_only=None)	输出 Series 的最小值(同`sum`)
.std(axis=None, skipna=True,level=None,ddof=1,numeric_only=None)	输出 Series 的标准差(ddof：自由度增量(Delta Degrees of Freedom)，计算标准差时的分母为 N - ddof)
.size()	输出元素个数
.idxmax(skipna=True, axis=None)	获取最大值的索引(skipna：是否跳过 NaN 值。)
.idxmin(skipna=True, axis=None)	获取最小值的索引(skipna：是否跳过 NaN 值。)
.unique()	返回 Series 中的唯一值(去重)
.dropna(axis=0, inplace=False)	删除 Series 中的缺失值(NaN)(inplace：是否原地修改(默认为 False)。)
.apply(func,convert_dtype=True,args=(),`**kwargs`)	将指定函数应用于 Series 中的每个元素,常用于自定义操作(func：自定义函数。;convert_dtype：是否尝试转换结果类型(默认为 True))
.astype(dtype,copy=True,errors=‘raise’)	将 Series 转换为指定的类型(dtype：目标类型（如 int、float、str）;errors：‘raise’（报错）或 ‘ignore’（忽略错误）。)
.cov(other, min_periods=None;ddof=1)	计算 Series 与另一个 Series 的协方差;(other：另一个 Series;min_periods：计算所需的最小样本数。; ddor:自由度增量)
.cumsum(axis=None, skipna=True)	返回 Series 的累计求和
.cumprod()	返回 Series 的累计乘积
.corr(other,method=‘pearson’,min_periods=None)	计算 Series 与另一个 Series 的相关性(皮尔逊相关系数);(method：‘pearson’（默认）、‘spearman’ 或 ‘kendall’。)
.describe(percentiles=None,include=None,exclude=None)	返回 Series 的统计描述(如均值、标准差、最小值等);(percentiles：自定义分位数（如 [0.1, 0.5, 0.9]）)
.isnull()	返回一个布尔 Series,表示每个元素是否为 NaN
.notnull()	返回一个布尔 Series,表示每个元素是否不是 NaN
.shape	返回 Series 的形状(行数)
.value_counts(normalize=False,sort=True,ascending=False,bins=None,dropna=True)	返回 Series 中每个唯一值的出现次数;(normalize：是否返回比例（默认为 False）;bins：分箱数（用于数值分段统计）)
.sort_values(axis=0, ascending=True, inplace=False, kind=‘quicksort’,na_position=‘last’)	对 Series 中的元素进行排序(按值排序);(ascending：升序（True）或降序（False）;na_position：‘first’ 或 ‘last’（NaN 值的位置）)
.sort_index(axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’, ignore_index=False, key=None)	对 Series 的索引进行排序;(ascending：升序（True）或降序（False）;na_position：‘first’ 或 ‘last’（NaN 值的位置）)
.fillna(value=None, method=None, axis=None, inplace=False, limit=None) (原表拼写为 fillbackvalue)	填充 Series 中的缺失值(NaN);(value：填充值（标量、字典或 Series）;method：‘ffill’（向前填充）或 ‘bfill’（向后填充）)
.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method=‘pad’)	替换 Series 中指定的值;(to_replace：被替换的值（标量、列表、字典或正则表达式）;value：替换后的值 )
.shift(periods=1, freq=None, axis=0, fill_value=None)	将 Series 中的元素按指定的步数平移数据;(periods：移动的步数（正数向下，负数向上）;fill_value：填充新位置的值 )
.rank(method=‘average’, ascending=True, na_option=‘keep’, pct=False)	返回 Series 中元素的排名;(method：‘average’（默认）、‘min’、‘max’、‘first’、‘dense’ ;pct：是否返回百分比排名 )
.to_list()	将 Series 转换为 Python 列表
.to_frame(name=None)	将 Series 转换为 DataFrame;(name：列名（默认为原 Series 名称或 0）)

注意：

Series 中的数据是有序的。
可以将 Series 视为带有索引的一维数组。
索引可以是唯一的,但不是必须的。
数据可以是标量、列表、NumPy 数组等。

Pandas 数据结构 - DataFrame

DataFrame 是 Pandas 中的另一个核心数据结构,类似于一个二维的表格或数据库中的数据表。
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。
DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
DataFrame 提供了各种功能来进行数据访问、筛选、分割、合并、重塑、聚合以及转换等操作。
DataFrame 是一个非常灵活且强大的数据结构,广泛用于数据分析、清洗、转换、可视化等任务。

特点：

二维结构： DataFrame 是一个二维表具有行和列。可以将其视为多个 Series 对象组成的字典。
列的数据类型：不同的列可以包含不同的数据类型。
索引：DataFrame 可以拥有行索引和列索引,类似于 Excel 中的行号和列标。
大小可变：可以添加和删除列,类似于 Python 中的字典。
自动对齐：DataFrame 会自动对齐索引。
处理缺失数据：DataFrame 可以包含缺失数据,Pandas 使用 NaN(Not a Number)来表示。
数据操作：支持数据切片、索引、子集分割等操作。
时间序列支持：DataFrame 对时间序列数据有特别的支持,可以轻松地进行时间数据的切片、索引和操作。
丰富的数据访问功能：通过 .loc、.iloc 和 .query() 方法,可以灵活地访问和筛选数据。
灵活的数据处理功能：包括数据合并、重塑、透视、分组和聚合等。
高效的数据输入输出：可以方便地读取和写入数据,支持多种格式,如 CSV、Excel、SQL 数据库和 HDF5 格式。
描述性统计：提供了一系列方法来计算描述性统计数据,如 .describe()、.mean()、.sum() 等。
灵活的数据对齐和集成：可以轻松地与其他 DataFrame 或 Series 对象进行合并、连接或更新操作。
转换功能：可以对数据集中的值进行转换,例如使用 .apply() 方法应用自定义函数。
滚动窗口和时间序列分析：支持对数据集进行滚动窗口统计和时间序列分析。

方法：

构造方法：pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

import pandas as pd

#创建DataFrame
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],columns=['Column1', 'Column2', 'Column3'])

# 通过字典创建 DataFrame
df = pd.DataFrame({'Column1': [1, 2, 3], 'Column2': [4, 5, 6]})

# 通过 NumPy 数组创建 DataFrame
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))

# 从 Series 创建 DataFrame
s1 = pd.Series(['Alice', 'Bob', 'Charlie'])
s2 = pd.Series([25, 30, 35])
s3 = pd.Series(['New York', 'Los Angeles', 'Chicago'])
df = pd.DataFrame({'Name': s1, 'Age': s2, 'City': s3})

# 修改DataFrame

# 添加列
df['Column1'] = [10, 11, 12] #修改**列**数据：直接对列进行赋值。
df['NewColumn1'] = [10, 11, 12] #添加新**列**：给新列赋值。

# 添加行
# 使用 loc 为特定索引添加新行
df.loc[3] = [13, 14, 15, 16]

# 使用 append 添加新行到末尾
new_row = {'Column1': 13, 'Column2': 14, 'NewColumn': 16}
df = df.append(new_row, ignore_index=True)

# 使用concat添加新行
new_row = pd.DataFrame([[4, 7]], columns=['A', 'B'])  # 创建一个只包含新行的DataFrame
df = pd.concat([df, new_row], ignore_index=True)  # 将新行添加到原始DataFrame

# 删除DataFrame元素
 
#删除列
df_dropped = df.drop('Column1', axis=1)

#删除行
df_dropped = df.drop(0)  # 删除索引为 0 的行

# DataFrame 的统计分析

df.describe() # 描述性统计

# 计算统计数据：使用聚合函数如 .sum()求和、.mean()平均值、.max()最大值 等。
df['Column1'].sum()
df.mean()

# DataFrame 的索引操作

df.reset_index(drop=True)#重置索引

df.set_index('Column1')#设置索引

# 索引和切片
print(df[['Name', 'Age']])  # 提取多列
print(df[1:3])               # 切片行
print(df.loc[:, 'Name'])     # 提取单列
print(df.loc[1:2, ['Name', 'Age']])  # 标签索引提取指定行列
print(df.iloc[:, 1:])        # 位置索引提取指定列

df[df['Column1'] > 2]# DataFrame 的布尔索引

df.dtypes # 查看数据类型

df['Column1'] = df['Column1'].astype('float64') #转换数据类型

# DataFrame 的合并与分割

# 纵向合并
pd.concat([df1, df2], ignore_index=True)

# 横向合并
pd.merge(df1, df2, on='Column1')

# 长格式转宽格式
df_pivot = df.pivot(index='Column1', columns='Column2', values='Column3')

# 宽格式转长格式
df_melt = df.melt(id_vars='Column1', value_vars=['Column2', 'Column3'])

方法名称	功能描述
.to_csv(‘名称’)	将 DataFrame 导出为 CSV 文件
.to_excel(‘名称’)	将 DataFrame 导出为 Excel 文件
.to_json(‘名称’)	将 DataFrame 导出为 JSON 格式
.to_sql(‘名称’)	将 DataFrame 导出为 SQL 数据库
.concat()	按行或按列连接多个 DataFrame
.head(n)	返回 DataFrame 的前 n 行数据(默认前 5 行)
.tail(n)	返回 DataFrame 的后 n 行数据(默认后 5 行)
.info()	显示 DataFrame 的简要信息，包括列名、数据类型、非空值数量等
.dtypes	返回每一列的数值数据类型
.describe()	返回 DataFrame 数值列的统计信息，如均值、标准差、最小值等
.groupby(by)	分组操作，用于按某一列分组进行汇总统计
.mean()	返回平均值
.sun()	返回和
.shape	返回 DataFrame 的行数和列数(行数, 列数)
.columns	返回 DataFrame 的所有列名
.index	返回 DataFrame 的行索引
.set_index()	设置 DataFrame 的索引
.reset_index()	重置 DataFrame 的索引
.sort_values(by=“”)	按照指定列排序
.sort_index()	按行索引排序
.dropna()	删除含有缺失值(NaN)的行或列
.drop_duplicates()	删除重复的行
.fillna(value)	用指定的值填充缺失值
.isnull()	判断缺失值，返回一个布尔值 DataFrame
.notnull()	判断非缺失值，返回一个布尔值 DataFrame
.at[]	访问 DataFrame 中单个元素(比 loc[] 更高效)
.iat[]	访问 DataFrame 中单个元素(比 iloc[] 更高效)
.apply(func)	对 DataFrame 或 Series 应用一个函数
.applymap(func)	对 DataFrame 的每个元素应用函数(仅对 DataFrame)
.pivot_table()	创建透视表
.merge()	合并多个 DataFrame(类似 SQL 的 JOIN 操作)
.query()	使用 SQL 风格的语法查询 DataFrame
.duplicated()	返回布尔值 DataFrame，指示每行是否是重复的
.transpose()	转置 DataFrame(行列交换)

Pandas数据读取

导入pandas
```
import pandas as pd
```
Pandas需要先读取表格类型的数据,再进行分析
数据类型说明 Pandas读取方法
csv、tsv、txt 使用逗号分隔、tab分隔的纯文本文件 pd.read_csv
excel 微软xls或xlsx文件 pd.read_excel
mysql 关系类型数据库表 pd.read_sql

数据类型	说明	Pandas读取方法
csv、tsv、txt	使用逗号分隔、tab分隔的纯文本文件	`pd.read_csv`
excel	微软xls或xlsx文件	`pd.read_excel`
mysql	关系类型数据库表	`pd.read_sql`

data = pd.read_csv(`文件路径`) #读取数据

data.head(n) #查看前n行数据

data.shape #查看数据的形状,返回(行数、列数)

data.columns #查看列名列表

data.index #查看索引列

data.dtypes #查看每列的数据类型