前言
大家好。在数据分析挖掘中,通常先是编写sql代码在数仓加工海量数据,然后再是利用python来进行数据处理加工便于后期的分析和建模,通常主流是通过python来进行数据加工建模。工欲善其事,必先利其器。之前陆续给大家陆续分享一些pandas的核心语法和可视化的技巧,但都是比较零散的。趁着周末时间充裕,累计耗时7天整理一份pandas核心技能用法的精品教程,全是干货。本教程具有下面的特点:
-
是基于pandas的2.2.0版本的;
-
深入浅出的介绍pandas的核心用法,并提供丰富的案例。
-
对pandas在数据处理和可视化中常用的核心技能进行深度总结。
-
覆盖正则表达式、条件筛选、聚合、排序、函数式编程、图表可视化、数据挖掘处理常用函数等多个方面。
-
本文于市面上其他教程相比,案例内容更加丰富,实用技巧更强。
-
读者看过本文教程后,对数据的加工处理更加游刃有余。
涉及知识点较多,大家可以收藏仔细阅读。如果对大家有帮助,还请点赞关注转发~
关注z先生的备忘录公众号,学习数据洞察、大模型、可视化等三个方向领域持续干货分享,后续会依次出工具篇、应用篇、业务篇等等精品教程,让你在数据领域如入无人之境~
还是老规矩,本文涉及的python等相关各库版本信息如下:
# !pip install pandas_flavor==0.6.0
# !pip install pyjanitor==0.26.0
# !pip install mpl_font==1.1.0
# !pip install mplcyberpunk==0.7.1
import numpy as np
import pandas as pd
import pandas_flavor
import janitor
import matplotlib
import mplcyberpunk
import seaborn as sns
import scipy
import numba
import warnings
warnings.filterwarnings('ignore')
print("numpy:",np.__version__) # numpy: 1.26.3
print("pandas:", pd.__version__) # pandas: 2.2.0
print("pandas_flavor: 0.6.0") # pandas_flavor: 0.6.0
print("matplotlib:",matplotlib.__version__) #matplotlib: 3.7.4
print("seaborn:",sns.__version__) # seaborn: 0.12.2
print("scipy:",scipy.__version__) # scipy: 1.11.4
print("numba:",numba.__version__) # numba: 0.58.1