9 Pandas之DateFrame&数据可视化

最新推荐文章于 2025-02-15 16:13:30 发布

原创

最新推荐文章于 2025-02-15 16:13:30 发布 · 1.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #信息可视化 #python #dataframe #pandas绘图

欢迎来到@一夜看尽长安花博客，您的点赞和收藏是我持续发文的动力

对于文章中出现的任何错误请大家批评指出，一定及时修改。有任何想要讨论的问题可联系我：[email protected] 。发布文章的风格因专栏而异，均自成体系，不足之处请大家指正。

专栏：

java全栈

C&C++

PythonAI

PCB设计

Linux云计算&运维

文章概述：对 Pandas之DateFrame&数据可视化的介绍

关键词：Pandas之DateFrame&数据可视化

本文目录：

DataFrames

Pandas之DataFrame取值和切片

indexing, selecting, slicing

conditional selection (boolean arrays)

丢弃数据

操作广播机制

DataFrame操作之添加列、修改行列名称、inplace参数

renaming columns

DataFrame操作之添加行、根据已有列创建新的列、设置某列为索引、head、tail、describe

添加

通过其它列创建新的列

查看头部和尾部信息

统计信息

Pandas读取本地CSV文件

reading external data

添加自己的columns

Pandas数据可视化

pandas 绘图

调节画布大小

行列限定绘制内容并添加标题

绘制其他图形

DataFrame按值或按索引排序、apply函数

sorting and functions

DataFrame数据框merge整合、dropna与fillna函数

join、merge

处理缺失值

DataFrames

import numpy as np
import pandas as pd

df = pd.DataFrame({
  'Population': [35.467, 63.951, 80.940, 60.665, 127.061, 64.511, 318.523],
  'GDP': [
    1785387,
    2833687,
    3874437,
    2167744,
    4602367,
    2950039,
    17348075
   ],
  'Surface Area': [
    9984670,
    640679,
    357114,
    301336,
    377930,
    242495,
    9525067
   ],
  'HDI': [
    0.913,
    0.888,
    0.916,
    0.873,
    0.891,
    0.907,
    0.915
   ],
  'Continent': [
    'America',
    'Europe',
    'Europe',
    'Europe',
    'Asia',
    'Europe',
    'America'
   ]
}, columns=['Population', 'GDP', 'Surface Area', 'HDI', 'Continent'])


print(df) # 有行有列，像table表一样的，dataframe的每一列就是一个series，也就是说我们可以把dataframe看成是一系列series的组合


# 我们可以像之前一样去给上index
df.index = [
  'canada',
  'France',
  'Germany',
  'Italy',
  'Japan',
  'United Kingdom',
  'United States'
]

print("-----------------------------------------------------------------------------------------")
print(df)
print("-----------------------------------------------------------------------------------------")
print(df.columns)
print("-----------------------------------------------------------------------------------------")
print(df.index)
print("-----------------------------------------------------------------------------------------")
print(df.info()) # 会告诉我们每列的数据类型，还会告诉我们有没有空值，有助于我们去做数据清洗data clean
print("-----------------------------------------------------------------------------------------")
print(df.size)
print("-----------------------------------------------------------------------------------------")
print(df.shape)
print("-----------------------------------------------------------------------------------------")
print(df.describe()) # 给出可以统计的列的统计值
print("-----------------------------------------------------------------------------------------")
print(df.dtypes) #查看每一columns的数据类型
print("-----------------------------------------------------------------------------------------")
print(df.dtypes.value_counts())

Pandas之DataFrame取值和切片

indexing, selecting, slicing

print(df)
print(df.loc['canada']) # 选择整行
print(df.iloc[-1]) # 选择最后一整行
print(df['Population']) # 选择整列
# 但是不管选择一行一列，返回给我们的都是series
print(df['Population'].to_frame())#又将一维数组series转换成了表格
#multiple indexing
print(df[['Population', 'GDP']])
print(df[1:3])
print(df.loc['Italy'])
print(df.loc['France': 'Italy'])
print("---------------------------------------------------------")
#通常使用 loc和iloc
#行和列
# 同时操作两个维度
print(df.loc['France':'Italy', 'Population'])
print(df.loc['France':'Italy', ['Population','GDP']])

# 对于iloc也是一样
print(df)
print(df.iloc[0])
print(df.iloc[-1])

print(df.iloc[[0, 1, -1]])
print(df.iloc[1:3])
print(df.iloc[1:3, 3])
print(df.iloc[1:3, [0,