pandas 之 pivot_table 与 pivot 的区别

本文详细介绍了Pandas中的pivot和pivot_table函数。pivot用于数据重塑,但不支持聚合,当出现重复数据时会报错。而pivot_table不仅能够进行数据重塑,还能进行聚合操作,适用于处理包含重复数据的场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、pivot:通过指定的索引和列对数据进行重塑,无法聚合。

语法:

DataFrame.pivot(self, index=None, columns=None, values=None)

构建一个 DataFrame 数据

df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two',
                           'two'],
                   'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'baz': [1, 2, 3, 4, 5, 6],
                   'zoo': ['x', 'y', 'z', 'q', 'w', 't']})
                   
df
    foo   bar  baz  zoo
0   one   A    1    x
1   one   B    2    y
2   one   C    3    z
3   two   A    4    q
4   two   B    5    w
5   two   C    6    t

使用 pivot 进行重塑

df.pivot(index='foo', columns='bar', values='baz')
bar  A   B   C
foo
one  1   2   3
two  4   5   6

在这里插入图片描述

df.pivot(index='foo', columns='bar')
Out[129]: 
    baz       zoo      
bar   A  B  C   A  B  C
foo                    
one   1  2  3   x  y  z
two   4  5  6   q  w  t

但是,如果指定的 index + columns 构成的数据里面存在重复的情况,将会报错

df = pd.DataFrame({"foo": ['one', 'one', 'two', 'two'],
                   "bar": ['A', 'A', 'B', 'C'],
                   "baz": [1, 2, 3, 4]})
df
   foo bar  baz
0  one   A    1
1  one   A    2
2  two   B    3
3  two   C    4

df.pivot(index='foo', columns='bar', values='baz')

Traceback (most recent call last):  # 报错内容
   ...
ValueError: Index contains duplicate entries, cannot reshape


2、pivot_table:通过指定的索引和列对数据进行重塑,可以聚合

语法:

DataFrame.pivot_table(self, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)

构建一个 DataFrame 数据

# 仍然使用上一个被报错的例子
df = pd.DataFrame({"foo": ['one', 'one', 'two', 'two'],
                   "bar": ['A', 'A', 'B', 'C'],
                   "baz": [1, 2, 3, 4]})
df
   foo bar  baz
0  one   A    1
1  one   A    2
2  two   B    3
3  two   C    4

使用 pivot_table 进行重塑、聚合

df.pivot_table(index='foo', columns='bar', values='baz')  # 默认的聚合函数为:mean
Out[135]: 
bar    A    B    C
foo               
one  1.5  NaN  NaN
two  NaN  3.0  4.0

# 还可以进行其他聚合操作,比如:求和
df.pivot_table(index='foo', columns='bar', values='baz').sum()
Out[136]: 
bar
A    1.5
B    3.0


综述:

1. pivot:无法聚合,只能简单重塑,如果存在重复数据将会报错;常用于处理非数字数据。
2. pivot_table:可以聚合,正好弥补 pivot 的缺陷。

### 回答1: Pandaspivot_table 是一个用于创建二维表格的函数,它可以根据一个或多个键将数据分组,并计算每组数据的某个值。它可以自动根据键分组数据,并计算每组数据的某个值,例如平均值、总、计数等。pivot_table还支持自定义聚合函数,允许更灵活的数据处理。 ### 回答2: pandaspivot_table是一种用于数据透视的功能。它可以将一个DataFrame中的数据按照给定的索引、列value进行重排聚合,从而创建一个新的DataFrame。 pivot_table函数的常见参数包括index,用于指定要作为新表索引的列;columns,用于指定要作为新表列的列;values,用于指定要聚合的列;aggfunc,用于指定聚合函数。pivot_table还有其他可选参数,如fill_value、margins等。 具体而言,pivot_table会将上述参数指定的列的值作为新表的索引列,并在新表中聚合指定的数据列的值。例如,如果我们有一个包含销售数据的DataFrame,其中包含销售人员、产品、销售额销售数量等信息,则可以使用pivot_table来生成一个新的表格,其中行为销售人员,列为产品,值为销售额或销售数量,以便更好地了解不同销售人员销售不同产品的情况。 pivot_table还支持多级索引列,这意味着可以根据多个列的值对数据进行分组聚合。 总之,pandaspivot_table是一个强大且灵活的功能,可以根据需要将数据重排聚合,帮助我们更好地理解数据的结构趋势,从而支持更好的数据分析决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值