【第5章Pandas实战案例与解析整理数据】5.286 Pandas高级技巧：使用extract()将一列拆分成多列

本文链接：https://blog.csdn.net/jrckkyy/article/details/145886065

在这里插入图片描述

5.286 Pandas高级技巧：使用extract()将一列拆分成多列

原理介绍
实操代码例子
参考文献

原理介绍

在数据处理和分析中，经常需要从一列中的字符串提取特定部分并将其拆分成多列。Pandas库提供了多种方法来实现这一目标，其中str.extract()函数是一种非常灵活且强大的方法。本文将详细介绍如何使用str.extract()函数将一列拆分成多列，并通过多个示例展示具体的应用。

什么是`str.extract()`函数？

str.extract()函数是Pandas库中用于字符串操作的一个方法。该函数接受一个正则表达式作为参数，并根据该表达式从字符串中提取匹配的部分。返回值是一个新的DataFrame，包含提取出的列。str.extract()函数可以同时提取多个组，并将每个组的结果放在不同的列中。

使用`str.extract()`函数的优势

灵活性：可以使用复杂的正则表达式进行精确匹配。
简洁性：语法简洁明了，易于理解和使用。
性能：对于大量数据的处理，str.extract()函数通常比逐行操作更高效。
不修改原始数据：返回一个新的DataFrame，不会修改原始数据。

数学公式

假设我们有一个包含多行数据的DataFrame ( D )，其中某一列 ( C ) 包含字符串。我们需要从这些字符串中提取特定部分并将其拆分成多列 ( C_1, C_2, \ldots, C_n )。可以使用以下公式表示：

$C_1, C_2, \ldots, C_n = C \text{.extract}(R)$

其中：

( D ) 是原始 DataFrame。
( C ) 是包含字符串的现有列。
( R ) 是正则表达式。
( C_1, C_2, \ldots, C_n ) 是提取后的列。

计算过程

准备数据：准备好要操作的DataFrame。
构建正则表达式：根据需求构建合适的正则表达式。
应用str.extract()函数：使用str.extract()函数从字符串中提取特定部分并拆分成多列。
验证结果：检查新生成的列是否正确。

实操代码例子

下面我们将通过多个示例演示如何使用str.extract()函数将一列拆分成多列。所有示例均假设已导入了必要的库：

import pandas as pd
import re

示例1: 创建一个初始的DataFrame

首先，我们创建一个初始的DataFrame。

# 创建一个初始的DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': ['apple-fruit-juice', 'banana-fruit-salad', 'carrot-vegetable-soup', 'date-fruit-dessert']
}

df = pd.DataFrame(data)

print("\n初始的DataFrame:")
print(df)

示例2: 使用`str.extract()`将一列拆分成多列

使用str.extract()函数将列 B 按照 - 分隔符拆分成三列。

# 使用str.extract()函数将列B拆分成三列
df[['C1', 'C2', 'C3']] = df['B'].str.extract(r'(\w+)-(\w+)-(\w+)')

print("\n将列B拆分成三列后的结果:")
print(df)

示例3: 提取多个组

如果需要提取多个组，可以使用更复杂的正则表达式。

# 使用更复杂的正则表达式提取多个组
df[['C1', 'C2', 'C3', 'C4']] = df['B'].str.extract(r'(\w+)-(\w+)-(\w+)-(\w+)')

print("\n提取多个组后的结果:")
print(df)

示例4: 处理缺失值

处理包含缺失值的情况，确保提取后的新列也包含相应的缺失值。

# 创建一个包含缺失值的DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': ['apple-fruit-juice', 'banana-fruit-salad', None, 'date-fruit-dessert']
}

df = pd.DataFrame(data)

# 使用str.extract()函数将列B拆分成三列
df[['C1', 'C2', 'C3']] = df['B'].str.extract(r'(\w+)-(\w+)-(\w+)')

print("\n处理包含缺失值的情况后的结果:")
print(df)

示例5: 处理不同分隔符

处理不同分隔符的情况，例如使用空格或逗号作为分隔符。

# 创建一个包含不同分隔符的DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': ['apple fruit juice', 'banana,fruit,salad', 'carrot vegetable soup', 'date fruit dessert']
}

df = pd.DataFrame(data)

# 使用空格作为分隔符
df[['C1_space', 'C2_space', 'C3_space']] = df['B'].str.extract(r'(\w+)\s+(\w+)\s+(\w+)')

# 使用逗号作为分隔符
df[['C1_comma', 'C2_comma', 'C3_comma']] = df['B'].str.extract(r'(\w+),(\w+),(\w+)')

print("\n处理不同分隔符的情况后的结果:")
print(df)

示例6: 结合Pandas的其他方法

结合Pandas的其他方法（例如，fillna）处理缺失值。

# 创建一个包含缺失值的DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': ['apple-fruit-juice', 'banana-fruit-salad', None, 'date-fruit-dessert']
}

df = pd.DataFrame(data)

# 使用str.extract()函数将列B拆分成三列
df[['C1', 'C2', 'C3']] = df['B'].str.extract(r'(\w+)-(\w+)-(\w+)')

# 使用fillna方法处理缺失值
df[['C1', 'C2', 'C3']] = df[['C1', 'C2', 'C3']].fillna('N/A')

print("\n结合Pandas的其他方法处理缺失值后的结果:")
print(df)

示例7: 处理嵌套分隔符

处理嵌套分隔符的情况，例如在同一个字符串中有多个分隔符。

# 创建一个包含嵌套分隔符的DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': ['apple-fruit-juice-drink', 'banana-fruit-salad-dish', 'carrot-vegetable-soup-bowl', 'date-fruit-dessert-plate']
}

df = pd.DataFrame(data)

# 使用str.extract()函数将列B按第一个分隔符拆分成三列
df[['C1', 'C2', 'C3']] = df['B'].str.extract(r'(\w+)-(\w+)-(\w+)')

print("\n处理嵌套分隔符的情况后的结果:")
print(df)

示例8: 结合自定义函数

结合自定义函数处理复杂的提取逻辑。

# 定义一个自定义函数，处理复杂的提取逻辑
def custom_extract(s):
    match = re.search(r'(\w+)-(\w+)-(\w+)', s)
    if match:
        return match.groups()
    else:
        return (None, None, None)

# 应用自定义函数
df[['C1', 'C2', 'C3']] = df['B'].apply(custom_extract).apply(pd.Series)

print("\n结合自定义函数处理复杂的提取逻辑后的结果:")
print(df)

示例9: 处理时间序列数据

处理时间序列数据时，将日期、时间和时区拆分成多列。

# 创建一个包含时间戳的DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': ['2023-01-01 12:00:00 UTC', '2023-01-02 13:00:00 EST', '2023-01-03 14:00:00 PST', '2023-01-04 15:00:00 GMT']
}

df = pd.DataFrame(data)

# 使用str.extract()函数将列B按空格拆分成多列
df[['Date', 'Time', 'TimeZone']] = df['B'].str.extract(r'(\d{4}-\d{2}-\d{2})\s+(\d{2}:\d{2}:\d{2})\s+(\w+)')

print("\n处理时间序列数据后的结果:")
print(df)

示例10: 结合Pandas的groupby方法

结合Pandas的groupby方法处理分组数据。

# 创建一个包含分组信息的DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': ['apple-fruit-juice', 'banana-fruit-salad', 'carrot-vegetable-soup', 'date-fruit-dessert'],
    'Category': ['Fruit', 'Fruit', 'Vegetable', 'Fruit']
}

df = pd.DataFrame(data)

# 使用groupby方法按Category分组
grouped = df.groupby('Category')

# 在每个组内使用str.extract()函数将列B拆分成多列
df[['C1', 'C2', 'C3']] = grouped['B'].transform(lambda x: x.str.extract(r'(\w+)-(\w+)-(\w+)')).apply(pd.Series)

print("\n结合Pandas的groupby方法处理分组数据后的结果:")
print(df)

示例11: 处理混合类型数据

处理包含混合类型数据的情况，例如字符串和数值。

# 创建一个包含混合类型数据的DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': ['apple-fruit-juice', 'banana-fruit-salad', 123, 'date-fruit-dessert']
}

df = pd.DataFrame(data)

# 使用str.extract()函数将列B拆分成多列
df[['C1', 'C2', 'C3']] = df['B'].astype(str).str.extract(r'(\w+)-(\w+)-(\w+)')

print("\n处理混合类型数据后的结果:")
print(df)

示例12: 结合Pandas的merge方法

结合Pandas的merge方法将提取后的列与另一个DataFrame合并。

# 创建一个包含提取后的列的DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': ['apple-fruit-juice', 'banana-fruit-salad', 'carrot-vegetable-soup', 'date-fruit-dessert']
}

df = pd.DataFrame(data)

# 使用str.extract()函数将列B拆分成多列
df[['C1', 'C2', 'C3']] = df['B'].str.extract(r'(\w+)-(\w+)-(\w+)')

# 创建另一个DataFrame
other_data = {
    'A': [1, 2, 3, 4],
    'D': ['X', 'Y', 'Z', 'W']
}

other_df = pd.DataFrame(other_data)

# 合并两个DataFrame
merged_df = pd.merge(df, other_df, on='A')

print("\n结合Pandas的merge方法将提取后的列与另一个DataFrame合并后的结果:")
print(merged_df)