dataframe正则extrace
时间: 2025-02-11 18:44:33 浏览: 33
### 使用正则表达式在 Pandas DataFrame 中进行数据提取
Pandas 提供了多种方法用于基于正则表达式的字符串操作,其中 `str.extract` 是专门用来从现有列中抽取匹配模式的新列的方法之一[^1]。
对于希望创建新列并填充由正则表达式定义的内容的情况,可以采用如下方式实现:
```python
import pandas as pd
# 创建示例 DataFrame
df = pd.DataFrame({'text': ['abc123', 'def456', 'ghi789']})
# 定义要从中提取子串的正则表达式;这里假设目标是从每条记录里获取数字部分
pattern = r'(\d+)'
# 应用 extract 方法,并指定返回 Series 或者 DataFrame 的名称
df['extracted_numbers'] = df['text'].str.extract(pattern)
print(df)
```
上述代码片段展示了如何利用 `str.extract()` 函数配合给定的正则表达式模式来解析原始文本字段,并将符合条件的结果存入新的列内。值得注意的是,如果正则表达式中有多个捕获组,则会得到多列作为输出结果[^2]。
当面对更复杂的场景时——比如需要依据不同的条件分别处理不同类型的输入值,还可以考虑结合其他字符串处理功能如 `str.replace()` 来完成更加精细的操作[^3]。
另外,在某些情况下可能还需要先对整个 DataFrame 进行初步筛选再做进一步的信息挖掘工作。此时可以通过自定义逻辑判断语句搭配 `apply()` 和 Python 内置模块 `re` 实现这一目的[^4]。
阅读全文
相关推荐


















