小白都能学会的Python基础第九讲：综合实战5 - 正则表达式提取baiduxinwen

王宇韬

已于 2022-07-31 20:28:13 修改

阅读量561

点赞数

CC 4.0 BY-SA版权

分类专栏： python基础文章标签： python

于 2022-07-24 12:33:14 首次发布

原文链接：https://shimo.im/docs/2wAlXXa8KVFQZoAP

python基础专栏收录该内容

9 篇文章

订阅专栏

1.华小智系列 - Python基础（案例版）

《Python基础》目录

第九讲：综合实战5 - 正则表达式提取baiduxinwen

以下详细内容请点击获取。

第九讲：综合实战5 - 正则表达式提取baiduxinwen

正则表达式是一个非常好用的提取信息的手段，它可以帮助提取文本中所需信息，而且掌握了正则表达式后，不仅可以在爬虫中运用它来提取网页信息，在普通的文本信息中，也可以通过正则表达式来提取所需的内容，这是BeautifulSoup、pquery和Xpath这些专门用来解析网页源代码的库所不能比拟的。

1.正则表达式基础1 - findall方法

首先拿一个简单的例子来演示下正则表达式的作用，比如想提取’Hello 123 world’中的3个数字，可以通过如下代码实现：

import re
a = 'Hello 123 world'
result = re.findall('\d\d\d' , a)
print(result)

首先引入正则表达式re库，其中re这个库是Python自带的，所以不用额外安装。
然后解释下findall方法的使用规则，如下图所示，re.findall是根据匹配规则在原始文本中找寻所需的内容。这里的匹配规则为：‘\d’表示匹配一个数字，’\d\d\d’就表示匹配三个数字，所以re.findall(‘\d\d\d’, content)就是在content中寻找连续的三个数字。

2.正则表达式基础2- 非贪婪匹配之（.*?）

下面来介绍下一些常用的匹配规则的符号，注意都是英文格式下的符号。
在这里插入图片描述
上面的内容看似很多，不过读者不用担心，因为在实战中，大部分情况下需要用到的只有这两种情况：(.?)与.?。这里简单讲解一下里面的换行符\n和制表符\t，简单来说，\n表示换行(相当于在编辑WORD时用到的Enter键)，\t为制表符(相当于按一下Tab键或者是按八下空格键)。在网页源代码里经常会看到换行及空格，那些在网页源代码里其实就是\n换行符及\t制表符。