Python爬虫正则表达式完全指南：解析网页邮箱提取

PDF文件

python正则表达式指南

python

爬虫

96KB | 更新于2024-08-31 | 76 浏览量 | 举报收藏

立即下载

"这篇教程是关于Python爬虫中正则表达式的基础应用，适用于初学者。文章通过实例展示了正则表达式在爬虫中的重要性，并提出一个问题：如何从HTML文本中提取邮箱地址，以此引入正则表达式的学习。文中还提到了Python字符串的两种类型：常规字符串和原始字符串，并通过示例解释了它们的区别。" 正则表达式在Python爬虫中的应用在Python爬虫中，正则表达式（Regular Expression）是用于匹配字符串的强大工具，尤其在处理HTML或XML等网页内容时，它能够帮助我们有效地提取、查找和替换特定模式的数据。对于初学者而言，理解并掌握正则表达式的基本概念和语法至关重要。 1. 正则表达式基础 - 字符类：[]用于定义一组字符，例如[\d]代表任何数字。 - 量词：*表示零次或多次，+表示一次或多次，?表示零次或一次，{n,m}表示n到m次。 - 位置匹配：^表示行首，$表示行尾，\b表示单词边界。 - 转义字符：\用于转义特殊字符，如\.匹配点号，\\n匹配换行符。 - 模式修饰符：如re.IGNORECASE使匹配不区分大小写，re.DOTALL使.匹配所有字符包括换行符。 2. Python中的正则表达式模块`re` Python的`re`模块提供了正则表达式的相关功能，如`re.search()`用于查找第一个匹配项，`re.findall()`用于找出所有匹配项，`re.sub()`用于替换匹配项。 3. 解决问题：提取邮箱地址回到前面的问题，要从HTML文本中提取邮箱地址，可以使用正则表达式。一个简单的邮箱匹配规则可能是：`\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b`。这个表达式可以匹配大部分常见格式的邮箱地址。 4. Python字符串与原始字符串 - 常规字符串：使用引号（' ' 或 " "）包裹的字符串，遇到反斜杠(\)会进行转义。 - 原始字符串：使用r前缀的字符串，反斜杠(\)不再具有转义功能，保持原样。 5. 应用示例 ```python import re html = """ ... """ pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b' email_list = re.findall(pattern, html) print(email_list) ``` 上述代码将找到HTML文本中所有的邮箱地址并打印出来。 6. 进阶技巧 - 使用`re.compile()`预编译正则表达式，提高性能。 - 学习更多的正则表达式元字符和构造，如\w匹配字母数字下划线，\s匹配空白字符，\d匹配数字等。 - 掌握正则表达式的分组和命名分组，以便更好地提取复杂模式。通过学习正则表达式，不仅可以解决提取邮箱地址的问题，还可以应用于网页结构分析、关键词提取、URL解析等多个场景。对于Python爬虫开发者来说，熟练掌握正则表达式是提高工作效率的关键。

python爬虫入门教程爬虫入门教程--正则表达式完全指南（五）正则表达式完全指南（五）

要想做爬虫，不可避免的要用到正则表达式，如果是简单的字符串处理，类似于split，substring等等就足够了，

可是涉及到比较复杂的匹配，当然是正则的天下，下面这篇文章主要给大家介绍了python爬虫之正则表达式的

相关资料，需要的朋友可以参考下。

前言前言

正则表达式处理文本有如疾风扫秋叶，绝大部分编程语言都内置支持正则表达式，它应用在诸如表单验证、文本提取、替换等

场景。爬虫系统更是离不开正则表达式，用好正则表达式往往能收到事半功倍的效果。

介绍正则表达式前，先来看一个问题，下面这段文本来自豆瓣的某个网页链接，我对内容进行了缩减。问：如何提取文本中所

有邮箱地址呢？

html = """

<style>

.qrcode-app{

display: block;

background: url(/https/wenku.csdn.net/pics/qrcode_app4@2x.png) no-repeat;

}

</style>

<p class="">30604259@qq.com麻烦楼主</p>

</div>

"""

如果你还没接触过正则表达式，我想对此会是一筹莫展，不用正则，似乎想不到一种更好的方式来处理，不过，我们暂且放下

这个问题，待学习完正则表达式之后再来考虑如何解决。

字符串的表现形式字符串的表现形式

Python 字符串有几种表现形式，以u开头的字符串称为Unicode字符串，它不在本文讨论范围内，此外，你应该还看到过这两

种写法：

>>> foo = "hello"

>>> bar = r"hello"

前者是常规字符串，后者 r 开头的是原始字符串，两者有什么区别？因为在上面的例子中，它们都是由普通文本字符组成的

串，在这里没什么区别，下面可以证明

>>> foo is bar

True

>>> foo == bar

True

但是，如果字符串中包括有特殊字符，会是什么情况呢？再来看一个例子：

>>> foo = "\n"

>>> bar = r""

>>> foo, len(foo)

('', 1)

>>> bar, len(bar)

('\n', 2)

>>> foo == bar

False

>>>

"" 是一个转义字符，它在 ASCII 中表示换行符。而 r"" 是一个原始字符串，原始字符串不对特殊字符进行转义，它就是你

看到的字面意思，由 "\" 和 "n" 两个字符组成的字符串。

定义原始字符串可以用小写r或者大写R开头，比如 r"" 或者 R"\b" 都是允许的。在 Python 中，正则表达式一般用原始字符串

的形式来定义，为什么呢？

举例来说，对于字符 "" 来说，它在 ASCII 中是有特殊意义的，表示退格键，而在正则表达式中，它是一个特殊的元字符，

用于匹配一个单词的边界，为了能让正则编译器正确地表达它的意义就需要用原始字符串，当然也可以使用反斜杠 "\" 对常规

定义的字符串进行转义

>>> foo = "\"

>>> bar = r""

>>> foo == bar

True

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38610870

粉丝: 1

Python爬虫正则表达式完全指南：解析网页邮箱提取

python爬虫入门教程–正则表达式完全指南（五）

Python爬虫入门教程.pdf ：详解requests库与BeautifulSoup库实现简易爬虫

Python正则表达式入门指南

Python爬虫入门：正则表达式实战——提取邮箱

正则表达式入门指南：什么是正则表达式

Python3爬虫入门：正则表达式与数据抓取

Python正则表达式入门与实战指南

Python正则表达式入门与基础应用指南

正则表达式入门指南：概念、语法和应用

正则表达式开发者指南：详细查询帮助文档

最新资源