Python爬虫入门：正则表达式实战——提取邮箱

PDF文件

111KB | 更新于2024-08-28 | 190 浏览量 | 5 评论 | 举报收藏

立即下载

"这篇教程是关于Python爬虫的正则表达式完全指南，主要面向初学者，旨在帮助理解和掌握正则表达式在Python中的应用，特别是对于文本提取和爬虫项目中的实用性。教程通过实例展示了如何使用正则表达式来处理HTML文本，提取邮箱地址。" 在这篇Python爬虫入门教程中，我们将深入学习正则表达式，这是一种强大的文本处理工具，广泛应用于编程语言中，包括Python。正则表达式能够高效地进行文本匹配、查找、替换和验证，对于爬虫工作来说至关重要，因为它能够帮助我们从复杂的网页结构中提取所需的数据。首先，我们来看一个实际问题：如何从HTML文本中提取所有的邮箱地址。在提供的HTML代码片段中，包含了几个邮箱地址，但它们被嵌套在不同的HTML元素中。如果不懂正则表达式，处理这种情况可能会变得棘手。在Python中，我们可以使用`re`模块来实现正则表达式的操作。例如，要匹配邮箱地址，我们需要知道邮箱的一般格式，通常是`[email protected]`的形式。一个简单的正则表达式可能如下所示： ```python import re email_regex = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b' ``` 这个正则表达式会匹配大多数常见的邮箱格式。`r`前缀表示这是一个原始字符串，避免`\`被解释为转义字符。接下来，我们可以使用`re.findall()`函数来查找所有匹配的邮箱地址： ```python html = """...（上面提供的HTML代码）...""" emails = re.findall(email_regex, html) for email in emails: print(email) ``` 这将打印出HTML文本中所有的邮箱地址。正则表达式的强大之处在于其灵活性，可以适应各种复杂的模式匹配需求。除了`findall()`，`re`模块还提供了其他方法，如`search()`用于查找第一个匹配项，`match()`用于检查字符串是否以特定模式开始，以及`sub()`用于替换匹配的字符串。在Python中，字符串有两种形式：常规字符串（如`"hello"`）和原始字符串（如`r"hello"`）。原始字符串不处理转义字符，因此在处理包含特殊字符的字符串时，如果不想让`\`被解释，可以使用原始字符串。这篇教程会逐步介绍正则表达式的语法，包括元字符、量词、分组、边界和选择等概念，以及如何在Python中使用它们。通过学习，你将能够熟练运用正则表达式来处理和解析文本，这对于Python爬虫项目尤其有用。

python爬虫入门教程爬虫入门教程–正则表达式完全指南（五）正则表达式完全指南（五）

前言前言

正则表达式处理文本有如疾风扫秋叶，绝大部分编程语言都内置支持正则表达式，它应用在诸如表单验证、文本提取、替换等

场景。爬虫系统更是离不开正则表达式，用好正则表达式往往能收到事半功倍的效果。

介绍正则表达式前，先来看一个问题，下面这段文本来自豆瓣的某个网页链接，我对内容进行了缩减。问：如何提取文本中所

有邮箱地址呢？

html = """

<style>

.qrcode-app{

display: block;

background: url(/https/wenku.csdn.net/pics/qrcode_app4@2x.png) no-repeat;

}

</style>

<p class="">34613[email protected]om，谢谢了</p>

<p class="">30604[email protected]om麻烦楼主</p>

</div>

"""

如果你还没接触过正则表达式，我想对此会是一筹莫展，不用正则，似乎想不到一种更好的方式来处理，不过，我们暂且放下

这个问题，待学习完正则表达式之后再来考虑如何解决。

字符串的表现形式字符串的表现形式

Python 字符串有几种表现形式，以u开头的字符串称为Unicode字符串，它不在本文讨论范围内，此外，你应该还看到过这两

种写法：

>>> foo = "hello"

>>> bar = r"hello"

前者是常规字符串，后者 r 开头的是原始字符串，两者有什么区别？因为在上面的例子中，它们都是由普通文本字符组成的

串，在这里没什么区别，下面可以证明

>>> foo is bar

True

>>> foo == bar

True

但是，如果字符串中包括有特殊字符，会是什么情况呢？再来看一个例子：

>>> foo = "\n"

>>> bar = r""

>>> foo, len(foo)

('', 1)

>>> bar, len(bar)

('\n', 2)

>>> foo == bar

False

>>>

“” 是一个转义字符，它在 ASCII 中表示换行符。而 r”” 是一个原始字符串，原始字符串不对特殊字符进行转义，它就是你

看到的字面意思，由 “\” 和 “n” 两个字符组成的字符串。

定义原始字符串可以用小写r或者大写R开头，比如 r”” 或者 R”” 都是允许的。在 Python 中，正则表达式一般用原始字符串

的形式来定义，为什么呢？

举例来说，对于字符 “” 来说，它在 ASCII 中是有特殊意义的，表示退格键，而在正则表达式中，它是一个特殊的元字符，

用于匹配一个单词的边界，为了能让正则编译器正确地表达它的意义就需要用原始字符串，当然也可以使用反斜杠 “\” 对常规

定义的字符串进行转义

>>> foo = "\"

下载后可阅读完整内容，剩余4页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

成为会员后, 你将解锁

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

资源评论

申增浩

2025.06.08

结合Python爬虫技术，学习正则表达式，这篇文章是最佳实践的起点。

艾苛尔

2025.03.23

对于想要提升爬虫效率的开发者来说，掌握正则表达式至关重要，本教程正合其意。

Jaihwoe

2025.03.13

想要深入理解正则表达式在Python爬虫中的应用，这篇文章提供了很好的入门指导。🌋

萱呀

2025.03.11

这个教程对爬虫初学者非常友好，通过实际案例详解正则表达式的强大功能。

王者丶君临天下

2025.02.03

本教程细节丰富，非常适合需要处理网页文本的开发人员参考学习。

weixin_38698174

粉丝: 3

Python爬虫入门：正则表达式实战——提取邮箱

python爬虫入门教程--正则表达式完全指南（五）

Python爬虫入门教程.pdf ：详解requests库与BeautifulSoup库实现简易爬虫

Python3爬虫入门：正则表达式与数据抓取

Python正则表达式入门指南

正则表达式入门指南：什么是正则表达式

Python正则表达式入门与实战指南

Python正则表达式入门与基础应用指南

正则表达式入门指南：概念、语法和应用

正则表达式开发者指南：详细查询帮助文档

正则表达式入门与进阶指南

最新资源