Scrapy：Python的开源网络爬虫框架解析

版权申诉

PDF文件

131KB | 更新于2024-08-31 | 125 浏览量 | 举报 1 收藏

限时特惠：#9.90

"开源python网络爬虫框架Scrapy.pdf" Scrapy是一个强大的Python爬虫框架，专为数据抓取和处理而设计。它基于Twisted异步网络库，能够高效地处理网络通信，使得在抓取大量网页时性能卓越。Scrapy的核心组件包括Scrapy Engine（引擎）、Scheduler（调度器）、Downloader（下载器）以及Spider（蜘蛛）等，它们共同构成了一个完整的爬虫工作流程。 1. Scrapy Engine（引擎） Scrapy引擎是整个框架的心脏，它负责协调各个组件的工作。引擎负责启动爬虫项目，调度器中请求的处理，以及将数据传递给蜘蛛进行解析。一旦解析完成后，引擎会将新的请求放入调度器，或者将解析出的数据发送至Item Pipeline进行后续处理。 2. Scheduler（调度器）调度器是数据流中的一个重要环节，它的主要任务是接收引擎发送过来的请求，并按照一定的策略（如FIFO，LIFO等）进行排序，然后将这些请求返回给引擎，以便引擎按照顺序进行下载。 3. Downloader（下载器）下载器是Scrapy框架中负责实际网络交互的部分，它接收来自引擎的请求，从互联网上下载网页内容，并将下载后的HTML或其它类型的数据返回给引擎。下载器还支持中间件，可以实现自定义的下载策略，如处理重试、设置代理、缓存等。 4. Spider（蜘蛛）蜘蛛是Scrapy中处理网页内容的组件，它接收来自下载器的网页内容，解析出所需的数据（如文章、图片链接等），并将这些数据以Item的形式返回给引擎。同时，蜘蛛也能发现新的URL链接，这些链接将再次进入调度器，形成一个递归的抓取过程。 5. Item Pipeline（物品管道） Item Pipeline是Scrapy处理抓取到的数据的组件，它在数据离开Spider之后介入，负责数据清洗、验证、过滤和持久化存储。通过一系列的Pipeline步骤，可以确保数据在被储存前满足特定的质量标准。 6. 中间件 Scrapy提供了丰富的中间件接口，允许用户自定义扩展功能，如请求和响应的处理，蜘蛛行为的定制，异常处理等。这使得Scrapy具有极高的灵活性和可扩展性。 Scrapy的工作流程大致如下： 1) 引擎从Scheduler取出一个Request并发送给Downloader。 2) Downloader下载网页内容并返回Response给Engine。 3) Engine将Response传递给相应的Spider进行解析。 4) Spider解析Response，生成新的Requests和Items。 5) 新的Requests返回给Scheduler，Items进入Pipeline进行处理。 6) 如果Scheduler还有更多Requests，则重复上述步骤；否则，引擎通知Spider已结束。 Scrapy的这一设计使得开发者能够专注于编写解析网页的逻辑，而无需关心网络通信和数据处理的复杂性，大大提高了开发效率和爬虫项目的可维护性。由于Scrapy的开源性质和强大的功能，它已成为Python爬虫开发者的首选工具之一。

蜘蛛是有 Scrapy 用户自己定义用来解析网页并抓取制定 URL返回的内容的类，

每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取

和解析规则。

蜘蛛的整个抓取流程（周期）是这样的：

1. 首先获取第一个 URL的初始请求，当请求返回后调取一个回调函数。第一

个请求是通过调用 start_requests() 方法。该方法默认从 start_urls 中

的 Url 中生成请求，并执行解析来调用回调函数。

2. 在回调函数中，你可以解析网页响应并返回项目对象和请求对象或两者的

迭代。这些请求也将包含一个回调，然后被 Scrapy 下载，然后有指定的

回调处理。

3. 在回调函数中，你解析网站的内容，同程使用的是 Xpath 选择器（但是你

也可以使用 BeautifuSoup, lxml 或其他任何你喜欢的程序），并生成解

析的数据项。

4. 最后，从蜘蛛返回的项目通常会进驻到项目管道。

5、Item Pipeline （项目管道）

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目，他的主要任务是

清晰、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并经过几

个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的

Python 类。他们获取了项目并执行他们的方法，同时他们还需要确定的是是否

需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有：

1. 清洗 HTML数据

2. 验证解析到的数据（检查项目是否包含必要的字段）

3. 检查是否是重复数据（如果重复就删除）

4. 将解析到的数据存储到数据库中

6、Downloader middlewares （下载器中间件）

下载中间件是位于 Scrapy 引擎和下载器之间的钩子框架，主要是处理 Scrapy

引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展

Scrapy 的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的，

对 Scrapy 尽享全局控制的底层的系统。

7、Spider middlewares （蜘蛛中间件）

蜘蛛中间件是介于 Scrapy 引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛的

响应输入和请求输出。它提供一个自定义代码的方式来拓展 Scrapy 的功能。蛛

中间件是一个挂接到 Scrapy 的蜘蛛处理机制的框架，你可以插入自定义的代码

来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

剩余10页未读，继续阅读

erxingyoudu

粉丝: 1

Scrapy：Python的开源网络爬虫框架解析

解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫全套教学资料

Scrapy爬虫框架.pdf

开源python网络爬虫框架Scrapy借鉴.pdf

开源python网络爬虫框架Scrapy定义.pdf

开源python网络爬虫框架Scrapy资料.pdf

开源爬虫框架Scrapy核心源码解析.pdf

Python开源爬虫框架：Scrapy架构分析-为程序员服务[定义].pdf

learning_scrapy:精通python爬虫框架scrapy

基于Python 的网络爬虫系统.pdf

基于python的网络爬虫研究.pdf

最新资源