爬虫 scrapy架构设计_爬虫数据结构的设计是什么意思-CSDN博客

本文深入解析Scrapy爬虫框架，介绍其异步网络架构优势，演示如何使用XPath和CSS提取网站数据，以及创建和运行项目的全过程。适合初学者快速上手。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是Scrapy？

异步与非阻塞的区别？
在这里插入图片描述
阻塞和非阻塞是不同的，阻塞是通过函数对接口的调用，第一次调用的函数，返回结果后再次调用。而阻塞是调用的过程中程序直接运行，不需要等待返回的数据。

异步：调用在发出之后，这个调用就直接返回，不管有无结果。

非阻塞：关注的是程序在等调用结果（消息、返回值）时的状态，指不能立刻得到结果之前，该调用不会阻塞当前的线程。

Scrapy的使用
导入

import Scrapy

测试xpath/css表达式

response.xpath("表达式") [ [0], .extract(), .extract_first() ]
response.css("表达式") [ [0], .extract(), .extract_first() ]

Scrapy项目文件的构成
在这里插入图片描述

几个爬虫流程
在这里插入图片描述

Scrapy的爬虫流程

Scrapy的爬虫流程

下一讲：如何搭建scrapy框架，以及如何使用