我使用的软件是pychram
最近几周也一直在学习scrapy,发现知识点比较混乱,今天来总结一下。我是按照《精通python网络爬虫核心技术框架与项目实战》这本书来写的。讲的比较简洁,想要详细了解的可以看看书或者视频。
scrapy框架运行的原理
首先scrapy引擎会将蜘蛛爬虫(spider)中设置的起始网址传递到调度器中
第一步:过程(1)是调度器(Scheduler)将要爬取的网址传递到scrapy引擎中,调度器是一个优先队列,根据优先级按顺序传递到scrapy引擎中
第二步:过程(2)是scrapy收到调度器(Scheduler)传递的网址,将网址传给下载中间件(Downloader Middlewares)
第三步:过程(3)是