scrapy简单介绍
scrapy是一款优秀的python爬虫框架,使用scrapy可以很容易也很高效的爬取某些网站的大批量数据,由于scrapy框架底层对爬虫要做的工作做了很多集成和封装,因此对于开发人员来讲,只需要搞清楚scrapy爬虫的原理,使用的技巧以及运行时各个组件的作用,然后基于各个组件最终爬取到的数据是如何处理的,掌握这些即可,业务代码和爬取到的数据处理,比如将爬取的数据是写到本地磁盘?还是写到mysql?还是推送到中间件供其他的业务使用?这些都是后续的问题
scrapy工作架构图
- Scrapy Engine(引擎): 引擎负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发事件。
- Scheduler(调度器): 调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。
- Downloader(下载器): 下载器负责获取页面数据并提供给引擎,而后提供给spider。
- Spider(爬虫): Spider是Scrapy用户