scrapy startproject projectName :创建项目 scrapy genspider name www.baidu.com(目标url) :创建文件 scrapy crawl spiderName(文件名) cls :清屏 scrapy crawl spiderName(文件名) -o ./文件名.csv :只能存储parse方法的返回值 文件后缀只能是'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pi ckle' 管道存储: ——编码流程: -数据解析 -将解析数据封装到item对象中(在爬虫文件) -将item提交给管道进行持久化存储 -在process_item中要将接收到的item对象中的数据进行持久化存储 -在开启管道(setting) 注意图片的伪属性 全站数据爬取 ##CrawlSpider的使用 - 创建Pro - cd -创建crawel文件(CrawlSpider): -scrapy genspider -t crawl xxx www.xxx.com ##scrapy-redis -scrapy startproject projectName :创建项目 -cd -scrapy genspider -t crawl xxx www.xxx.com -导包:from scrapy_redis.spiders import RedisCrawlSpider -将start_urls和allowed_domains注释 -添加新属性:redis_key='sun',共享调度器队列