scrapy创建过程

XJH_2021

于 2021-10-19 08:31:30 发布

阅读量281

点赞数

CC 4.0 BY-SA版权

文章标签： python 爬虫 pycharm mysql

本文链接：https://blog.csdn.net/XJH_2021/article/details/120838825

本文详细介绍了如何使用Scrapy创建爬虫项目，包括`scrapy startproject`，`scrapy genspider`等命令。还讨论了如何通过管道进行数据持久化存储到CSV文件，并提到了CrawlSpider的使用。此外，文章还涵盖了Scrapy-Redis的设置，如配置远程Redis服务器，并在Windows环境下启动Redis服务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scrapy startproject projectName :创建项目
scrapy genspider  name www.baidu.com（目标url） ：创建文件
scrapy crawl spiderName（文件名）
cls ：清屏
scrapy crawl spiderName（文件名） -o ./文件名.csv ：只能存储parse方法的返回值 文件后缀只能是'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pi
    ckle'
管道存储:
    ——编码流程：
        -数据解析
        -将解析数据封装到item对象中（在爬虫文件）
        -将item提交给管道进行持久化存储
        -在process_item中要将接收到的item对象中的数据进行持久化存储
        -在开启管道(setting)
注意图片的伪属性

全站数据爬取
##CrawlSpider的使用
    - 创建Pro
    - cd
    -创建crawel文件（CrawlSpider）：
        -scrapy genspider -t crawl xxx www.xxx.com
##scrapy-redis
    -scrapy startproject projectName :创建项目
    -cd
    -scrapy genspider -t crawl xxx www.xxx.com

        -导包：from scrapy_redis.spiders import RedisCrawlSpider
        -将start_urls和allowed_domains注释
        -添加新属性：redis_key='sun',共享调度器队列