scrapy，scrapy-redis显示：什么都没爬取到：Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

最新推荐文章于 2024-05-11 22:22:23 发布

原创最新推荐文章于 2024-05-11 22:22:23 发布 · 7.5k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#redis #scrapy #scrapy-redis #分布式爬虫

学习笔记记录同时被 2 个专栏收录

15 篇文章

订阅专栏

问题解决

8 篇文章

订阅专栏

本文针对Scrapy爬虫在运行过程中遇到的两大常见问题进行了解析和提供了解决方案。一是爬虫在抓取初期正常工作，随后出现数据抓取停滞的情况，原因可能为未设置yield scrapy.Request（dont_filter=True），默认去重机制导致数据丢失；二是分布式爬虫环境下，由于Windows系统下的Redis数据库配置不当，导致爬虫服务器无法识别Redis_key，从而无法抓取数据。文章详细介绍了如何正确配置Redis数据库，确保数据正常传输。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

解决方法一、

问题：刚开始爬取有，但是后面都是Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)。
解决：可能是里面没有设置 yield scrapy.Request（dont_filter=True），dont_filter=True，默认的去重将一些网页去除了，导致没有数据。

解决方法二

问题：分布式爬虫一直都是显示Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)。
解决：你使用的肯定是window的redis数据库，而且lpush时，使用的是redis。windos那个文件，这样插入的redis_key，在你爬虫服务器上是查不到这个值的。
使用 redis-cli -h redis的ip -p 6379 这样链接数据，再lpush值进去才行。