scrapy 运行多爬虫

最新推荐文章于 2024-05-19 18:04:45 发布

原创最新推荐文章于 2024-05-19 18:04:45 发布 · 874 阅读

2 ·

CC 4.0 BY-SA版权

爬虫同时被 3 个专栏收录

43 篇文章

订阅专栏

scrapy

26 篇文章

订阅专栏

性能

7 篇文章

订阅专栏

本文介绍如何使用Scrapy的CrawlerRunner类在同一进程中启动多个爬虫，通过示例代码展示多爬虫启动的配置与实现过程。文章还分享了一种通过在spiders目录下获取所有爬虫类并统一启动的策略，便于管理和扩展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景：scrapy是支持多爬虫启动的，有两种方式.

你可以使用scrapy.crawler.CrawlerProcess这个类来运行你的spider，这个类会为你启动一个Twisted reactor，并能配置你的日志和shutdown处理器。所有的scrapy命令都使用这个类.

另外一个功能更强大的类是scrapy.crawler.CrawlerRunner，我用的就是这个，目前同时启动过7个爬虫，如果有文件读写操作，记得开启ulimit -n 2048.

多爬虫启动就是指同一进程启动多个爬虫.

import scrapy
from twisted.internet import reactor
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging

class MySpider1(scrapy.Spider):
    # Your first spider definition
    ...

class MySpider2(scrapy.Spider):
    # Your second spider definition
    ...

configure_logging()
runner = CrawlerRunner()
runner.crawl(MySpider1)
runner.crawl(MySpider2)
d = runner.join()
d.addBoth(lambda _: reactor.stop())

reactor.run() # the script will block here until all crawling jobs are finished