scrapy_redis主机setting配置、从机setting配置、redis.conf配置中更改参数

本文介绍如何使用 Scrapy-Redis 构建分布式爬虫系统,包括主机和从机的 setting 配置细节,如调度器、URL去重、管道设置等,并涉及 Redis 相关配置及 MongoDB 数据库索引设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主机setting配置:

###配置scrapy-redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

###配置url去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
ITEM_PIPELINES = {
	'scrapy_redis.pipelines.RedisPipeline': 300
}
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

###主机名
REDIS_HOST = 'localhost'

##端口号
REDIS_PORT = 6379

从机setting配置:

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#爬取结束后,仍自动清空redis库
SCHEDULER_PERSIST = True
# ITEM_PIPELINES = {
#     'scrapy_redis.pipelines.RedisPipeline': 300
# }
REDIS_HOST = '10.10.86.254'
REDIS_PORT = 6379
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

#获取本机ip代码
myname = socket.gethostbyname(socket.gethostname())

#需要在redis.conf配置中更改的参数

1.bind 127.0.0.1改为 #bind 127.0.0.1  (不绑定ip地址)
2.protected-mode yes 改为 protected-mode no
3.加入 daemonize no(这个是是否在后台启动不占用一个主程窗口)
protected-mode no
daemonize no
redis-cli.exe -h 192.168.1.5 -p 6379 

#设置mongodb数据库索引
db.集合名.ensureIndex({“要设置索引的列名”:1},{“unique”:1})

#爬取结束后,仍自动清空redis库
SCHEDULER_PERSIST = True

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值