主机setting配置:
###配置scrapy-redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
###配置url去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 300
}
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
###主机名
REDIS_HOST = 'localhost'
##端口号
REDIS_PORT = 6379
从机setting配置:
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#爬取结束后,仍自动清空redis库
SCHEDULER_PERSIST = True
# ITEM_PIPELINES = {
# 'scrapy_redis.pipelines.RedisPipeline': 300
# }
REDIS_HOST = '10.10.86.254'
REDIS_PORT = 6379
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
#获取本机ip代码
myname = socket.gethostbyname(socket.gethostname())
#需要在redis.conf配置中更改的参数
1.bind 127.0.0.1改为 #bind 127.0.0.1 (不绑定ip地址)
2.protected-mode yes 改为 protected-mode no
3.加入 daemonize no(这个是是否在后台启动不占用一个主程窗口)
protected-mode no
daemonize no
redis-cli.exe -h 192.168.1.5 -p 6379
#设置mongodb数据库索引
db.集合名.ensureIndex({“要设置索引的列名”:1},{“unique”:1})
#爬取结束后,仍自动清空redis库
SCHEDULER_PERSIST = True