BOT_NAME = 'myspider' SPIDER_MODULES = ['myspider.spiders'] NEWSPIDER_MODULE = 'myspider.spiders' # Crawl responsibly by identifying yourself (and your website) on the user-agent #USER_AGENT = 'myspider (+http://www.yourdomain.com)' # Obey robots.txt rules ROBOTSTXT_OBEY = True解释一下代码
时间: 2024-02-19 15:00:40 浏览: 123
这是一个 scrapy 爬虫项目的配置文件 settings.py 。
BOT_NAME 是 scrapy 项目的名字,可以自己定义。
SPIDER_MODULES 是指定爬虫所在的模块,这里是 myspider.spiders 。
NEWSPIDER_MODULE 是指定新建爬虫的命令,这里是 myspider.spiders 。
USER_AGENT 是请求头中的 User-Agent 字段,用来模拟浏览器发送请求。
ROBOTSTXT_OBEY 是一个布尔值,表示是否遵守 robots.txt 规则,如果设置为 True ,则表示遵守。
阅读全文
相关推荐
















