创建scrapy
scrapy startproject first
scrapy结构
firstl/ #新建的工程
scrapy.cfg #项目的主配置信息。(真正爬虫相关的配置信息在settings.py文件中)
first/ #该项目的python模块。之后您将在此加入代码。
__init__.py
items.py #项目中的item文件.设置数据存储模板,用于结构化数据,如:Django的Model
pipelines.py #项目中的pipelines文件.数据持久化处理
settings.py #项目的设置文件. 如:递归的层数、并发数,延迟下载等
spiders/ #放置spider代码的目录.爬虫目录,如:创建文件,编写爬虫解析规则
__init__.py
...
进入frist
scrapy genspider qiubai www.qiubai.com
生成文件
import scrapy
class QiubaiSpider(scrapy.Spider):
name = 'qiubai'
allowed_domains = ['www.qiushibaike.com']
start_urls = ['http://www.qiushibaike.com/']
def parse(self, response):
pass
运行爬虫代码
scrapy crawl qiubai
将True 改为False ROBOTSTXT_OBEY = False
19行配置UA