目录
1、开发环境
系统 centos7
内核版本:Linux localhost 3.10.0-327.el7.x86_64 #1 SMP Thu Nov 19 22:10:57 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
2. 安装
使用Pip命令安装,pip 通用的 Python 包管理工具。提供了对 Python 包的查找、下载、安装、卸载的功能。
pip install scrapy
centos上默认是没有pip功能,需要安装。scrapy安装成功后,可以输入scrapy命令查看:
3 开发环境验证:
使用官网上的例子:
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/tag/humor/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.xpath('span/small/text()').extract_first(),
}
next_page = response.css('li.next a::attr("href")').extract_first()
if next_page is not None:
yield response.follow(next_page, self.parse)
执行: scrapy runspider quotes_spider.py -o quotes.json
执行过程中遇到一个问题: ImportError: No module named _util , 出问题的信息如下:
File "/usr/lib64/python2.7/site-packages/twisted/internet/ssl.py", line 230, in <module>
from twisted.internet._sslverify import (
File "/usr/lib64/python2.7/site-packages/twisted/internet/_sslverify.py", line 15, in <module>
from OpenSSL._util import lib as pyOpenSSLlib
最后返现应该是twiste的版本有问题.重新安装了twiste 14.0 解决问题。
sudo pip uninstall Twisted
sudo pip install Twisted==14.0
参考: