Scrapy 框架学习---环境搭建

本文详细介绍了在CentOS 7环境下安装配置Python爬虫框架Scrapy的过程,包括解决安装中遇到的Twisted版本问题,确保开发环境正确无误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1、开发环境  

2. 安装

3 开发环境验证:



1、开发环境  

 系统 centos7 

 内核版本:Linux localhost 3.10.0-327.el7.x86_64 #1 SMP Thu Nov 19 22:10:57 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

2. 安装

      使用Pip命令安装,pip 通用的 Python 包管理工具。提供了对 Python 包的查找、下载、安装、卸载的功能。

      pip install scrapy 

      centos上默认是没有pip功能,需要安装。scrapy安装成功后,可以输入scrapy命令查看:

  

3 开发环境验证:

使用官网上的例子:

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.xpath('span/small/text()').extract_first(),
            }

        next_page = response.css('li.next a::attr("href")').extract_first()
        if next_page is not None:
            yield response.follow(next_page, self.parse)
执行: scrapy runspider quotes_spider.py -o quotes.json

  执行过程中遇到一个问题: ImportError: No module named _util , 出问题的信息如下:

File "/usr/lib64/python2.7/site-packages/twisted/internet/ssl.py", line 230, in <module>

from twisted.internet._sslverify import (

File "/usr/lib64/python2.7/site-packages/twisted/internet/_sslverify.py", line 15, in <module>

from OpenSSL._util import lib as pyOpenSSLlib

最后返现应该是twiste的版本有问题.重新安装了twiste 14.0 解决问题。

sudo pip uninstall Twisted

sudo pip install Twisted==14.0

 

 

 

 

 

参考:

https://scrapy.org/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值