Ubuntu服务器上Scrapy项目scrapyd部署教程

版权申诉

PDF文件

645KB | 更新于2024-09-08 | 120 浏览量 | 举报收藏

限时特惠：#14.90

Scrapy项目部署使用scrapyd是一种将Scrapy爬虫项目管理和自动化的方式，它允许开发者在远程服务器上轻松运行和控制Scrapy爬虫任务。scrapyd是一个用于部署Scrapy项目的轻量级服务，它支持分布式爬虫执行，并提供了API接口来管理和监控爬虫作业。首先，要部署scrapyd，你需要确保已经安装了pip，它是Python包管理器，用于安装Python包。通过运行`pip install scrapyd`命令，你可以下载并安装scrapyd服务器。为了验证安装是否成功，可以使用`scrapyd-deploy -h`来检查scrapyd的帮助文档。接下来，在Ubuntu系统中，需要进行一些必要的配置。使用`sudo`权限创建一个scrapyd配置文件夹`mkdir /etc/scrapyd`，然后编辑`/etc/scrapyd/scrapyd.conf`文件。这个配置文件包含了scrapyd运行的关键参数，如存储蛋（egg）文件、日志、物品、作业保留数量、数据库等信息。例如，`eggs_dir`指定存储Scrapy爬虫项目编译后的egg文件的目录，`logs_dir`存放爬虫运行日志，`poll_interval`定义了scrapyd检查新任务的时间间隔。在Scrapy项目的根目录下，你需要启动scrapyd服务，通常使用`scrapyd`命令。同时，需要修改`scrapy.cfg`文件，设置与scrapyd交互的相关选项，如`runner`、`application`和`launcher`等，这些都是Scrapy服务运行的核心组件。此外，还要配置webroot，这是scrapyd提供Web界面的地方，用于查看和管理爬虫项目。在scrapyd的服务配置中，还列出了多个JSON接口，如`schedule.json`、`cancel.json`等，这些接口分别用于调度新的爬虫任务、取消任务、添加新版本、列出项目和版本等操作。这些API使得scrapyd成为一个强大的工具，能够实现爬虫任务的自动化管理。最后，确保设置正确的网络访问限制，如`bind_address`和`http_port`，以及`debug`选项（关闭调试模式以提高性能）。`max_proc`和`max_proc_per_cpu`用于限制并发爬虫进程，而`finished_to_keep`则指定了完成任务的保留数量。总结来说，Scrapy项目部署使用scrapyd涉及安装scrapyd服务器、配置相关参数、启动服务以及设置API接口，这有助于简化大规模爬虫项目的管理和执行，提升效率。对于任何Scrapy开发者而言，理解并熟练运用scrapyd是实现分布式爬虫部署的重要一步。

Scrapy项目部署（scrapyd）

安装scrapyd：pip install scrapyd

检查是否安装成功：scrapyd-deploy -h

安装scrapyd-client: pip install scrapyd-client

在Ubuntu中所需配置：

sudo mkdir /etc/scrapyd

sudo vim /etc/scrapyd/scrapyd.conf 添加以下内容

在你爬虫项目下启动scrapyd : scrapyd

进入到你scarpy项目的目录下，修改scrapy.cfg文件

[scrapyd]

eggs_dir  = eggs

logs_dir  = logs

items_dir  =

jobs_to_keep = 5

dbs_dir   = dbs

max_proc  = 0

max_proc_per_cpu = 4

finished_to_keep = 100

poll_interval = 5.0

bind_address = 127.0.0.1

http_port  = 6800

debug    = off

runner   = scrapyd.runner

application = scrapyd.app.application

launcher  = scrapyd.launcher.Launcher

webroot   = scrapyd.website.Root

[services]

schedule.json   = scrapyd.webservice.Schedule

cancel.json    = scrapyd.webservice.Cancel

addversion.json  = scrapyd.webservice.AddVersion

listprojects.json = scrapyd.webservice.ListProjects

listversions.json = scrapyd.webservice.ListVersions

listspiders.json = scrapyd.webservice.ListSpiders

delproject.json  = scrapyd.webservice.DeleteProject

delversion.json  = scrapyd.webservice.DeleteVersion

listjobs.json   = scrapyd.webservice.ListJobs

daemonstatus.json = scrapyd.webservice.DaemonStatus

下载后可阅读完整内容，剩余5页未读，立即下载

小帆芽芽

粉丝: 189

Ubuntu服务器上Scrapy项目scrapyd部署教程

Scrapy Cookbook 中文版.pdf

Scrapy的命令行工具.pdf

scrapy.pdf

在PLM系统中实现分布式爬虫.pdf

python scrapy电子书开发文档

Scrapy框架详解与开发指南

深入探索Python Scrapy爬虫框架

Scrapy 0.24.0电子书教程：Python爬虫框架指南

IBM数字化医疗系统平台解决方案.ppt

redis布隆过滤实现源码及例子

最新资源