python 打包egg_Python爬虫：Scrapy使用scrapyd进行分布式部署

最新推荐文章于 2025-05-07 23:25:02 发布

傅士鹏

最新推荐文章于 2025-05-07 23:25:02 发布

阅读量765

点赞数

CC 4.0 BY-SA版权

文章标签： python 打包egg

本文链接：https://blog.csdn.net/weixin_36106506/article/details/112222305

本文介绍了如何使用scrapyd进行Python Scrapy项目的分布式部署，包括scrapyd的安装、配置，以及如何通过scrapyd-client部署项目、管理任务。通过scrapyd，可以方便地通过HTTP接口远程管理多个Scrapy爬虫，避免了手动拷贝或git同步的繁琐过程。同时提到了python-scrapyd-api这个模块，它提供了更便捷的方式来调用scrapyd的API。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

按照上一篇文章中我们将代码放到远程主机是通过拷贝或者git的方式，但是如果考虑到我们又多台远程主机的情况，这种方式就比较麻烦，那有没有好用的方法呢？这里其实可以通过scrapyd,下面是这个scrapyd的github地址：https://github.com/scrapy/scrapyd

当在远程主机上安装了scrapyd并启动之后，就会再远程主机上启动一个web服务，默认是6800端口，这样我们就可以通过http请求的方式，通过接口的方式管理我们scrapy项目，这样就不需要在一个一个电脑连接拷贝过着通过git，关于scrapyd官方文档地址：http://scrapyd.readthedocs.io/en/stable/

安装scrapyd

安装scrapyd：pip install scrapyd

这里我在另外一台ubuntu linux虚拟机中同样安装scrapy以及scrapyd等包，保证所要运行的爬虫需要的包都完成安装，这样我们就有了两台linux，包括上篇文章中我们已经有的linux环境

在这里有个小问题需要注意，默认scrapyd启动是通过scrapyd就可以直接启动，这里bind绑定的ip地址是127.0.0.1端口是：6800，这里为了其他虚拟机访问讲ip地址设置为0.0.0.0

scrapyd的配置文件：/usr/local/lib/python3.5/dist-packages/scrapyd/default_scrapyd.conf

这样我们就可以通过浏览器访问：

最低0.47元/天解锁文章

200万优质内容无限畅学