Scrapy实战教程：创建项目与自定义itemcsvexporter

DOCX文件

下载需积分: 0 | 23KB | 更新于2024-08-04 | 170 浏览量 | 举报收藏

立即下载

本篇教程是关于Scrapy爬虫开发的详细介绍，特别关注于在PyCharm环境中创建和管理Scrapy项目的步骤。Scrapy是一个强大的Python框架，用于高效地抓取网站数据。在这里，我们将重点关注以下几个关键知识点： 1. **项目创建**：在PyCharm中，用户可以通过Alt + F12快捷键切换到命令行窗口，然后输入特定命令`(venv2)E:\>scrapystartprojectpeilv`来创建一个名为"peilv"的Scrapy项目。这将自动生成一系列默认的项目结构，包括items.py、settings.py、pipelines.py等基础文件。 2. **核心文件**： - `items.py`：这是一个定义爬虫所需数据结构的文件，例如定义了`PeilvItem`类，其中包含字段如`cc`、`li`和`b5`，这些是抓取的数据项。 - `settings.py`：项目设置文件，其中包含了爬虫的全局配置，如`BOT_NAME`、`SPIDER_MODULES`和`NEWSPIDER_MODULE`，以及`FEED_EXPORT_ENCODING`来处理Excel中文编码问题，还有`user_agent`来模拟浏览器访问。 - `pipelines.py`：默认情况下，这个文件处理数据处理流程，如存储到文件，这里通常不需要改动。 - `middlewares.py`：中间件管理请求和响应，用于处理请求前后的逻辑，这里一般不需要修改。 3. **自定义模块**： - `itemcsvexporter.py`：用户需要编写这个文件，它通常实现数据导出功能，比如将抓取的item对象转换成CSV格式并保存到指定路径。 - `爬虫主程序.py`：这是用户实际编写爬虫逻辑的地方，负责调度和执行爬虫任务。在这个文件中，需要根据目标网站的HTML结构和数据提取规则，实现解析网页、提取信息和保存数据的代码。 4. **项目配置**： - `scrapy.cfg`：自动创建的项目配置文件，包含基本的Scrapy设置，但具体配置通常在`settings.py`中进行。 - `spiders`目录：存放所有爬虫脚本的文件夹，`__init__.py`是一个标准Python包结构，用于组织和管理爬虫。 5. **执行与调试**：创建并修改完所有必要的文件后，通过运行`peilv`命令启动爬虫。在爬虫执行过程中，如果遇到任何问题，可以借助Scrapy提供的调试工具进行分析和调整。这篇教程提供了一个从零开始使用Scrapy构建爬虫项目的基础框架，重点在于理解项目结构和配置设置，以及如何编写和执行爬虫程序。通过实践这个教程，读者可以掌握Scrapy的基本操作，并为自己的数据抓取需求开发实用的爬虫工具。

 scrapy 创建项目：

Pycharm 中用 alt+F12 切换到命令行，在命令行输入：

(venv2) E:\>scrapy startproject peilv

就会生成 Scrapy 项目，项目名称是 peilv，结构如下：主要改写 2 个文件：“items、

settings”，新增 2 个文件：“爬虫主程序”、itemcsvexporter。

peilv

scrapy.cfg #创建项目时自动生成，项目的配置文件

peilv/

__init__.py #创建项目时自动生成，无需任何改动

items.py #创建项目时自动生成，定义爬取的字段

pipelines.py #创建项目时自动生成，如存入文件，无需任何改动

settings.py #创建项目时自动生成，将爬取字段按顺序输出

middlewares.py #创建项目时自动生成，无需任何改动

spiders/

__init__.py #创建项目时自动生成，无需任何改动

itemcsvexporter.py #需自己编写，代码固定

爬虫主程序.py #需自己编写，爬虫的主程序

➢ items.py：

# -*- coding: utf-8 -*-

import scrapy

class PeilvItem(scrapy.Item):

# define the fields for your item here like:

cc = scrapy.Field()

#changci

li = scrapy.Field()

#libo

b5 = scrapy.Field()

#bet365

➢ settings.py：

# -*- coding: utf-8 -*-

BOT_NAME = 'peilv'

SPIDER_MODULES = ['peilv.spiders']

NEWSPIDER_MODULE = 'peilv.spiders'

FEED_EXPORT_ENCODING = "gb18030"

#解决导出的 Excel 文件中文乱码问题

user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko)

Chrome/22.0.1207.1 Safari/537.1"

FEED_URI = 'file:///e:/PythonLearn/Python learning/peilv/BaseData.csv'

FEED_FORMAT = 'csv'

FEED_EXPORTERS = {

'csv': 'peilv.spiders.itemcsvexporter.itemcsvexporter',

下载后可阅读完整内容，剩余4页未读，立即下载

粉丝: 1876

Scrapy实战教程：创建项目与自定义itemcsvexporter

完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf

Python-Scrapy 入门级爬虫项目实战

scrapy爬虫项目实战

python scrapy 爬虫基础 分布式爬虫 scrapy 教程【5.3G】_python scrapy教程

scrapy爬虫教程

Scrapy爬虫框架项目开发实践教程

Python Scrapy爬虫实战：创建项目与基础爬虫

Scrapy爬虫项目实战：搭建与管理教程

Scrapy爬虫项目实战代码分析

Python爬虫Scrapy详解及项目实战

最新资源

python scrapy 爬虫基础分布式爬虫 scrapy 教程【5.3G】_python scrapy教程