python爬虫---scrapy的基本语法

aoqian8439

于 2019-04-17 16:59:00 发布

阅读量302

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/zgl19991001/p/10724698.html

本文详细介绍使用Scrapy框架创建并运行爬虫的过程，包括创建爬虫应用、限制爬虫的活动范围到特定域名，以及如何定义爬虫的起始URL和解析方法。通过实例演示了如何针对糗事百科网站进行数据抓取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.创建爬虫：

　　scrapy genspider爬虫名域名

　　注意：爬虫的名字不能和项目名相同

2.　　scrapy list --展示爬虫应用列表

　　　scrapy crawl爬虫应用名称 ---运行单独爬虫应用

　　　使用scrapy框架爬取糗事百科段子：

　　　　　　使用命令创建一个爬虫：

　　　　　　　scrapy gensipder qsbk ''qiushibaike.com''

　　　　　　创建一个名字叫做qsbk的爬虫，并且能爬取的网页只会限制在qiushibaike.com这个域名下。

3.　　name:这个爬虫的名字，名字必须是唯一的。

　　　allow_domains:允许的域名。爬虫只会爬取这个域名下的网页，其他不是这个域名的网页会被自动忽略。

　　　　start_urls:爬虫从这个变量中的url开始。

　　　　parse：引擎会吧下载器下载回来的数据扔给爬虫解析，爬虫在吧数据传给这个parse方法。这个是个固定的写法。这个方法的作用有两个，第一个是提取想要的数据。第二个是生产下一个请求的url.

转载于:https://www.cnblogs.com/zgl19991001/p/10724698.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。