
Scrapy
Last_xuan1
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy批量爬取代理ip并构建Scrapy和requests可使用的ip池
本次爬取的是西刺代理原创 2019-02-27 23:53:48 · 783 阅读 · 0 评论 -
Scrapy定制图片管道爬取搜狗图片(Ajax接口)
进入页面,发现图片是动态加载的。通过Ajax加载json文件。所以对request header的url进行观察,发现start参数每次加15。所以爬取过程并不难解决,关键是图片的存储 爬的过程还是会有坑的 先看items.py,这个没啥 import scrapy class SougouphotoItem(scrapy.Item): # define the fields for...原创 2019-02-14 20:09:28 · 766 阅读 · 0 评论 -
Scrapy实例:爬取B站所有动漫番剧信息(Ajax接口+json数据解析)
。。闲来无事,爬了一下我最爱的B站~~~卒 首先进入B站的番剧索引页 ps:以前经常浏览这个索引页找动漫看,所以熟练的操作~滑稽 翻页发现url链接并没有改变,用谷歌开发者工具network发现加载了XHR文件并返回json格式的响应 要对其进行翻页处理,观察一下query string的规律,发现那么多个参数只有page这个参数是变化的 所以接下来都很好做了~嘻嘻 items.py imp...原创 2019-02-13 21:11:50 · 2902 阅读 · 5 评论 -
Scrapy之Crawlspider实例:爬取沪江网校所有课程信息
点击此处查看要爬取的网页 如图,利用Crawlspider将所有的课程信息爬取下来,并存入MongoDB数据库 整体思路清晰,简单,不过有一个要注意的点,在插入到数据库的时候 items.py import scrapy class HujiangwangxiaoItem(scrapy.Item): _id = scrapy.Field() # 插入到MongoDB数据库最好一定要...原创 2019-02-12 15:54:36 · 1192 阅读 · 0 评论 -
Scrapy框架之Crawlspider爬取刺猬实习职位信息
点击查看要爬取的网页 目标:利用Crawspider的特性在首页找到所有的职位分类的url,进入分页,再从分页进入详细页面获取所有的信息。 首先打开cmd或者powershell scrapy startproject ciweishixi cd ciweishixi scrapy genspider -t crawl Crawlspider ciweishixi.com 生成一只继...原创 2019-02-11 23:46:55 · 469 阅读 · 0 评论 -
练手实例:Scrapy爬取一本完整小说(章节乱序问题解决)
戳这里查看此小说 整体都很简单,没啥多说的,10分钟搞定 外循环在主页面找url进行拼接,小循环解析详细页内容提取小说文本。 biquge.py import scrapy from scrapy.selector import Selector class BiqugeSpider(scrapy.Spider): name = 'biquge' allowed_domai...原创 2019-02-10 20:51:33 · 7380 阅读 · 27 评论 -
Scrapy入门实例2:爬取简书网热门专题信息(动态网页,双重Ajax接口)
点击此处查看要爬取的网页 目标,用Scrapy爬取每个专题的前十篇文章的概要信息。 1.先在主网页抓取所有的详细页面的href进行拼接 2.进入详细页面提取信息 值得注意的是主网页和详细页面都是动态网页,都是Ajax加载的,不过规律很容易被发现,在谷歌开发者工具观察一下header就不难发现规律了。属于进阶一丢丢的练手实例。 经发现主页面加载最多到36页。。就构造url咯 items.py i...原创 2019-02-10 15:59:57 · 1108 阅读 · 0 评论 -
Scrapy框架入门实例:Scrapy爬取豆瓣图书Top250
刚学了scrapy框架,找一个东西练练手 点击此处查看网页 先在cmd创建一个项目 ,记得先切换到对应的目录下面 scrapy startproject doubanTop 要把这些信息全部爬取下来故,先在items文件里面把要提取的信息的名字写好 items.py import scrapy class DoubantopItem(scrapy.Item): # define ...原创 2019-02-09 13:36:52 · 4371 阅读 · 3 评论