爬取小说钓趣实例(一)

爬取小说钓趣实例(一)

看大家对网络爬虫兴趣不高,那就让我做一个有钩的姜太公,来钓一钓大鱼。

接下来讲一讲如何爬取一部小说,因为爬取网页要掌握很多预备知识,可能你掌握的知识不够,没关系,钓趣吗?就当先看看怎么写爬虫。

本人还是比较喜欢推理小说的,所以在一个网站上找到了东野圭吾的作品集,然后我们的目的就是爬取他的一部比较著名的小说《白夜行》。

我的思路是这样的:

  1. 先观察这个小说的内容,比如有多少章,每一张有多少页;
  2. 观看网页的源代码,查看小说的主要内容结构;
  3. 分析源代码,构思怎么爬取我想要的内容;
  4. 构思爬虫程序,选择使用什么爬虫库、爬虫数据分析库等;
  5. 如何保存爬取到的信息。

有了这样的思路,我们该做的第一件事就是分析网页了,所以先看看这个小说的结构,其根路径地址https://www.yooread.net/3/3309/,访问一下,如图:

在这里插入图片描述
小说《白夜行》共13章,但是第一章、第十二章和第十三章又分上下两章,所以总的来说应该是16章。

既然知道总共16章,那看看每一章有多少页,看一下第一章(上):
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
通过对这三个url的简单分析,可以看出来每章第一页的url以数字.html结尾,第二页以数字_2.html结尾,第三页以数字_3.html结尾,剩下的以此类推。

现在看一下第一章(下)的第一页:
在这里插入图片描述
细心点可以发现它的url地址以147592.html结束,第一章(上)的url地址以147591.html结尾,所以,我们发现了一点规律:

  • 每一章的第一页的地址以数字.html的形式结尾,然后从第二页开始的url以数字_i.html结尾,其中i就是本章小说对应的页数;
  • 每一章的第一页的地址中数字部分是连续的,第一章(上)的数字是147591,第一章(下)的数字是147592,之后的类推。

然后我们看一下源码,就看第一章(上)的第一页的源码:
在这里插入图片描述
在这里插入图片描述
这里源代码中有很多内容,但是我们想要的只有两个,第一个是这个网页是第几章的内容,第二个是这个网页有多少段小说文本。可以看到这两个内容分别在标签<h1>title</h1>之中和标签<p>content</p>之中。

所有的爬取前准备工作都搞完了,接下来要想一想用什么工具爬取和怎么爬取了,下回讲。

喜欢python的朋友可以关注微信公众号“与C同行”,学习更多知识:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值