爬虫学习笔记：爬取笔趣阁剑来小说-CSDN博客

本文记录了爬取笔趣阁网站上《剑来》小说的过程，包括明确爬取目的，制定实现方案，设计请求数据和解析网页的程序模块。通过requests库获取网页数据，使用xpath进行内容解析，最后将数据以utf-8编码保存到本地。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、目的

爬取笔趣阁网站的剑来小说正文内容，并保存到本地中。

2、实现方案

首先，请求目标网站的网页数据，通过分析找出章节地址的特点，并通过xpath获取到章节链接；

其次，请求每一章节的内容，通过数据清洗去除脏数据，得到剑来文章正文；

最后，保存数据到本地。

3、程序设计

3.1 请求数据模块

请求模块，负责请求网站数据，主要使用requests的get方法获取网页内容。使用方法：request.get(url ,headers= headers) ,url表示请求的网络地址，headers表示请求头。请求到的网页数据需要指定格式读取，可以选择文本（text）格式，也可以选择content（二进制）格式。

 #请求网页内容
    def get_html(self,url):
        html =requests.get(url,headers=self.headers).content.decode()
        return html

3.2 解析网页模块

1、请求到目标网站的html源码，还需要从中找出你需要的数据，如章节url地址与章节名，因此需要使用正则表达式，或者xpath方法