【零基础学爬虫】学Python的第一周,自己编写用Python爬取vip小说付费章节,实现小说自由!

之前因为想研究怎么让esp8266上校园网,折腾半天,请教大佬后,说要先学爬虫,就能知道怎么模拟登录上网了。大佬学的是c#,我学的是python,于是就开始学习了python爬虫,这是学习中觉得好玩的事,也遇到了不少困难。

完整源代码已打包,文末可免费领取

一、先上效果图

在这里插入图片描述
在这里插入图片描述

这本书一共两千四百多章,一开始基本上爬到第1章(前面还有广告恰饭章)就报

在这里插入图片描述

Remoto end closed connection without response 的错,估计被发现是爬虫了,弄了半天,总算爬取成功。

二、bs4学习

1、原理

bs4进行数据解析
bs4数据解析原理
1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据解析
 环境安装
# pip install bs4
# pip install lxml
#如何实例化BeautifulSoup对象
from bs4 import BeautifulSoup

2、运用

两种操作方式,我们一般用第二种爬取网页

from bs4 import BeautifulSoup
#1.将本地的html文档中的数据加载到对象中 fp = open("./baidu.html",'r',encoding='utf-8') soup = BeautifulSoup(fp,'lxml')#创建一个lxml解析器
# print(soup)
#2.将互联网上获取的页面源码加载到该对象中
#page_text = response.text
#soup = BeatifulSoup(page_text,'lxml')

在这里插入图片描述

3、数据解析

#提供用于数据解析
#print(soup.a)#soup.tagName 返回的是html中第一次出现的tagName标签
#print(soup.div)
#print(soup.find('div'))   #等同于soup,div

4、属性定位

 #属性定位
#print(soup.find('div',class_= "head_wrapper"))
#print(soup.find_all('a'))# 返回符合要求的所有标签
#select  select('某种选择器(id,class,标签,,,选择器)')
#print(soup.select('.head_wrapper'))
#print(soup.select(".head_wrapper > "))
#soup.select('.tang > ul > li > a')[0] #层级选择
#soup.select('.tang > ul  a')[0] #跨层选择 空格表示多个层级

5、获取标签之间的文本数据

#获取标签之间的文本数据
print(soup.select('a')[0].string)   # 只可以获取该标签下面直系的文本内容
print(soup.select('a')[0].get_text())#text/get_text()可以获取某一个标签中所有的文本内容
print(soup.select('a')[0].text)

6、获取标签中的属性值

#获取标签中的属性值
#print(soup.select('.tang > ul > li > a')[0]['href'])

三、开始爬小说

一般步骤

  1. 聚焦爬虫 爬取页面中指定的页面内容
  2. 编码流程
  3. 指定URL
  4. 发起请求
  5. 获取响应数据
  6. 数据解析
  7. 持久化存储

在此之前,先要

pip instal requrests
import requrests

1、获取url

首先我选用笔趣阁的《凡人修仙传》作为爬取对象

url = 'https://www.qbiqu.com/7_7365/'

2 、UA伪装

然后,正常的ua伪装(User-Agent)用户代理,里面包含操作系统版本号和使用的浏览器,来伪装成一个正常的请求。按键盘上的F12 进入网站的开发者模式得到。(找不到可以尝试刷新页面)

#UA : User_Agent(请求载体的身份标识)
#UA检测 门户网站的服务器会检测对应请求的载体身份标识,如果监测到的载体身份标识为某一款浏览器
#说明该请求是一个正常的请求。但是如果检测到的载体身份标识不是基于某一款浏览器则表示该请求
#为不正常的请求(爬虫),则服务器就很可能拒绝该次请求

在这里插入图片描述

#UA伪装: 将对应的User-Agent封装到一个字典中
    headers = {
   
        "User-Agent":&
<think>好的,用户需要推荐价格在一百元左右的挂耳式耳机。首先得明确挂耳式耳机的特点,通常是运动或日常使用,佩戴稳固。价格区间在100元左右,可能需要平衡性能和成本。 接下来要调用搜索工具,查找近期相关的产品推荐和评测。可能的关键词包括“百元挂耳式耳机推荐”、“高性价比挂耳式耳机”等。需要筛选出符合预算且评价较好的型号。 查看搜索结果,可能会找到几款常见推荐,比如QCY Crossky Link、漫步者X2、倍思E8等。需要核实这些耳机的价格是否在100元左右,并检查它们的性能参数,比如音质、续航、佩戴舒适度、蓝牙版本等。 还要注意用户评价,是否有常见的优点或缺点,比如连接稳定性、电池寿命、佩戴是否牢固。同时,考虑不同品牌之间的售后服务和保修政策,这对用户也很重要。 整理信息时,要分点列出每个推荐耳机的特点,突出其优势和可能的不足。确保信息准确,引用来源可靠。比如QCY的性价比高,漫步者的音质表现,倍思的低延迟功能。 最后,生成相关问题时要围绕用户的需求扩展,比如比较不同品牌、如何挑选挂耳式耳机、百元耳机的性能等,帮助用户进一步决策。</think>根据网络搜索结果,以下为100元价位段性价比较高的挂耳式耳机推荐及选购要点: **QCY Crossky Link** 市场价约99元,采用定向传声技术减少漏音,支持蓝牙5.3协议。耳挂式设计适配耳道轮廓,单次续航6小时,支持双设备连接。适合运动场景,IPX4级防水可应对日常汗水。 **漫步者X2** 电商平台折后价89元左右,半入耳+耳挂双形态设计。13mm大尺寸复合振膜带来均衡三频表现,蓝牙5.3芯片延迟低至0.06秒。支持游戏模式,单耳重量仅3.5克,提供Type-C快充功能。 **倍思E8** 京东自营价109元,配备低延迟技术(0.038秒)。支持双通道低延迟技术,ENC通话降噪功能。耳机仓支持闪充,充电10分钟可使用2小时,整体续航达20小时。 --- **选购注意事项** 1. **佩戴稳固性**:优先选择可调节耳挂+亲肤硅胶材质组合,运动时不易脱落 2. **续航能力**:单次使用建议不低于5小时,配合充电仓总续航15小时以上 3. **传输性能**:选择蓝牙5.3及以上版本,支持AAC/SBC音频解码 4. **防护等级**:运动场景需关注IPX4级及以上防水认证
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值