python简单爬虫:爬取并统计自己博客页面的信息(三)

python简单爬虫:爬取并统计自己博客页面的信息(二)中介绍了URL管理器和html下载器的简单实现,接下来介绍html解析器的简单实现。

9. html解析器(html_parser.py)
  • html解析器的主要任务是从下载好的网页中提取所需要的数据

  • 解析html的方法主要有两种:一是正则表达式,这是将整个html内容一个超大字符串来看待,匹配出所需数据;二是使用beautifulsoup4模块进行结构化解析,是将整个html的内容看作是DOM树来解析,本文使用的是第二种方法

  • 安装beautifulsoup4模块:pip install beautifulsoup4

  • 什么是DOM(Document Object Model)

    • 对浏览器中打开的任意网页快捷键F12,可以查看当前网页的html文档
    • 一个html文档是由很多个html元素构成的,遵循HTML标准
    • 简单来说,DOM将html文档表达为树结构,定义了访问和操作html文档的标准和接口,允许程序和脚本动态地访问和更新html文档的内容、结构和样式
    • 下面是一个简单的DOM树示图
      spider-DOM
  • 举个例子说明如何使用bs4来解析html文档:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值