python简单爬虫:爬取并统计自己博客页面的信息(二)中介绍了URL管理器和html下载器的简单实现,接下来介绍html解析器的简单实现。
9. html解析器(html_parser.py)
html解析器的主要任务是从下载好的网页中提取所需要的数据
解析html的方法主要有两种:一是正则表达式,这是将整个html内容一个超大字符串来看待,匹配出所需数据;二是使用
beautifulsoup4
模块进行结构化解析,是将整个html的内容看作是DOM树来解析,本文使用的是第二种方法安装
beautifulsoup4
模块:pip install beautifulsoup4
什么是DOM(Document Object Model)
- 对浏览器中打开的任意网页快捷键F12,可以查看当前网页的html文档
- 一个html文档是由很多个html元素构成的,遵循HTML标准
- 简单来说,DOM将html文档表达为树结构,定义了访问和操作html文档的标准和接口,允许程序和脚本动态地访问和更新html文档的内容、结构和样式
- 下面是一个简单的DOM树示图
- 举个例子说明如何使用bs4来解析html文档: