python简单爬虫：爬取并统计自己博客页面的信息（三）

最新推荐文章于 2025-02-10 09:44:53 发布

Yvettre

最新推荐文章于 2025-02-10 09:44:53 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签：爬虫 python html解析器 DOM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yvettre/article/details/79942294

python简单爬虫：爬取并统计自己博客页面的信息（二）中介绍了URL管理器和html下载器的简单实现，接下来介绍html解析器的简单实现。

9. html解析器（html_parser.py）

html解析器的主要任务是从下载好的网页中提取所需要的数据
解析html的方法主要有两种：一是正则表达式，这是将整个html内容一个超大字符串来看待，匹配出所需数据；二是使用beautifulsoup4模块进行结构化解析，是将整个html的内容看作是DOM树来解析，本文使用的是第二种方法
安装beautifulsoup4模块：pip install beautifulsoup4
什么是DOM（Document Object Model）
- 对浏览器中打开的任意网页快捷键F12，可以查看当前网页的html文档
- 一个html文档是由很多个html元素构成的，遵循HTML标准
- 简单来说，DOM将html文档表达为树结构，定义了访问和操作html文档的标准和接口，允许程序和脚本动态地访问和更新html文档的内容、结构和样式
- 下面是一个简单的DOM树示图
举个例子说明如何使用bs4来解析html文档：

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。