
Beautiful Soup的用法
Beautiful Soup的基础用法,让爬虫知道怎么解析关键信息。
go2coding
关注机器学习,人工智能
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Beautiful Soup的用法(一):安装和基础信息提取
从爬虫获取了html的源代码以后,通常我们是需要提取html代码里面的关键信息, 而提起关键信息可以用很多种方式,最常用的就是用正则表达式进行匹配了,在python 中有一个很优秀的第三发库,同样可以更优雅的做这些事情,这就是这系列文章要介绍的 Beautiful Soup 。关于Beautiful Soup 的介绍,这里就先不多说了,现在Beautiful Soup 的版本已经到了 4.x, 介绍的话也是关于 4.x的内容。Beautiful Soup 的安装还是使用python 中简单使用的 ea原创 2022-04-08 08:55:10 · 412 阅读 · 0 评论 -
Beautiful Soup的用法(二):元素之间的关系
一开始我们就举了这样的例子,使用find或者是find_all对html的代码进行搜索,为了弄清Beautiful Soup 中的关系,我们来看看这样的一段代码,其中会产生一些疑问,通过疑问的排查过程,能够更进一步的了解Beautiful Soup 。看如下的代码:_#!/usr/bin/python #coding=utf-8 _**from** bs4 **import** BeautifulSoup html = """ <html><he原创 2022-04-08 08:54:24 · 585 阅读 · 0 评论 -
Beautiful Soup的用法(三):bs4.element.Tag的用法
在上一节中,通过分析了Beautiful Soup 中各个元素之间的关系,到最后我们定在了bs4.element.Tag这个关键类上,很多关键信息的提取都需要使用到bs4.element.Tag,需要进一步的看看bs4.element.Tag 在提取上,有哪些可以用的方法。先来看看bs4.element.Tag 具体的是指什么?#!/usr/bin/python #coding=utf-8 from bs4 import BeautifulSoup html = """ &l原创 2022-04-08 08:53:32 · 14768 阅读 · 1 评论 -
Beautiful Soup的用法(四):find和find_all的使用
使用Beautiful Soup 对网页进行解析,需要根据网页的结构找到自己需要的关键信息,在找分析网页结构和找出关键信息就经常用到的两个函数为find和find_all。前面我们已经知道,find和find_all是有区别的,主要的区别是,find 的结果是返回一个bs4.element.Tag的对象,而find_all 返回的是一个bs4.element.ResultSet的对象,bs4.element.ResultSet中是一个 bs4.element.Tag的链表。find和find_all 的原创 2022-04-08 08:52:00 · 7185 阅读 · 0 评论 -
Beautiful Soup的用法(七):分析实例
关于基本Beautiful Soup 的基本使用方法在前面都已经有介绍过了,Beautiful Soup 的点比较多,在项目中是如何使用Beautiful Soup 对抓取到的网页进行分析,并提取关键的字段,这篇文章的目的就在此。分析页面经常看电影的同学都会关注电影的排行榜,在对电影的分析前,先得得到电影的数据。有很多的网站提供了对电影的排名,猫眼也有提供如下的数据:先使用 requests 获取网页数据:url = "http://maoyan.com/board/4?offset=0"he原创 2022-04-07 15:58:27 · 524 阅读 · 0 评论 -
Beautiful Soup的用法(六):解析器的选择
对html 进行解析时,Beautiful Soup 支持解析器的选取,通常来说在选择解析器的时候需要记住两个点,一个是解析时间,另一个是兼容性。Beautiful Soup 支持的解析器有四种:html.parser,lxml,lxml-xml,html5lib。这四种解析器的优点和缺点,文档中下面的表很容易看清:解析器使用方法优势劣势Python标准库BeautifulSoup(markup,“html.parser”)1 Python的内置标准库 2 执行速度适中原创 2022-04-07 15:56:15 · 4410 阅读 · 0 评论 -
Beautiful Soup的用法(五):select的使用
原文地址:http://www.bugingcode.com/blog/beautiful_soup_select.htmlselect 的功能跟find和find_all 一样用来选取特定的标签,它的选取规则依赖于css,我们把它叫做css选择器,如果之前有接触过jquery ,可以发现select的选取规则和jquery有点像。通过标签名查找在进行过滤时标签名不加任何修饰,如下...原创 2018-03-07 14:25:50 · 33813 阅读 · 2 评论