【小平工作日志】python利用lxml解析抓取的html页面

本文介绍了lxml库在Python中处理XML和HTML的功能,它是libxml2和libxslt的Python绑定,结合了速度与功能完整性。文章详细讲解了lxml的使用方法,包括如何将HTML页面转换为Element对象,以及如何利用XPath进行数据提取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

lxml 简介:

lxml是Python语言中处理XML和HTML的库。是libxml2和libxslt两个C库的Python化绑定,它的独特之处在于兼顾了这些库的速度和功能完整性。

lxml使用:

1、导入etree。etree 是lxml库下的一个包。

from lxml import etree

2、把抓取过来的html页转成elment。

element = etree.HTML(html)#返回Element对象

3、使用element中的xpath方法。

element.xpath('****xpath字符串')#返回的是elements
element.xpath('string(.)')#返回此元素以及其子元素下的文字

ele_a.get('href') #返回此元素下的href属性的值
ele_div.xpath('./div[1]/div[2]/p[2]/label/text()')#返回此元素下的值(不包含子元素)

 

转载于:https://my.oschina.net/wuminghai/blog/796915

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值