【小平工作日志】python利用lxml解析抓取的html页面

chengzhao5997

于 2016-11-30 17:40:00 发布

阅读量140

点赞数

CC 4.0 BY-SA版权

文章标签： python c/c++

原文链接：https://my.oschina.net/wuminghai/blog/796915

本文介绍了lxml库在Python中处理XML和HTML的功能，它是libxml2和libxslt的Python绑定，结合了速度与功能完整性。文章详细讲解了lxml的使用方法，包括如何将HTML页面转换为Element对象，以及如何利用XPath进行数据提取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

lxml 简介：

lxml是Python语言中处理XML和HTML的库。是libxml2和libxslt两个C库的Python化绑定，它的独特之处在于兼顾了这些库的速度和功能完整性。

lxml使用：

1、导入etree。etree 是lxml库下的一个包。

from lxml import etree

2、把抓取过来的html页转成elment。

element = etree.HTML(html)#返回Element对象

3、使用element中的xpath方法。

element.xpath('****xpath字符串')#返回的是elements
element.xpath('string(.)')#返回此元素以及其子元素下的文字

ele_a.get('href') #返回此元素下的href属性的值
ele_div.xpath('./div[1]/div[2]/p[2]/label/text()')#返回此元素下的值（不包含子元素）

转载于:https://my.oschina.net/wuminghai/blog/796915