lxml 简介:
lxml是Python语言中处理XML和HTML的库。是libxml2和libxslt两个C库的Python化绑定,它的独特之处在于兼顾了这些库的速度和功能完整性。
lxml使用:
1、导入etree。etree 是lxml库下的一个包。
from lxml import etree
2、把抓取过来的html页转成elment。
element = etree.HTML(html)#返回Element对象
3、使用element中的xpath方法。
element.xpath('****xpath字符串')#返回的是elements
element.xpath('string(.)')#返回此元素以及其子元素下的文字
ele_a.get('href') #返回此元素下的href属性的值
ele_div.xpath('./div[1]/div[2]/p[2]/label/text()')#返回此元素下的值(不包含子元素)