1.使用string(.)进行we文本 内容的处理 这时的文本内容并非是真正干净的文本内容 还需要借助其他方法进行优化 用法如下:
content.xpath('//*[@id="guidePage"]/section[2]/div[2]/ol/li[1]/h4').xpath('string(.)').extract_first()
结果如下:
2.用如下的方法进行优化
2.1 获取最外层标签,遍历内部所有的子标签“/text()”,获取标签文本
class XiaoshuoSpider(scrapy.Spider):
name = 'xiaoshuo'
allowed_domains = ['tieba.baidu.com']
start_urls = ['https://tieba.baidu.com/p/5815118868']
f= open('content.txt','a',encoding='utf-8