01、解析和提取 HTML
此自动化脚本将帮助你从网页URL
中提取HTML
,然后还为你提供可用于解析HTML
以获取数据的功能。这个很棒的脚本对于网络爬虫和那些想要解析HTML
以获取重要数据的人来说是一种很好的享受。
# 解析和提取 HTML
# pip install gazpacho
进口西班牙凉菜汤
# 从 URL 中提取 HTML
url = ' https://www.example.com/'
html = gazpacho.get(url)
print(html)
# 提取带有标题的 HTML
headers = {'User-Agent': 'Mozilla/5.0'}
html = gazpacho.get(url, headers=headers)
print(html)
# 解析 HTML
解析 = gazpacho.Soup(html)
# 查找单个标签
tag1 = parse.find('h1')
tag2 = parse.find('span')
# 查找多个标签
tags1 = parse.find_all('p')
tags2 = parse.find_all('a')
# 按类查找标签
tag = parse.find('.class')
# 按属性查找标签
tag = parse.find("div", attrs={"class": "test"})
# 从标签中提取文本
text = parse.find('h1').text
text = parse.find_all('p')[0].text