爬取网页数据不全(不分页)
编码导致
1.爬取统计网站 中 其中的一个地址http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/44/53/445381.html 爬取的信息不全
当爬取区域名称和编码时,遇到一些汉字,爬取不到。
page = requests.get(url_str)
soup = BeautifulSoup(page.content, "html",from_encoding='gb18030')
tr_tags = soup.select('table [class] > tr')
注意其中的参数 编码方式:from_encoding='gb18030’