scrapy~爬虫-问题

yanyanforest

于 2020-08-13 15:52:25 发布

阅读量259

点赞数

CC 4.0 BY-SA版权

分类专栏： Python

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/yanyanforest/article/details/107980511

Python 专栏收录该内容

1 篇文章

订阅专栏

爬取网页数据不全（不分页）

编码导致
1.爬取统计网站中其中的一个地址http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/44/53/445381.html 爬取的信息不全

当爬取区域名称和编码时,遇到一些汉字,爬取不到。

	page = requests.get(url_str)

    soup = BeautifulSoup(page.content, "html",from_encoding='gb18030')

    tr_tags = soup.select('table [class] > tr')

注意其中的参数编码方式：from_encoding='gb18030’