作者:Python进阶者
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
CPA之家app推广平台是国内很大的推广平台。该网址的数据信息高达数万条,爬取该网址的信息进行数据的分析。
实现将获取到的QQ,导入excel模板,并生成独立的excel文档。
反爬措施处理
前期测试时发现,该网站反爬虫处理措施很多,测试到有以下几个:
-
直接使用requests库,在不设置任何header的情况下,网站直接不返回数据。
-
同一个ip连续访问40多次,直接封掉ip,起初我的ip就是这样被封掉的。
为了解决这两个问题,最后经过研究,使用以下方法,可以有效解决。
-
获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。
-
使用 fake_useragent ,产生随机的UserAgent进行访问。
需要的库和网址
1、网址,如下所示:
https://www.cpajia.com/index.php?g=Wap&a=searchua
2、需要用到的库:requests
、time
、lxml
、ua