最近在看模拟登陆,找链家二手房爬取来练手,因为技术有限,有些并行化,复杂度,性能方面等不能兼顾,
学习学习学习。
下面贴出源码,有志同道合的高手可以帮忙改进或者提些意见。
#--*-- coding:utf-8 --*-- import pandas import requests import re from bs4 import BeautifulSoup from fake_useragent import UserAgent ua=UserAgent()#使用随机header,模拟人类 headers1={ 'User-Agent':'ua.random'}#使用随机header houseary=[]#建立空列表放房屋信息 for j in range(1,101):#爬取页数