爬取爬虫学习资料

如有不得当之处,请联系我会及时删除

这次的抓取我用的是requests和Xpath,因为没有必要使用大型工具

import requests
from lxml import etree

思路:
1.目的是下载爬虫教程
2.分析网页以及规则,使用Xpath简单获取下载url
3.循环下载

代码如下:

class github():
	def __init__(self):
		self.allowed_domains = 'https://github.com/Python3WebSpider'
		self.headers = {
			'User-Agent':'*****请换成你们自己的 '
		}
	def spider_pipline(self):
		response1 = requests.get(self.allowed_domains,headers = self.headers,timeout = 5)
		selector = etree.HTML(response1.text)
		main_hrefs = selector.xpath('//div[@id="org-repositories"]//ul/li/div[@class="d-inline-block mb-1"]//a/@href')
		for start_href in main_hrefs:
			href = 'https://github.com'+ start_href
			response2 = requests.get(href, headers=self.headers, timeout=5)
			selector2 = etree.HTML(response2.text)
			href = selector2.xpath('//main[@id="js-repo-pjax-container"]//div[@class="get-repo-modal-options"]/div[@class="mt-2"]/a[2]/@href')
			for item in href:
				item_new = 'https://github.com'+item
				# yield item_new
				# print(item_new)
				r = requests.get(item_new)
				item = item[18:].replace('/','-')
				# print(item)
				with open(item, "wb") as git_zip:
					git_zip.write(r.content)
					print('done-')

if __name__ == '__main__':
	git = github()
	git.spider_pipline()
	print('down——OK')

最后的最后,建议大家给GitHub博主送个星,那个博主也是我崇拜的偶像呢! 他的书很不错!建议买书进行学习、有利于知识体系的结构化构建

如有冒犯之处,请联系删除相应内容。

欢迎加入QQ群一起学习和交流,只为学习和交流:275259334

或者直接扫码加入:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Tony Einstein

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值