睡醒继续做梦
https://docs.beink.cn/
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
我的爬虫笔记(七) 通过爬虫实现blog访问量+1
给定博客主页 依次进入博客地址 以实现刷取浏览量的效果方法可行 实践开始原创 2022-07-24 20:58:11 · 353 阅读 · 0 评论 -
我的爬虫笔记(六)
利用爬虫下载网络图片例如这个图片(这是个动图。。)直接敲模板,这次就是需要存储此时图片已经在我们的r中了,只需要将他存进本地即可不懂文件操作看看这个:点我视频,音乐,目前还不会。。。...原创 2021-07-31 11:13:07 · 124 阅读 · 1 评论 -
我的爬虫笔记(五)
状态码不是200解决方案以他为例子,进行爬取内容内容出现,至于有什么用,那是以后的事但是有的时候,会访问错误,就是状态码不是200,是其他值,这时就需要我们进行其他操作了.为了找个状态码不是200的找个半天......终于,出现了,觉得国外的不容易连接...首先我们连接失败,肯定是有原因的.我们输入r.request.headers查看头部信息这里我们访问网址时,我们的名字叫做"python-requests/2.26.0",所以网站判断我们是爬虫,拒绝...原创 2021-07-30 19:04:25 · 135 阅读 · 1 评论 -
我的爬虫笔记(四)
盗亦有道网络爬虫有些是对网络有危害的,所以人们规定了一些东西,来进行对其的限制网络爬虫,爬取网络资源需要遵循一定的协议网站通过两种方式来限制网络爬虫来源审查:大致就是,他只让认识的浏览器或者爬虫进行访问 Robots协议:就是提前告知哪些东西你可以爬取,哪些东西不行,然后我们可以通过在网址后面加上/robots.txt即可调出,该网址的Robots协议,例如百度http://www.baidu.com/robots.txt但是遵不遵循该协议还得看爬虫作者了大致所有的网站都会有..原创 2021-07-30 18:02:16 · 118 阅读 · 1 评论 -
我的爬虫笔记(三)
只写稍微明白点的a = requests.get(url)他是将网页的全部html代码爬取下来a = requests.head(url)他是获取网页的头部信息,就是可以用很少的流量去获取资源的概要信息a = requests.post/put(url,date)他是向服务器提交新增数据,put 覆盖原数据,不知道干啥的,过????????????,但我觉得哪个网站会接受新增数据呢。。。a =requests.request(method,url,**kwargs)他应该就原创 2021-07-28 10:45:51 · 129 阅读 · 1 评论 -
我的爬虫笔记(二)
这里是http://ww.baibu.com为例子简单几行代码即可抓取主页内容那个 200表示连接成功,其他的则是失败又试了几个其他网页还试了大学慕课的,好多东西,上千行,卡死!!!如果使用了网页的默认编码方式,则会出现一堆不认识的东西其中 a.apparent_encoding 是通过整体判断该网页内容的编码方式,就有了a.encoding = a.apparent_encoding 这种好方法,直接转码输出,nice!!至于这些东西有什么...原创 2021-07-27 16:27:16 · 160 阅读 · 1 评论 -
我的爬虫笔记(一)
最近想玩玩爬虫,这是个很陌生的东西,但是他对我的吸引力太大了,于是乎,找点时间玩一玩,虽说玩的不会太明白,但还是会玩玩,毕竟这东西的吸引力实在是太大了,慢慢来,学一点补充一点,毕竟自己搞,还是需要点时间的。必备python 和第三方库 requestspython下载对于第三方库 requests 觉的有点麻烦因为中间摸石头过河,才搞好,这里写一点下载python时记得把pip给勾上(自己下载时没管它,导致想给他装上摸不清头脑。。)下载后看图片输入pip show p..原创 2021-07-27 15:58:39 · 201 阅读 · 2 评论