自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 抓取设了CSS反爬机制的大众点评数据(下)

该篇实现大众点评爬虫操作代码,所有原理都在(上)篇均已详细阐述,让我没想到的是大众点评不仅设置了CSS反爬,在ip限制方面也是十分的凶狠,不得已花了10块钱买了一天代理ip。大众点评究的反爬竟有多恶心?1.设置了ip限制解决方法:花钱买代理获取接口2.对计算机浏览器进行了识别,频率过高输入验证码解决方法:网上找数十个User-Agent作随机切换3.对Coo...

2020-03-30 15:42:30 867

原创 抓取设了CSS反爬机制的大众点评数据(上)

由于论文的需要,需要爬一点大众点评的美食数据,本想花上一两个小时左右就解决数据问题的。实际操作起来却遇上了很多阻碍,CSS反爬机制的设置让我这个前端知识并不是特别熟的到处蹩脚,花了一晚上才将破解反爬的思路给弄清楚。下面将缕清思路一步步解开大众点评的反爬机制。下面将列出它所设下三个加密陷阱,即地址文本、店铺评分、具体评论的加密。如图1,图2。图1地址文本和评分的加密图2具体评...

2020-03-30 15:35:43 818

原创 利用selenium携带cookies实现免登录

前面爬虫系列我在介绍中谈到过Javascript进行渲染的界面,普通的请求是无法获取关键代码块的。selenium确实是个神器,但是越来越多的网站也对selenium进行了识别和通过登录方式进行了限制,在登录方面因selenium携带cookies的方式和用requests库请求所携带的方式有很大的不同,之前走过了不少的坑,所以在此作下登录的总结。以大麦网和淘宝网为例。1、大麦网大麦网...

2020-03-30 15:12:53 38243 18

原创 世界上有10种人,一种懂二进制的,另一种不懂

前一段时间看到网上有个笑话——世界上有10种人,一种懂二进制的,另一种不懂,这时有人问这不是才2种人吗? 哈哈哈不知你反应过来了吗?这个笑话也侧面反映了理解二进制系统的重要性,请细读下文,待我一步步揭开二进制的面纱。编程新手在进行文件交互时常会遇到如下问题 什么是解码与编码,它们的本质是什么?在用编程语言进行读入、读出文件时会出现乱码的原因是什么?以及Unicode,UTF-8,GBK编码方式...

2020-03-30 14:51:26 6490

原创 基于Python抓取电影天堂数据

一、开头在花了近半年的课余时间学习了Python的基础语法后开始尝试网页的抓取,学了一个星期,刚开始的抓取比较小的网页尝到甜头后,疯狂的找各种网页抓取,当然也被各种虐得反爬虐 - -!于是决定认真复习之前的笔记,把爬取过的网页及方法记录下来,写博客有助于自己后面的复习,当然如果有爬虫比我还小白的朋友看我的这些基础可能也会收获点 ~二、工具(Python)所依赖的库requestsx...

2019-04-21 00:35:26 16671

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除