自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 (二)使用selenium爬取拉钩招聘网信息并存入csv文件

网页分析 url = https://www.lagou.com/jobs/list_python? 拉钩网中每块信息都是动态异步的 爬取方式 1.分析ajax接口(不推荐,因为拉钩网防爬手段很多) 2.selenium模拟浏览器爬取 这里采用selenium爬取 逻辑分析: 1.模拟打开列表页分析爬取列表页中所有职位url 2.模拟打开所有职位url获取源代码 3.解析源代码获取需要的数据 4...

2020-05-05 00:30:01 1141 1

原创 (一)selenium分析爬取豆瓣电影短评并存储到mongodb中

分析并写下爬取过程 1.打开豆瓣影评url=https://movie.douban.com/review/best/ 分析页面发现一页有十部电影,循环获取这十部电影的url 2.打开其中一部电影url发现其所有短评皆在此页面的一个子url中,获取此url 3.进入短评页面获取数据,并存储 代码步骤实现 我这里用的是定义一个类来实现首先声明__init__ class DouBanSpider(o...

2020-05-04 01:09:25 1587 2

原创 一点小小的感想

从初识python到爬虫学习即将结束,也快一个月了,从一开始生硬的跟着敲代码,烦燥于编码或者是列表溢出问题,一天或者两天都解决不了,到现在熟练的边测试边写,有自己的想法与逻辑。我发现,计算机学习确实是由浅入深,由易到难,学习之初为自己能爬取某个页面而沾沾自喜,困难之时动态页面的爬取,验证码的识别,随机代理的使用,模拟登入,框架的理解与使用,真的是从入门到放弃。 在现如今计算机呈爆炸函数的发展情况,...

2020-05-04 00:15:19 204

原创 爬取页面数据并绘制词云

词云是人工智能里的一环,掌握爬取数据并数据可视化绘制词云蛮重要的,这里是爬取51job招聘岗位信息绘制词云 import urllib.request import re from wordcloud import WordCloud,ImageColorGenerator import matplotlib.pyplot as plt import jieba.analyse from bs4 ...

2020-04-12 00:57:54 1079

原创 Python爬虫:请求页面基本库(二)request

request 用urllib去处理网页验证和Cookies时,需要写Opener和Handler来处理,很不方便,这里我们学习更为强大的库request get() 实例: import requests #导入requests html = requests.get('https://www.csdn.net/')#使用get方法获取页面信息 print(html.text)#调取text属...

2020-03-30 23:29:48 353

原创 python爬取页面时被gazi压缩以及各种编码方式弄得头脑混乱,在这里理清一下思路和遇到问题解决办法

问题1:为什么会出现乱码呢? 字符串在python内部的表示是unicode编码,也可以说现在的内存是unicode编码格式,硬盘是utf-8。平常的数据操作都是先把数据读取到内存中,所以内存中都是unicode编码格式。所以我们平常在做编码转换时候,通常用unicode作为中间编码。先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码格式。...

2020-03-26 15:33:13 465

原创 解决在线视频(如b站等)中没有IDM下载浮动条问题

解决在线视频(如b站等)中没有IDM下载浮动条问题 Internet Download Manager是一个多线程下载器,使用IDM下载可以提高5倍下载速度,IDM的使用需要注册,小编在使用时间到期时重新下载了新版本IDM并且无需注册。下载地址但是下载完成之后发现chrome浏览器打开在线视频后,没有显示下载浮动条 原来是在删除原版本IDM时,Chrome浏览器中扩展程序一并删除了,添加IDM的插...

2020-03-21 13:42:45 21033 3

原创 python爬虫:请求页面基本库(一)urllib

python爬虫:基本库(一)urllib 学习爬虫,最初的操作便是模拟浏览器向服务端发出请求,这里我们就学习使用urlib库的用法 使用urllib 首先,我们需要了解urllib库,它是python内置的HTTP请求库,也就是说不需要额外安装即可使用,它包含4个模块 request:它是最基本的HTTP请求模块,可以用来模拟发送请求。 error:异常处理模块。 parse:一个工具模块,提供...

2020-03-20 10:50:18 785

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除