- 博客(8)
- 收藏
- 关注
原创 (二)使用selenium爬取拉钩招聘网信息并存入csv文件
网页分析 url = https://www.lagou.com/jobs/list_python? 拉钩网中每块信息都是动态异步的 爬取方式 1.分析ajax接口(不推荐,因为拉钩网防爬手段很多) 2.selenium模拟浏览器爬取 这里采用selenium爬取 逻辑分析: 1.模拟打开列表页分析爬取列表页中所有职位url 2.模拟打开所有职位url获取源代码 3.解析源代码获取需要的数据 4...
2020-05-05 00:30:01
1141
1
原创 (一)selenium分析爬取豆瓣电影短评并存储到mongodb中
分析并写下爬取过程 1.打开豆瓣影评url=https://movie.douban.com/review/best/ 分析页面发现一页有十部电影,循环获取这十部电影的url 2.打开其中一部电影url发现其所有短评皆在此页面的一个子url中,获取此url 3.进入短评页面获取数据,并存储 代码步骤实现 我这里用的是定义一个类来实现首先声明__init__ class DouBanSpider(o...
2020-05-04 01:09:25
1587
2
原创 一点小小的感想
从初识python到爬虫学习即将结束,也快一个月了,从一开始生硬的跟着敲代码,烦燥于编码或者是列表溢出问题,一天或者两天都解决不了,到现在熟练的边测试边写,有自己的想法与逻辑。我发现,计算机学习确实是由浅入深,由易到难,学习之初为自己能爬取某个页面而沾沾自喜,困难之时动态页面的爬取,验证码的识别,随机代理的使用,模拟登入,框架的理解与使用,真的是从入门到放弃。 在现如今计算机呈爆炸函数的发展情况,...
2020-05-04 00:15:19
204
原创 爬取页面数据并绘制词云
词云是人工智能里的一环,掌握爬取数据并数据可视化绘制词云蛮重要的,这里是爬取51job招聘岗位信息绘制词云 import urllib.request import re from wordcloud import WordCloud,ImageColorGenerator import matplotlib.pyplot as plt import jieba.analyse from bs4 ...
2020-04-12 00:57:54
1079
原创 Python爬虫:请求页面基本库(二)request
request 用urllib去处理网页验证和Cookies时,需要写Opener和Handler来处理,很不方便,这里我们学习更为强大的库request get() 实例: import requests #导入requests html = requests.get('https://www.csdn.net/')#使用get方法获取页面信息 print(html.text)#调取text属...
2020-03-30 23:29:48
353
原创 python爬取页面时被gazi压缩以及各种编码方式弄得头脑混乱,在这里理清一下思路和遇到问题解决办法
问题1:为什么会出现乱码呢? 字符串在python内部的表示是unicode编码,也可以说现在的内存是unicode编码格式,硬盘是utf-8。平常的数据操作都是先把数据读取到内存中,所以内存中都是unicode编码格式。所以我们平常在做编码转换时候,通常用unicode作为中间编码。先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码格式。...
2020-03-26 15:33:13
465
原创 解决在线视频(如b站等)中没有IDM下载浮动条问题
解决在线视频(如b站等)中没有IDM下载浮动条问题 Internet Download Manager是一个多线程下载器,使用IDM下载可以提高5倍下载速度,IDM的使用需要注册,小编在使用时间到期时重新下载了新版本IDM并且无需注册。下载地址但是下载完成之后发现chrome浏览器打开在线视频后,没有显示下载浮动条 原来是在删除原版本IDM时,Chrome浏览器中扩展程序一并删除了,添加IDM的插...
2020-03-21 13:42:45
21033
3
原创 python爬虫:请求页面基本库(一)urllib
python爬虫:基本库(一)urllib 学习爬虫,最初的操作便是模拟浏览器向服务端发出请求,这里我们就学习使用urlib库的用法 使用urllib 首先,我们需要了解urllib库,它是python内置的HTTP请求库,也就是说不需要额外安装即可使用,它包含4个模块 request:它是最基本的HTTP请求模块,可以用来模拟发送请求。 error:异常处理模块。 parse:一个工具模块,提供...
2020-03-20 10:50:18
785
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人