milk-request-CSDN博客

原创 (二)使用selenium爬取拉钩招聘网信息并存入csv文件

网页分析 url = https://www.lagou.com/jobs/list_python? 拉钩网中每块信息都是动态异步的爬取方式 1.分析ajax接口（不推荐，因为拉钩网防爬手段很多) 2.selenium模拟浏览器爬取这里采用selenium爬取逻辑分析： 1.模拟打开列表页分析爬取列表页中所有职位url 2.模拟打开所有职位url获取源代码 3.解析源代码获取需要的数据 4...

2020-05-05 00:30:01 1141 1

原创 (一)selenium分析爬取豆瓣电影短评并存储到mongodb中

分析并写下爬取过程 1.打开豆瓣影评url=https://movie.douban.com/review/best/ 分析页面发现一页有十部电影，循环获取这十部电影的url 2.打开其中一部电影url发现其所有短评皆在此页面的一个子url中，获取此url 3.进入短评页面获取数据，并存储代码步骤实现我这里用的是定义一个类来实现首先声明__init__ class DouBanSpider(o...

2020-05-04 01:09:25 1587 2

原创一点小小的感想

从初识python到爬虫学习即将结束，也快一个月了，从一开始生硬的跟着敲代码，烦燥于编码或者是列表溢出问题，一天或者两天都解决不了，到现在熟练的边测试边写，有自己的想法与逻辑。我发现，计算机学习确实是由浅入深，由易到难，学习之初为自己能爬取某个页面而沾沾自喜，困难之时动态页面的爬取，验证码的识别，随机代理的使用，模拟登入，框架的理解与使用，真的是从入门到放弃。在现如今计算机呈爆炸函数的发展情况，...

2020-05-04 00:15:19 204

原创爬取页面数据并绘制词云

词云是人工智能里的一环，掌握爬取数据并数据可视化绘制词云蛮重要的，这里是爬取51job招聘岗位信息绘制词云 import urllib.request import re from wordcloud import WordCloud,ImageColorGenerator import matplotlib.pyplot as plt import jieba.analyse from bs4 ...

2020-04-12 00:57:54 1079

原创 Python爬虫：请求页面基本库（二）request

request 用urllib去处理网页验证和Cookies时，需要写Opener和Handler来处理，很不方便，这里我们学习更为强大的库request get() 实例： import requests #导入requests html = requests.get('https://www.csdn.net/')#使用get方法获取页面信息 print(html.text)#调取text属...

2020-03-30 23:29:48 353

原创 python爬取页面时被gazi压缩以及各种编码方式弄得头脑混乱，在这里理清一下思路和遇到问题解决办法

问题1：为什么会出现乱码呢？字符串在python内部的表示是unicode编码，也可以说现在的内存是unicode编码格式，硬盘是utf-8。平常的数据操作都是先把数据读取到内存中，所以内存中都是unicode编码格式。所以我们平常在做编码转换时候，通常用unicode作为中间编码。先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码格式。...

2020-03-26 15:33:13 465

原创解决在线视频（如b站等）中没有IDM下载浮动条问题

解决在线视频（如b站等）中没有IDM下载浮动条问题 Internet Download Manager是一个多线程下载器，使用IDM下载可以提高5倍下载速度，IDM的使用需要注册，小编在使用时间到期时重新下载了新版本IDM并且无需注册。下载地址但是下载完成之后发现chrome浏览器打开在线视频后，没有显示下载浮动条原来是在删除原版本IDM时，Chrome浏览器中扩展程序一并删除了，添加IDM的插...

2020-03-21 13:42:45 21033 3

原创 python爬虫：请求页面基本库（一）urllib

python爬虫：基本库（一）urllib 学习爬虫，最初的操作便是模拟浏览器向服务端发出请求，这里我们就学习使用urlib库的用法使用urllib 首先，我们需要了解urllib库，它是python内置的HTTP请求库，也就是说不需要额外安装即可使用，它包含4个模块 request：它是最基本的HTTP请求模块，可以用来模拟发送请求。 error：异常处理模块。 parse：一个工具模块，提供...

2020-03-20 10:50:18 785

qq_40966461的博客