Hello大家好,我是你们的老朋友,南枫。不知道大家有没有这么一个困惑“我们为什么要学爬虫?”“学了爬虫有什么用?”“到底什么是爬虫呢?”
现在我们所在的时代是大数据时代,无论什么公司都离不开数据,现在有句话是这样说的“谁有数据,谁就有钱;”那么数据从哪来呢?
01 数据的来源
(1)去第三方公司购买数据(比如企查查)
(2)去免费的数据网站上下载数据(比如国家统计局)
(3)人工cv大法启动!!!
(4)通过爬虫爬取数据
以上四种方法,人工cv大法费时费力,免费数据网站上的数据质量不行,很多第三方公司他们的数据来源往往也是爬虫获取的,所以获取数据最有效的方法和途径就是——爬虫,自己写爬虫爬数据。
02 数据有什么用?
(1)摸摸鱼网站,虽然不是一个专业的信息网站,但他有很多的实时新闻,据开发者提到,这个网站就是提供给打工人摸鱼使用,你们只看到了表面,但实际内核是什么?他的数据、新闻、信息等,从哪来的?不就是通过爬虫获取的吗?那么你们自己想开发一个网站,随便叫什么名字,是不是也可以这样呢?
(2)客户需要,有需求就会有市场,有市场那么就能赚钱!现在一提到副业,第一时间想到的就是Python爬虫,靠爬虫来接单,也有专业的接单网站,比如——猪八戒(说的不是你哈)、一品威客……包括我自己也在给我的学生派单
还有很多,我就不一一的贴出来了,就是想要大家知道,我们学爬虫还是很有出息滴!
03 爬虫的流程
(1)爬虫的工作流程
(2)获取到url
爬虫首先要做的工作就是获取数据的url,有了准确的地址之后我们才能对数据去发送请求
(3)发送请求获取数据
获取网页,比如一个静态加载数据,那么我们就可以直接获取到网页的源代码,因为源代码里面就已经包含了网页的部分有用信息,所以,我们只需要把源代码获取下来即可
(4)提取数据
提取数据我们就可以用很多的方法了——xpath、bs4、selenium、re……这些方法我会在后面的文章一篇一篇的分享出来
(5)保存数据
提取到我们想要的信息之后,就可以直接保存了,比如保存为文本txt、json文本都OK,当然也可以保存到数据库,我们爬虫使用最频繁的有三种数据库——MySQL、redis、mongodb
好了,今天就分享到这里。