Python爬虫入门基础知识,通俗易懂

Hello大家好,我是你们的老朋友,南枫。不知道大家有没有这么一个困惑“我们为什么要学爬虫?”“学了爬虫有什么用?”“到底什么是爬虫呢?”

现在我们所在的时代是大数据时代,无论什么公司都离不开数据,现在有句话是这样说的“谁有数据,谁就有钱;”那么数据从哪来呢?

01 数据的来源

(1)去第三方公司购买数据(比如企查查)

(2)去免费的数据网站上下载数据(比如国家统计局)

(3)人工cv大法启动!!!

(4)通过爬虫爬取数据

以上四种方法,人工cv大法费时费力,免费数据网站上的数据质量不行,很多第三方公司他们的数据来源往往也是爬虫获取的,所以获取数据最有效的方法和途径就是——爬虫,自己写爬虫爬数据。

02 数据有什么用?

(1)摸摸鱼网站,虽然不是一个专业的信息网站,但他有很多的实时新闻,据开发者提到,这个网站就是提供给打工人摸鱼使用,你们只看到了表面,但实际内核是什么?他的数据、新闻、信息等,从哪来的?不就是通过爬虫获取的吗?那么你们自己想开发一个网站,随便叫什么名字,是不是也可以这样呢?

图片

(2)客户需要,有需求就会有市场,有市场那么就能赚钱!现在一提到副业,第一时间想到的就是Python爬虫,靠爬虫来接单,也有专业的接单网站,比如——猪八戒(说的不是你哈)、一品威客……包括我自己也在给我的学生派单

图片

图片

图片

还有很多,我就不一一的贴出来了,就是想要大家知道,我们学爬虫还是很有出息滴!

03 爬虫的流程

(1)爬虫的工作流程

图片

(2)获取到url

爬虫首先要做的工作就是获取数据的url,有了准确的地址之后我们才能对数据去发送请求

(3)发送请求获取数据

获取网页,比如一个静态加载数据,那么我们就可以直接获取到网页的源代码,因为源代码里面就已经包含了网页的部分有用信息,所以,我们只需要把源代码获取下来即可

(4)提取数据

提取数据我们就可以用很多的方法了——xpath、bs4、selenium、re……这些方法我会在后面的文章一篇一篇的分享出来

(5)保存数据

提取到我们想要的信息之后,就可以直接保存了,比如保存为文本txt、json文本都OK,当然也可以保存到数据库,我们爬虫使用最频繁的有三种数据库——MySQL、redis、mongodb

好了,今天就分享到这里。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值