浅谈爬虫-爬虫与反爬虫①

                                             

1. 爬虫是什么?

爬虫最早源于搜索引擎,它是一种按照一定的规则,自动从互联网上抓取信息的程序。

搜索引擎是善意的爬虫,它爬取网站的所有页面,提供给其他用户进行快速搜索和访问,给网站带来流量。为此,行业还达成了 Robots 君子协议,让互联网上的搜索与被搜索和谐相处。

原本双赢的局面,很快就被一些人破坏了,如同其他技术,爬虫也是一把双刃剑,变得不再「君子」。尤其是近年来「大数据」的概念,吸引了许多公司肆意爬取其他公司的数据,于是「恶意爬虫」开始充斥互联网。

总结一句话:是一个批量下载网络资源的程序 ,

2. 爬虫的分类

按爬虫功能,可以分为网页爬虫和接口爬虫。

网页爬虫:以搜索引擎爬虫为主,根据网页上的超链接进行遍历爬取。

接口爬虫:通过精准构造特定 API 接口的请求数据,而获得大量数据信息。

按授权情况,可以分为合法爬虫和恶意爬虫。

合法爬虫:以符合 Robots 协议规范的行为爬取网页,或爬取网络公开接口,或购买接口授权进行爬取,均为合法爬虫,该类爬虫通常不用考虑反爬虫等对抗性工作。

恶意爬虫通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大量获取的数据,并有可能给对方服务器性能造成极大损耗。此处通常存在爬虫和反爬虫的激烈交锋。

3. 数据从哪来?

爬虫不生产数据,它们只是数据的搬运工。要研究爬虫,就得先研究数据的来源。尤其是对小型公司来说,往往需要更多外部数据辅助商业决策。如何在广袤的互联网中获取对自己有价值的数据,是许多公司一直考虑的问题。通常来说,存在以下几大数据来源:

企业产生的用户数据

如 BAT 等公司,拥有大量用户,每天用户都会产生海量的原始数据。

另外还包括 PGC (专业生产内容)和 UGC (用户生产内容)数据,如新闻、自媒体、微博、短视频等等。

政府、机构的公开数据

如统计局、工商行政、知识产权、银行证券等公开信息和数据。

第三方数据库购买

市场上有很多产品化的数据库,包括商业类和学术类,如 Bloomberg、 CSMAR、 Wind、知网等等,一般以公司的名义购买数据查询权限,比如咨询公司、高等院校、研究机构都会购买。

爬虫获取网络数据

使用爬虫技术,进行网页爬取,或通过公开和非公开的接口调用,获得数据。

公司间进行数据交换

不同公司间进行数据交换,彼此进行数据补全。

商业间谍或黑客窃取数据

通过内鬼渠道获取其他公司用户数据,或者利用黑客等非常规手段,通过定制入侵获取数据或地下黑市购买其他公司数据。此处内鬼泄漏远多于黑客窃取。

二、恶意爬虫的目标

行业总体分布

通过对捕获的海量恶意爬虫流量进行标注,整理出恶意爬虫流量最大的行业 TOP 10 排行,详情如下:

 

 

由统计可见,出行类恶意爬虫流量占比高于电商与社交行业,居首位,其次是点评、运营商、公共行政等。接下来逐个行业进行分析:

1. 出行

2. 社交

由于国内的社交平台多数以纯 APP 为主,部分社交平台并不支持网页功能,因此捕获到的社交类爬虫主要集中在微博类平台,以爬取用户信息和所发布的内容为主。

3. 电商

电商行业爬虫主要是爬取商品信息和价格等数据,由于商业模式的差异,C2C 类电商由于中小卖家众多,商品数量远多于 B2C 类电商,支撑了电商类恶意爬虫近90%流量, B2C 类电商加起来占一成左右。

4. O2O

O2O 行业恶意爬虫主要集中在点评类和团购类公司,其中以爬取商铺动态信息和星级评分信息的点评类数据为主,占总数的90%以上。

5. 公共行政

公共行政类恶意爬虫主要集中在法院文书、知识产权、企业信息、信用信息等常规商业信息领域,而另一个受爬虫青睐的是挂号类平台,从数据来看应该是一些代挂号平台提供的抢号服务。

6. 运营商

运营商的恶意爬虫流量主要集中在运营商各种互联网套餐手机卡的查询。由于互联网套餐手机卡存在较高的性价比,因此网络上形成了相关的刷靓号、抢号、代购等产业链。

网络上存在多种通过爬虫技术进行靓号手机号搜索的工具,选择手机卡类型,再不断爬取待售手机号,寻找到符合理想靓号规则的号码。下图为某扫号工具截图,可选择数十种不同的互联网套餐卡:

7. 自媒体

根据本次统计,自媒体类爬虫主要集中于微信订阅号关键词搜索和文章访问,分别占总量的64.91%和20.73%,其他自媒体平台约占14.36%。

8. 地图

地图类爬虫比较常规,主要是爬取地理位置周边商户详细信息为主。

9. SEO

 

10. 新闻

新闻类恶意爬虫主要用于爬取聚合类新闻 APP 及各大门户的新闻信息。以搜索引擎的新闻平台和聚合类APP的数据为主,传统门户类爬虫较少光顾。

11. 其他

其他主要被爬虫光顾的领域还有新闻、招聘、问答、百科、物流、分类信息、小说等,不进行一一列举。

三、爬虫与反爬虫的对抗

作为互联网对抗最激烈的战场之一,说到爬虫,就不能不提反爬虫。当反爬虫工程师对爬虫进行了反杀,爬虫工程师也不会任人宰割,很快又研究出了各种反对抗技术。

1. 对手是谁

爬虫和反爬虫的斗争由来已久,要想做好反爬虫,先要知道对手有哪些,才好制定相应的策略。反爬虫工程师的对手通常来自以下几类:

2. 技术对抗

犹如安全专家和黑客之争,爬虫工程师和反爬虫工程师也是相爱相杀、你来我往、螺旋上升。经过几番的技术升级,常用的反爬虫及对应的反反爬虫方案如下:

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值