震惊,大多数互联网用户都不是人

一项研究显示,互联网上超过一半的流量来自各种类型的爬虫机器人。这些爬虫包括搜索引擎爬虫、RSSbots、网页爬虫等。研究还发现,恶意爬虫占据了相当大的比例,对网络安全构成威胁。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

网站安全和内容分发公司Incapsula发布了一个数据,56%的网页浏览量都由爬虫机器人贡献。

爬虫机器人因为功能和目的不同分为这几类:

Search engine crawlers:搜索引擎爬虫,它们能够对网页建立索引,这样人们就可以在搜索框查找到对应网页的内容。Google就使用这个爬虫整理全世界的信息。

RSS bots:订阅类爬虫,能够从网站抓取内容聚合起来,鲜果、今日头条和网页新闻客户端就使用了这类爬虫。

Scrapers:网页爬虫,一般是盗取内容、邮箱地址和逆向破解定价模型,它可以作用在电子商务网站。

Impersonator:拟人伪装爬虫,它能够伪装成搜索引擎或者浏览器,以避免被网站发现。它能够搜集营销情报,发动DDos攻击,消耗带宽甚至使网站瘫痪。

Hacking Tools:黑客工具,它能够盗取信息,植入流氓软件,破坏网页内容甚至劫持网站和服务器。

Spammers:垃圾邮件发送工具,它可以骚扰普通访客,发布无关内容或者钓鱼链接。它还可以加载过量链接,让网站进入搜索引擎的黑名单而从互联网“消失”。

在56 %的访问中,恶意爬虫机器人占比29%,善意占比27%。随着RSS爬虫的减少,善意爬虫的比例更小了。

大部分网站的爬虫访问比例在63%到80%之间,越小的网站爬虫访问的比例越高。搜索引擎爬虫是这一现象的主要原因,它对小网站和大网站几乎无差别对待,而平均每个网站一天要被谷歌的搜索引擎爬虫访问187次。

拟人伪装爬虫增长很快,它是过去3年里唯一持续增长的爬虫。在上面提到的Google搜索引擎爬虫中,平均来说每24次访问就会有一个伪装爬虫来访。在这些伪装爬虫中,25.16%来自美国,中国占比15.61%,是第二大的来源国。

RSS爬虫逐渐走向衰落。老一代RSS工具,例如Google Reader、鲜果都已经走向死亡。

Incapsula的数据来源于20000个每天至少有10个访问量的网站,它整理了过去90天的150亿次访问数据得出了这个结果。

我们的所见所得,数据安全,带宽消耗和广告浏览都和爬虫机器人息息相关,它们重塑了我们工作和生活的方式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值