阅读文本大概需要 10 分钟,今天,不要面向监狱编程了。
序言
前段时间有一篇名为《只因写了一段爬虫,公司200多人被抓!》的文章非常火,相信大家应该都看到了。
这篇文章火起来之后,本来经过了一个多月的时间已经冷静下来了的爬虫圈子又开始人心惶惶了,各种说法层出不穷,大家都害怕自己一不小心就违法、进监狱过年,各种论坛、群看到爬虫就在说面向监狱编程,但是,事情真的是那样吗?
辟谣
我们先来看几个明显有误,且传播很广的说法吧。
“最近很多做爬虫的被抓了”
那篇文章的故事中提到的,是一家名为「巧达数据」的公司,如果之前有关注过相关新闻的朋友应该不难发现,这个公司实际上在19年上半年的时候就已经被查封了!
而文章后面提到的天翼征信、新颜科技、魔蝎科技、公信宝、同盾科技相关事件,实际上也都是19年下半年的事情了,都不是最近才发生的。
“最近一直有做爬虫的公司被抓”
很多人跟我说他看到一直有公司因为做爬虫被抓,但其实都是错觉,说白了,这只是因为你关注的信息来源(微信公众号)或者是你朋友圈内的人关注的信息来源都很集中、搞来搞去都是同一个圈子里的人导致的。
同一个圈子里的公众号关注得多了之后,会出现一个很神奇的现象:
你会发现你时不时地就看到某一篇文章在换了个标题之后,又出现在了你的消息列表/朋友圈/看一看中,而这篇文章很可能你已经看到过很多遍了。
这种现象你见得多了之后,很可能就会不再点开文章查看,也自然就不会知道它里面到底写了什么,你只是感觉好像一直有新的被抓的公司,但是实际上那些文章都只是换了个名字的旧文章。
“只要不遵守robots协议就会被抓”、“伪造UA(User-Agent)就会被抓”、“只要绕过、破解反爬虫措施就会被抓”
这几个说法的起源,是「某离职的头条员工做了一个头条的竞品,还爬了头条的数据,结果被告了」的那个案件的相关新闻。
但将这几个说法再次搬出来并且还传播开了的,是源于某个法律领域的公众号在魔蝎科技等公司被抓后,写的一篇对相关案件和法律的解读(当时是爆文,朋友圈都在刷屏)。
我们先来说说传播最广的这个法律领域的公众号所说的吧。律师毕竟不是做技术的,对很多技术方面的东西了解的并不多,所以有些内容在做技术的人看来其实是挺搞笑的。
但由于那位律师的文章当时太火了,很多