文章目录
前言
上一篇是短了点,但是并不是草率了啊。
好的上一篇刚发两个小时,咱就不讨论了,这一篇主要是讲下载中的缓存,既然大家都喜欢用爬虫去批量下载图片、音频、视频之类的,那么我自然也喜欢呐。
缓存 or 不缓存?it’s a problem
做后端开发的小伙伴对缓存是不会陌生的了。
当然,其他小伙伴可能就不是很清楚缓存是什么了。
缓存,将数据暂时存储在内存中。
内存,不是你的那些硬盘。
内存资源是有限的,磁盘读取是比较慢的,所以该怎么选就得看你自己掂量掂量了。
如果你需要执行一个大型爬取工作,那么它可能会由于错误或异常被中断,缓存可以帮助你无须重新爬取那些可能已经抓取过的页面。缓存还可以让你在离线时访问这些页面(出于数据分析或开发的目的)。
不过,如果你的最高优先级是获得网站最新和当前的信息,那此时缓存就没有意义。此外,如果你没有计划实现大型或可重复的爬虫,那么可能只需要每次去抓取页面