使用程式收集微博热搜的数据有以下两种方式🔽
1️⃣爬虫方式,直接从网页上抓取
这种方式需要编写解释html 结构的代码, 因为你的抓取的都是html 页面,不是数据。这个是常用的爬虫方式,但有以下3️⃣个问题🔽
➡️爬虫代码会和网页的代码结构捆绑,人家的 介面修改优化,你的代码也要修改
➡️需要伪装请求头(header),在请求头中值入Cookie,否则你发的请求过不了验证,返会空页面,程式运行后爬. 了个寂寞
➡️Cookie 会过期,而且要从浏览器中抓取,非常不方便
2️⃣寻找接口方式
這是直接请求数据,微博有开放热搜的数据接口,只要编写几句代码
便可以轻易抓取json格式的热搜数据
这种格式非常容易处理并转换为excel 或csv 格式
第2️⃣种方式更高效抓取热搜数据,抓取数据的核心思维是先观察数据传输或搜寻文档,看看有没有合适的數據接口,有的话便用数据接口,没有的话先再编写爬虫。因为使用数据接口能节省不少开发时间😄