基于Node实现爬虫程序抓取百度热搜数据

本案例展示了如何利用Node.js、request、cheerio和iconv-lite模块实现一个简单的网络爬虫,抓取百度热搜榜的链接和标题。首先通过npm初始化项目并安装所需模块,然后编写代码发起HTTP请求,解析GB2312编码的HTML内容,使用cheerio解析DOM,提取出每个热搜条目的超链接和标题,并将其存储为数据对象。运行程序后,将打印出抓取到的全部数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

技术栈

下面是本案例使用的开发环境与模块:

  • Node.js:作为爬虫程序的开发环境
  • request:用于发送HTTP请求的模块
  • cheerio:用于解析DOM
  • iconv-lite:用于解析数据的编码

案例描述

使用Node.js实现一个简单的爬虫程序,抓取百度热搜的数据,抓取的网站地址:
http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341

效果图如下:
在这里插入图片描述

案例准备

创建项目的根目录,例如 d:\myapp ,在根目录下启动命令行工具,执行以下命令:

# 初始化
npm init -y

# 安装模块
cnpm i request cheerio iconv-lite --save

代码示例

myapp 目录下创建 index.js 文件,具体代码如下:

const request = require('request')
const cheerio = require('cheerio')
const iconv = require('iconv-lite')

//发起请求
request({
	encoding: null,
	url: 'http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341'
},function(error,res,body){

	//获取HTML代码的字符串,使用iconv-lite解决乱码问题
	var html = iconv.decode(body,'gb2312').toString()

	//解析DOM,获取超链接数据对象
	let data = setDatas(html)
	//打印数据
	console.log(data);
})


//解析DOM数据的函数
function setDatas(html){
	//用于存放对象
	let datas = []

	//使用cheerio解析
	var $ = cheerio.load(html)
	var table = $('table.list-table').children()

	//遍历table标签的子元素
	table.each(function(index,element){
		//获取所有带有标题的a标签
		let a = $(this).find('a.list-title')

		//遍历所有的a标签
		a.each(function(){

			//获取所有a标签上的href和title属性
			let href = $(this).attr('href')
			let title = $(this).text()

			//把数据追加到数组中
			datas.push({
				title,
				href
			})

		})
	})

	return datas
}

代码编写完成后,在命令行工具中执行:

node index

即可打印数据:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

柯晓楠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值