iconv，node 爬虫，中文乱码

想爬一些免费小说，但是发现第一章乱码，第二章不乱码。所爬取网页的字符集类型为gb18030。想请问一下各位怎么解决乱码的问题。
是第一章有什么特殊字符所以乱码了吗？

    request(
      options,
      encoding: null
    },
      (err, res, body) => {
        let buffer = Buffer.from(body);
        let html = iconv.decode(buffer, 'gbk');
        resolve(html);
      }
     )

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2023-04-11 00:06
关注
以下内容部分参考ChatGPT模型：

乱码问题可能是因为编码格式不匹配所导致的。可以使用iconv模块来解决这个问题。iconv可以将不同编码格式的数据进行转换，使其变成可读的字符。具体使用方法如下：

1.安装iconv

在命令行输入以下命令进行安装：

npm install iconv --save

2.引入iconv模块

在代码中引入iconv模块：

const iconv = require('iconv');

3.使用iconv进行编码转换

在爬取网页内容后，使用iconv将内容进行编码转换。例如，将gb18030编码格式的字符串转换为utf-8编码格式：

let content = iconv.decode(body, 'gb18030'); content = iconv.encode(content, 'utf-8').toString();

4.使用转换后的内容进行后续操作

将转换后的内容用于后续操作，比如解析HTML文档或者写入文件等。

完整代码示例：

const request = require('request'); const iconv = require('iconv'); request({ url: 'http://example.com', encoding: null // 设置为null，返回buffer类型的数据 }, (err, res, body) => { if (err) { console.error(err); return; } // 将gb18030编码格式的内容转换为utf-8编码格式 let content = iconv.decode(body, 'gb18030'); content = iconv.encode(content, 'utf-8').toString(); // 使用转换后的内容进行后续操作 console.log(content); });

注意：在使用iconv转换编码格式时，一定要先将数据解码为buffer类型，然后再进行编码转换。

如果我的建议对您有帮助、请点击采纳、祝您生活愉快
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Node爬虫GBK网页中文乱码
2022-07-10 10:19

小小学编程的博客 Node爬虫GBK网页中文乱码，有两种方式可以解决一、使用superagent-charset模块其实 superagent-charset插件也用到了iconv-lite 二、使用iconv-lite模块进行转码 conv-lite是一个进行编码转换的模块（node 默认...
Node爬虫利用Jquery解析元素，利用 iconv.decode之后还是乱码
2020-12-20 17:47

maboii的博客最近在学习Node爬虫，其中就用到了Jquery解析页面元素，在爬取页面的时候利用 iconv.decode之后还是乱码，那么首先要搞清楚下面的内容问题就迎刃而解了。 const Decodebody = iconv.decode(body, 'gb2312') 这行代码...
node爬虫的使用以及解决数据乱码的问题
2021-10-22 14:37

st紫月的博客 node爬虫需要用到的模块： npm install request npm install iconv-lite npm install cheerio request 是一个用来简化 HTTP 请求操作的模块,默认是用get方法 var request = require('request'); // 通过 GET 请求来...
nodejs爬虫抓取数据乱码问题总结
2021-01-20 07:48

在Node.js环境中编写爬虫程序时，经常遇到的一个问题是数据抓取后出现乱码现象，尤其是在处理非UTF-8编码的网页时。本篇文章将针对这类问题进行详细的总结，特别是针对Windows-1251（cp1251）编码的情况。首先，...
nodejs爬虫遇到的乱码问题汇总
2020-10-20 01:43

Node.js爬虫在解析网页数据时经常会遇到编码不一致的问题，导致输出结果出现乱码。以下是对Node.js爬虫遇到的乱码问题的详细知识点整理，以及如何解决这些问题的建议。 1. 网页编码识别问题在Node.js爬虫中，网页...
Node.js抓取中文网页乱码问题和解决方法
2020-10-24 17:49

Node.js在进行网页数据抓取时，经常遇到编码不一致导致的乱码问题，尤其是抓取非UTF-8编码的中文网页时。比如，当目标网站使用GB2312或其他字符集编码时，直接抓取返回的数据会显示为乱码，无法直接被浏览器或其他...
node爬虫gbk中文乱码问题
2018-04-02 22:30

weixin_30549175的博客刚入坑node 写第二个node爬虫时，遇到了这个坑，记录一下。主要步骤： 1.安装iconv-lite 输入npm install iconv-lite 2.将接收到的网页源码以二进制的方式存储下来，处理二进制数据流使用Buffer全局对象。 3....
node.js 爬虫中文乱码 处理
2018-07-13 15:19

weixin_30535913的博客爬虫中文乱码可做如下处理 import request from 'superagent'; import cheerio from 'cheerio';//类似jquery写法 const Iconv = require('iconv').Iconv; const iconv = new Iconv('GBK', 'UTF-8'); ...
详解nodejs爬虫程序解决gbk等中文编码问题
2020-12-23 07:50

使用nodejs写了一个爬虫的demo，目的是提取网页的title部分。遇到最大的问题就是网页的编码与nodejs默认编码不一致造成的乱码问题。nodejs支持utf8, ucs2, ascii, binary, base64, hex等编码方式，但是对于汉语言...
node.js爬虫解决乱码问题+解析网页小结
2018-12-26 09:01

张小益达的博客 node.js爬虫解决乱码问题前端学习进程在爬取出来整个界面之后，可以试着输出看一下整个内容时候是自己想要的，也看看时候出现了乱码问题，解决乱码问题有很多种方法，我当初就试过很多种方法，真正有效的不多，...
Node.js数据抓取乱码问题汇总
2022-11-25 11:09

q56731523的博客一般简单使用后，还是乱码形如：пїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ。所有这里主要说的是 Windows-1251（cp1251）编码与utf-...
nodejs 爬虫中文字体乱码 superagent iconvLite
2021-03-26 20:05

缘_妙不可言的博客 } }) 2, 使用 axios 和 iconv-lite 使用axios请求，返回 stream 数据流，用node的Buffer接收并用iconvLite解析gbk格式 const iconvLite = require('iconv-lite'); const axios = require('axios'); axios.get(url, ...
nodejs 爬虫的乱码问题归类及解决方案
2021-01-30 20:03

要怎么样才能取一个独一无二的名字的博客乱码问题分类及解决方案 1 使用 cheerio 解析下载下来的html字符串，碰到中文，如果不解析，可以直接添加参数 { decodeEntities: false }：例如： var $ = cheerio.load("<h1><p>你好</p><em&...
python node 爬虫_Node.js 实现简单小说爬虫
2020-12-20 10:33

weixin_39622568的博客最近因为剧荒，老大追了爱奇艺的一...都是在线资源，下载的话需要登录，注册登录好麻烦，写个爬虫玩玩也好，于是动手用 node 写了一个，这里做下笔记工作流程获取 URLs 列表(请求资源 request 模块)根据 URLs 列表获...
node爬虫之gbk网页中文乱码解决方案
2016-01-25 16:47

weixin_33859844的博客之前在用 node 做爬虫时碰到的中文乱码问题一直没有解决，今天整理下备忘。（PS：网上一些解决方案都已经不行了） 中文乱码具体是指用 node 请求 gbk 编码的网页，无法正确获取网页中的中文（需要转码），"gbk&...
基于Node实现爬虫程序抓取百度热搜数据
2020-11-23 22:09

柯晓楠的博客 Node.js：作为爬虫程序的开发环境 request：用于发送HTTP请求的模块 cheerio：用于解析DOM iconv-lite：用于解析数据的编码案例描述使用Node.js实现一个简单的爬虫程序，抓取百度热搜的数据，抓取的网站地址： ...
node 爬取网页数据中文乱码-编码“gb2312”,Iconv-lite 解码没有作用。
2020-12-16 16:30

李是谁？的博客 npm install iconv-lite 1.网上错误的解码方式 var fs = require("fs"); var iconv=require("iconv-lite"); var request=require("request"); var txt=fs.readFileSync("./a.txt","utf8"); iconv.decode(txt,"gbk")...
nodejs 做一个简单的爬虫
2024-09-19 04:29

2401_87215043的博客 Mac 上面是 npm install iconv -save运行结果应该第二幅图这样，中间手滑少写了个字母在你所创建的文件夹下面创建一个 data 文件夹用于保存爬到的文本数据。创建一个 image 文件夹用于保存图片数据。创建一个 js ...
node python 爬虫_Node.js 实现简单小说爬虫实例
2020-12-18 11:19

weixin_39568781的博客最近因为剧荒，老大追了爱奇艺的...都是在线资源，下载的话需要登录，注册登录好麻烦，写个爬虫玩玩也好，于是动手用 node 写了一个，这里做下笔记工作流程获取 URLs 列表(请求资源 request模块)根据 URLs 列表获取...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月10日

iconv，node 爬虫，中文乱码

2条回答 默认 最新

以下内容部分参考ChatGPT模型：

如果我的建议对您有帮助、请点击采纳、祝您生活愉快

问题事件

2条回答默认最新