该用户不在服务区范围内 2023-04-10 23:19 采纳率: 44.4%
浏览 30
已结题

iconv,node 爬虫,中文乱码

想爬一些免费小说,但是发现第一章乱码,第二章不乱码。所爬取网页的字符集类型为gb18030。想请问一下各位怎么解决乱码的问题。
是第一章有什么特殊字符所以乱码了吗?

    request(
      options,
      encoding: null
    },
      (err, res, body) => {
        let buffer = Buffer.from(body);
        let html = iconv.decode(buffer, 'gbk');
        resolve(html);
      }
     )
  • 写回答

2条回答 默认 最新

  • 阿里嘎多学长 2023-04-11 00:06
    关注

    以下内容部分参考ChatGPT模型:


    乱码问题可能是因为编码格式不匹配所导致的。可以使用iconv模块来解决这个问题。iconv可以将不同编码格式的数据进行转换,使其变成可读的字符。具体使用方法如下:

    1.安装iconv

    在命令行输入以下命令进行安装:

    npm install iconv --save
    

    2.引入iconv模块

    在代码中引入iconv模块:

    const iconv = require('iconv');
    

    3.使用iconv进行编码转换

    在爬取网页内容后,使用iconv将内容进行编码转换。例如,将gb18030编码格式的字符串转换为utf-8编码格式:

    let content = iconv.decode(body, 'gb18030');
    content = iconv.encode(content, 'utf-8').toString();
    

    4.使用转换后的内容进行后续操作

    将转换后的内容用于后续操作,比如解析HTML文档或者写入文件等。

    完整代码示例:

    const request = require('request');
    const iconv = require('iconv');
    
    request({
      url: 'http://example.com',
      encoding: null // 设置为null,返回buffer类型的数据
    }, (err, res, body) => {
      if (err) {
        console.error(err);
        return;
      }
      // 将gb18030编码格式的内容转换为utf-8编码格式
      let content = iconv.decode(body, 'gb18030');
      content = iconv.encode(content, 'utf-8').toString();
      // 使用转换后的内容进行后续操作
      console.log(content);
    });
    

    注意:在使用iconv转换编码格式时,一定要先将数据解码为buffer类型,然后再进行编码转换。


    如果我的建议对您有帮助、请点击采纳、祝您生活愉快

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 4月19日
  • 已采纳回答 4月11日
  • 创建了问题 4月10日