BufferedReader读取中文文本乱码

本文介绍了一种在使用Lucene构建索引过程中遇到的文本编码问题及解决方案。当从文本文件中读取数据时,由于未正确指定编码格式导致乱码出现。通过指定正确的文本编码格式(如GB2312),问题得以解决,确保了索引构建的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天测试lucene构建索引时需要从文本中读取数据,使用BufferReader获取文本数据返回乱码。代码如下:

public static void main(String[] args) {

        File file = new File("d:\\1.txt");
        System.out.println(fileToString(file));
    }


    public static String fileToString(File file) {
        StringBuilder out = new StringBuilder();
        try {
            BufferedReader bufferedReader = new BufferedReader(new FileReader(file));
            String str = null;
            while ((str = bufferedReader.readLine()) != null) {
                out.append(str + "\n");
            }
            bufferedReader.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return out.toString();
    }

1.txt 文本内容

我是一个中国人
我爱中国

运行结果:
在这里插入图片描述

解决方法

指定文本编码格式

public static String fileToString(File file) {
        StringBuilder out = new StringBuilder();
        
        try {
            InputStreamReader inputStreamReader = new InputStreamReader(new FileInputStream(file), "GB2312");
            BufferedReader bufferedReader = new BufferedReader(inputStreamReader);
            String str = null;
            while ((str = bufferedReader.readLine()) != null) {
                out.append(str + "\n");
            }
            bufferedReader.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return out.toString();
    }

运行结果:
在这里插入图片描述

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值