文件编码转换

老代码是GBK的,现在需要转换为UTF-8。

两种方式,第一种适合少量文件,第二种适合批量处理

1、IDEA转换。需要一个一个处理

 

 2、通过代码处理,主要是通过google的juniversalchardet包和commons-io包处理。

注意:有些是GBK,有些是GB18030,可以通过代码中 detector.getDetectedCharset() 查看文件的具体编码

/**
 * @desc: 批量转换指定文件文件编码。
 <dependency>
            <groupId>com.github.albfernandez</groupId>
            <artifactId>juniversalchardet</artifactId>
            <version>2.4.0</version>
        </dependency>
        <dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
            <version>2.4</version>
        </dependency>
 * @date: 2021.07.23
 */
public class FileCharsetTransferUtil {

    public static void main(String[] args) {
        Collection<File> files = FileUtils.listFiles(new File("D:\\svn-deploy"), new String[]{"java"}, true);
        for (File file : files) {
            FileCharsetTransferUtil.transfer(file, StandardCharsets.UTF_8.name(), "GBK");
        }
    }

    /**
     *
     * @param file 文件路径
     * @param filterCharset 被转换文件的编码
     * @param targetCharset 转换后的编码
     */
    public static void transfer(File file, String filterCharset, String targetCharset){
        try {
            byte[] buf = new byte[4096];
            InputStream fis = new FileInputStream(file);
            UniversalDetector detector = new UniversalDetector(null);

            int nread;
            while ((nread = fis.read(buf)) > 0 && !detector.isDone()) {
                detector.handleData(buf, 0, nread);
            }
            detector.dataEnd();

            // 获取文件编码
            String encoding = detector.getDetectedCharset();
            if (encoding != null) {
                if (encoding.contains(filterCharset)) {
                    System.out.println("encode:"+encoding+";文件:"+file.getAbsolutePath());
                    FileCharsetTransferUtil.transform(file,encoding,file,targetCharset);
                }
            } else {
                System.out.println("No encoding detected,文件:"+file.getAbsolutePath());
            }

            detector.reset();
        }catch (Exception e){
            e.printStackTrace();
        }
    }

    public static void transform(File source, String srcEncoding, File target, String tgtEncoding) throws IOException {
        FileUtils.writeLines(target, tgtEncoding, FileUtils.readLines(source, srcEncoding));
    }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值