老代码是GBK的,现在需要转换为UTF-8。
两种方式,第一种适合少量文件,第二种适合批量处理
1、IDEA转换。需要一个一个处理
2、通过代码处理,主要是通过google的juniversalchardet包和commons-io包处理。
注意:有些是GBK,有些是GB18030,可以通过代码中 detector.getDetectedCharset() 查看文件的具体编码
/**
* @desc: 批量转换指定文件文件编码。
<dependency>
<groupId>com.github.albfernandez</groupId>
<artifactId>juniversalchardet</artifactId>
<version>2.4.0</version>
</dependency>
<dependency>
<groupId>commons-io</groupId>
<artifactId>commons-io</artifactId>
<version>2.4</version>
</dependency>
* @date: 2021.07.23
*/
public class FileCharsetTransferUtil {
public static void main(String[] args) {
Collection<File> files = FileUtils.listFiles(new File("D:\\svn-deploy"), new String[]{"java"}, true);
for (File file : files) {
FileCharsetTransferUtil.transfer(file, StandardCharsets.UTF_8.name(), "GBK");
}
}
/**
*
* @param file 文件路径
* @param filterCharset 被转换文件的编码
* @param targetCharset 转换后的编码
*/
public static void transfer(File file, String filterCharset, String targetCharset){
try {
byte[] buf = new byte[4096];
InputStream fis = new FileInputStream(file);
UniversalDetector detector = new UniversalDetector(null);
int nread;
while ((nread = fis.read(buf)) > 0 && !detector.isDone()) {
detector.handleData(buf, 0, nread);
}
detector.dataEnd();
// 获取文件编码
String encoding = detector.getDetectedCharset();
if (encoding != null) {
if (encoding.contains(filterCharset)) {
System.out.println("encode:"+encoding+";文件:"+file.getAbsolutePath());
FileCharsetTransferUtil.transform(file,encoding,file,targetCharset);
}
} else {
System.out.println("No encoding detected,文件:"+file.getAbsolutePath());
}
detector.reset();
}catch (Exception e){
e.printStackTrace();
}
}
public static void transform(File source, String srcEncoding, File target, String tgtEncoding) throws IOException {
FileUtils.writeLines(target, tgtEncoding, FileUtils.readLines(source, srcEncoding));
}
}