JAVA字符编码详解：UNICODE与UTF-8/16转换

TXT文件

下载需积分: 4 | 2KB | 更新于2025-01-26 | 181 浏览量 | 举报 1 收藏

立即下载

在Java编程中，字符编码是一个至关重要的概念，因为Java选择使用Unicode作为其内部表示字符的标准，以确保跨语言和平台的兼容性。Unicode是一种字符集，它为世界上几乎所有的字符提供了一个唯一的数字标识。然而，Java中的字符串实际上存储的是这些Unicode字符的字节序列，这取决于所使用的编码格式。首先，Java中的标准字符串类型`String`默认使用UTF-16编码，这意味着每个字符由两个字节（16位）表示，其中每个字节对应一个或两个16位Unicode代码单元。例如，文本中的中文字符通常会占用两个这样的代码单元。当你通过`charAt()`方法访问单个字符时，实际上是获取这两个字节的组合，然后通过位运算将其分解为低位（low）和高位（high）两个字节。为了将`String`转换为特定的字节序列，比如UTF-8，可以使用`getBytes()`方法。UTF-8是一种变长编码，对于大部分常用字符占用一个字节，而对于罕见的多字节字符（如中文）则占用多个字节。在提供的代码示例中，`name.getBytes("utf-8")`会创建一个UTF-8编码的字节数组，长度为3，这是因为中文字符占用了两个字节。另一种编码是UTF-16，如UTF-16BE（BigEndian）和UTF-16LE（LittleEndian）。UTF-16BE使用大端字节序，而UTF-16LE使用小端字节序。在Java中，除非特别指定，`getBytes("utf-16")`默认采用的是LittleEndian，这可能导致与大端系统（如某些操作系统和硬件）不兼容。这段代码展示了如何分别处理UTF-16BE编码，输出的结果长度为4，这是因为UTF-16BE编码中文字符同样需要两个字节，但字节顺序不同。需要注意的是，Java的`getBytes()`方法默认使用平台的字节顺序，如果需要强制使用特定字节顺序（如UTF-16BE），可以明确指定编码名称，如`getBytes("utf-16be")`，这样得到的字节数组长度将变为2，因为UTF-16BE编码下，每个中文字符仅需一个字节。总结来说，Java中的字符编码涉及到Unicode、UTF-8、UTF-16等不同的字节序列转换方式，以及大端和小端字节序的区别。理解这些基础知识对于正确处理国际化字符和数据在网络传输中的编码转换至关重要。在实际开发中，开发者需要根据具体需求选择合适的编码方式，并确保兼容性和数据的一致性。

众所周知，JAVA为了国际通用，用的是UNICODE来保存里面的字符。而UNICODE只是一个种字符集，字符的存储和表示要用到一定的字符编码格式，而与UNICODE对应的字符编码格式就是我们常看到的UTF-8,UTF-16等等，而UTF-8是最常用的，所以人们常常把它和UNICODE等同起来(我以前就是这样的)，这在某些情况下是没有错的，但这样的理解在JAVA里就会产生一些混淆。我们用下面的程序来演示一下。

　　定义一个字符串

　　String name = "堂";

　　这个字符串就一个字符，把它取出来

　　char c_name = name.charAt(0);

　　JAVA里的char型是十六位的(两个字节)，但是如果是用UTF-8的话可能会不只两位(UTF-8是变长存储的)，那看来JAVA本身并不是用UTF-8来保存的，口说无凭，做个实验吧。

　　首先看看char里保存的内容　　 int low = (c_name) & 0xff;//取c_name的低位
　　int high = (c_name >> 8) & 0xff;//取c_name的高位
　　System.out.println(Integer.toHexString(high) + " " + Integer.toHexString(low));
　　结果是58 02

　　只有两个字节而已(16位)，那么真正的UTF-8编码的内容是什么呢，再看看吧。

　　为了方便，我写了一个辅助方法printbyte，作用是把一个byte数组的每个元素按照十六进制格式打印出来，同样为了方便，我把它作为静态方法。　

public static void printbyte(byte[] bt)
　　{
　　for (int i = 0; i < bt.length; i++)
　　{
　　int hex = (int)bt[i] & 0xff;
　　System.out.print(Integer.toHexString(hex) + " ");
　　}
　　System.out.println(" length = "+bt.length);
　　}

下载后可阅读完整内容，剩余1页未读，立即下载