常见乱码产生原因以及锟斤拷的产生过程

小范同学_

已于 2022-06-16 09:35:52 修改

阅读量9.3k

点赞数 7

CC 4.0 BY-SA版权

分类专栏： java进阶文章标签： java 开发语言

于 2022-06-15 17:53:32 首次发布

本文链接：https://blog.csdn.net/weixin_43660088/article/details/125300009

java进阶专栏收录该内容

12 篇文章

订阅专栏

本文深入探讨了乱码产生的原因，包括古文码、方块码、符号码、拼音码和问句码等，详细分析了UTF-8与GBK编码间的转换问题。通过代码测试展示了乱码如何形成，解释了编码原理，并以'锟斤拷'为例解释了方块码转化为锟拷码的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

常见乱码产生原因

名称	示例	特点	原因
古文码	浜屽紶涓夋潕鍥旇档鍏	大多为不认识的古文，夹杂日韩文	以GBK方式读取UTF-8编码的中文
方块码	��	大部分字符为方块问号	以UTF-8方式读取GBK编码的中文
符号码	å¼ä¸æåçäºèµµèä¸	大部分字符为各种符号	以ISO8859-1方式读取UTF-8编码的中文
拼音码	ÕÅÈýÀîËÄÍõÎåÕÔÁ	大部分字符为带着声调的字母	以ISO8859-1方式读取GBK编码的中文
问句码	寮犱笁鏉庡洓鐜嬩簲叚鑰?	基本和古文码一致，字符串为偶数时正常，长度为奇数时结尾会带上问号	以GBK方式读取UTF-8编码的中文，然后又用GBK的格式再次读取
锟拷码	锟斤拷锟斤拷锟斤拷	基本都是锟斤拷三个字符	以GBK方式读取UTF-8编码的��

方块码的产生原因

下面我们来看一下方块码具体是怎么来的
首先需要知道方块码‘�’的产生原因，由上图可知，方块码是以UTF-8方式读取GBK编码的中文，而UTF-8和GBK编码的区别在于：

UTF-8会将中文转化成三个字节进行存储
GBK会将中文转化成两个字节进行存储

代码测试

public class TestCode {

    public static void main(String[] args) {
        test_UTF8_GBK();
    }
    
   //UTF8_GBK
    static void test_UTF8_GBK(){
        try {
            byte[] GBKbyte = "张三".getBytes("GBK");
            System.out.print("张三的GBK编码：");
            for (byte b : GBKbyte) {
                System.out.print(b + " ");
            }
            String UTF8_GBKbyte = new String(GBKbyte, "UTF-8");
            System.out.println("\nUTF-8读取GBK编码："+UTF8_GBKbyte);
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
    }
    
}

控制台打印以下信息

张三的GBK编码：-43 -59 -56 -3
UTF-8读取GBK编码：��

编码原理

"张三"在GBK中实际以-43 -59 -56 -3 进行存储，再由UTF-8读取时，由于这些码在UTF-8库中无法匹配
UTF-8字符集也有一个专门用于提示用户字符无法识别或展示的替换符号：也就是‘�’
因此，我们会看到，使用UTF-8读取GBK编码的中文时就会产生方块码

锟拷码的产生原因

由上表可知，锟拷码是由于以GBK方式读取UTF-8编码的��得到，而如果产生了方块码，就有可能会产生锟拷码

代码测试

public class TestCode {

    public static void main(String[] args) {
        test_GBK_UTF8byte();
    }

    static void test_GBK_UTF8byte() {
        try {
            byte[] UTF8byte = "����".getBytes("UTF-8");
            for (byte b : UTF8byte) {
                System.out.print(" " + b);
            }
            String GBK_UTF8byte = new String(UTF8byte, "GBK");
            System.out.println("\n" + GBK_UTF8byte);
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
    }
    
}