前言
- chardet.detect(): 查看编码类型;
- decode(): 把编码后的字符串转成未编码的unicode;(解码成unicode)
- encode(): 将unicode转成编码后的字符串;(编码为对应的类型)
一、常见编码类型
- utf-8: 是Unix下的一种通用编码,可以对汉字编码,应该是Unix环境下能打开看到汉字的唯一编码;
- gbk: 是win环境下的一种汉字编码,其中GB2312编码也算是gbk编码,这种编码在Unix环境中打开是乱码;
- unicode: 是一种二进制编码,所有的utf-8和gbk编码都得通过unicode编码进行转译,说的直白一点,utf-8和gbk编码之间不能之间转换,要在unicode之间过个场才能转换。( unicode-escape 编码集,他是将unicode内存编码值直接存储)
二、读取编码类型
- 引入chartdet 读取文件编码类型:
>>>