了解 unicode 编码 与 utf-8 一语道破 乱码的实本质
知道下面这些点,应该就明了了吧
电脑中只能存储二进制数据,电脑操作的最小单位是 byte字节,一个字节是 8bit(8位)。
字符的存储:电脑只能存储数字,所以要将字符转为对应的数字进行存储。
各种编码(unicode,ascii,gbk等等):功能就是字符与数字的对应关系,所以每种编码会有对应的编码表
utf-8 : 是unicode编码实现的一种方式: 就是按照编码表,将字符以怎样的方式在电脑中进行存取。也就是用几个 byte 来存储字符对应的数字。
为什么会出现乱码?
其实很简单啦。由于编码方案众多,交叉使用编码方案就会乱码。
譬如: 我们中文可以用 gbk,utf-8 ,如果我们用 gbk 进行存,然后用 utf-8 方式取,就有可能乱码。
试想:
如果 同一个字符,在 gbk 对应的数字是 8000, 而在 utf-8 中对应的数字是 9000,要乱码的吧
就算数字一样,如果 gbk 是用 2 个字节 存储一个 字符,而这个字符 utf-8 中是 3 个字节存,那 utf-8 会多取一个 字节,这个值,肯定也不对,又乱码了吧
为什么英文很少乱码
电脑是外国发明的,起初只显示英文,英文是 ascii 编码,因为 ASCII 编码只用一个字节 , 他只用 127 个字符就可以表示完英文,符号等。
之所以会有其他的编码,是因为这 127 个字符无法表示其他的字符,比如中文,几千个汉字,127 显然远远不够。 可以理解为,其他的编码是在 ascii 基础上的扩充。
所以这也是为什么其他的编码大都兼容ascii,英文很少显示乱码的原因。
共 0 条评论