了解 unicode 编码与 utf-8 一语道破乱码的实本质_博文详情_我的学习笔记

佳的博客

曾梦想仗剑天涯,后来工作忙没去。

了解 unicode 编码与 utf-8 一语道破乱码的实本质

概念原理 2021-08-07 10:15:49 298 0 0

知道下面这些点，应该就明了了吧

电脑中只能存储二进制数据，电脑操作的最小单位是 byte字节，一个字节是 8bit（8位）。
字符的存储：电脑只能存储数字，所以要将字符转为对应的数字进行存储。
各种编码（unicode，ascii，gbk等等）：功能就是字符与数字的对应关系，所以每种编码会有对应的编码表
utf-8 ：是unicode编码实现的一种方式：就是按照编码表，将字符以怎样的方式在电脑中进行存取。也就是用几个 byte 来存储字符对应的数字。

为什么会出现乱码？

其实很简单啦。由于编码方案众多，交叉使用编码方案就会乱码。

譬如：我们中文可以用 gbk，utf-8 ，如果我们用 gbk 进行存，然后用 utf-8 方式取，就有可能乱码。

试想：

如果同一个字符，在 gbk 对应的数字是 8000，而在 utf-8 中对应的数字是 9000，要乱码的吧
就算数字一样，如果 gbk 是用 2 个字节存储一个字符，而这个字符 utf-8 中是 3 个字节存，那 utf-8 会多取一个字节，这个值，肯定也不对，又乱码了吧

为什么英文很少乱码

电脑是外国发明的，起初只显示英文，英文是 ascii 编码，因为 ASCII 编码只用一个字节，他只用 127 个字符就可以表示完英文，符号等。

之所以会有其他的编码，是因为这 127 个字符无法表示其他的字符，比如中文，几千个汉字，127 显然远远不够。可以理解为，其他的编码是在 ascii 基础上的扩充。

所以这也是为什么其他的编码大都兼容ascii，英文很少显示乱码的原因。

0顶

0 踩

下一篇：Golang 错误和异常处理的正确姿势

上一篇：位运算基础计算机原码，反码，补码

共 0 条评论

新的评论

老佳啊

85后，大专学历，中原人士，家里没矿。

由于年轻时长的比较帅气，导致在别人眼里，我一直不谈恋爱的原因是清高，实则是自己的小自卑。最大的人生目标就是找一个相知相爱相容的人，共度余生。

和人相处时如果能感受到真诚，会非常注重彼此的关系，对别人没有什么心机，即使有利益冲突，一般也会以和为贵，因为在这个世界上，物质的东西，从来不会吸引到我。

特别迷恋那些大山大水，如果现在还能隐居，可能早就去了。对那些宏伟的有底蕴的人文景观比较不感冒。

从事于IT行业，却一直对厨房念念不忘，由于身材魁梧，总觉得自己上辈子是个将军，可惜这辈子没当兵，也不会打架。