Skip to content

编码


一、类型介绍

(1)ASCII (ASCII 编码表 一个字符表示一个字节(每个字符用一个字节表示);实际上一个字节可以表示 256 个字符,在 ASCll 码表中只用 128 个)

(2) Unicode (Unicode 编码表 固定大小的编码 使用两个字节来表示字符,字母和汉字统一都是用两个字节,这样浪费空间)

(3)UTF-8 (编码表,大小可变的编码 字母使用1 个字节,汉字使用3 个字节)

(4) GBK (可以表示汉字,而且范围广,字母使用1 个字节,汉字使用2 个字节))

(5) gb2312 (可以表示汉字,gb2312 < gbk)

(6) big5 码 (繁体中文,台湾,香港)


二、常用类型

UTF-8

(1)是在互联网使用最广的 Unicode 的实现方式(改进)

(2)UTF-8 是一种变长的编码方式。它可以使用 1-6 个字节表示一个字符,根据不同的字符而变化字节长度

(3)使用大小可变的编码,字母使用1 个字节,汉字使用3 个字节

Unicode

(1)优点:使用一种编码,将世界上所有的符号都纳入其中。每一个字符都给了一个独一无二的编码,使用 Unicode 没有乱码的问题

(2)缺点:一个英文字母和一个汉字都占用2 个字节,这对于存储空间来说是浪费

(3)2 的 16 次方是 65536,所以最多编码65536 个字符。

(4)编码 0-127 的字符是与 ASCII 的编码一样。比如'a'在 ASCII 码是 0x61,在 unicode 码是 0x0061,都对应 97。因为Unicode 码兼容 ASCII 码

ASCII 码

(1)上个世纪 60 年代,美国制定了一套字符编码(使用一个字节),对英语字符与计算机之间的关系,做了统一规定。这被称为 ASCII 码。ASCII 码一共规定了 128 个字符的编码,只占用一个字节的后面 7 位,最前面的 1 位统一规定为 0

(2)特别提示:一个字节可以表示 256 个字符,ASCII 码只用了 128 个字符(规则:用一个字节表示一个字符)

(3)缺点:不能表示所有字符