编码
一、类型介绍
(1)ASCII (ASCII 编码表 一个字符表示一个字节(每个字符用一个字节表示);实际上一个字节可以表示 256 个字符,在 ASCll 码表中只用 128 个)
(2) Unicode (Unicode 编码表 固定大小的编码 使用两个字节来表示字符,字母和汉字统一都是用两个字节,这样浪费空间)
(3)UTF-8 (编码表,大小可变的编码 字母使用1 个字节,汉字使用3 个字节)
(4) GBK (可以表示汉字,而且范围广,字母使用1 个字节,汉字使用2 个字节))
(5) gb2312 (可以表示汉字,gb2312 < gbk)
(6) big5 码 (繁体中文,台湾,香港)
二、常用类型
UTF-8
(1)是在互联网使用最广的 Unicode 的实现方式(改进)
(2)UTF-8 是一种变长的编码方式。它可以使用 1-6 个字节表示一个字符,根据不同的字符而变化字节长度
(3)使用大小可变的编码,字母使用1 个字节,汉字使用3 个字节
Unicode
(1)优点:使用一种编码,将世界上所有的符号都纳入其中。每一个字符都给了一个独一无二的编码,使用 Unicode 没有乱码的问题
(2)缺点:一个英文字母和一个汉字都占用2 个字节,这对于存储空间来说是浪费
(3)2 的 16 次方是 65536,所以最多编码是65536 个字符。
(4)编码 0-127 的字符是与 ASCII 的编码一样。比如'a'在 ASCII 码是 0x61,在 unicode 码是 0x0061,都对应 97。因为Unicode 码兼容 ASCII 码
ASCII 码
(1)上个世纪 60 年代,美国制定了一套字符编码(使用一个字节),对英语字符与计算机之间的关系,做了统一规定。这被称为 ASCII 码。ASCII 码一共规定了 128 个字符的编码,只占用一个字节的后面 7 位,最前面的 1 位统一规定为 0
(2)特别提示:一个字节可以表示 256 个字符,ASCII 码只用了 128 个字符(规则:用一个字节表示一个字符)
(3)缺点:不能表示所有字符
