2017年事业单位招聘计算机专业知识：文字、字符的编码

来源：事业单位考试网 2017-05-02 15:34:00

　　由于计算机内部存储、传送及处理的信息只有二进制信息，因此各种文字、符号也就必须用二进制编码表示。在计算机内部处理字符信息的编码统称为机内码，机内码有内部码、地址码、字形码等。其中内部码是字符在计算机内部最基本的表达形式，是在计算机中存储、处理和传送字符用的编码。字形码是表示字符形态的字模数据，是为输出字符给人看而准备的编码。考虑到处理汉字的计算机系统要中西文兼容和其他原因，汉字的内部码与其交换码不完全相同。

　　1．ASCII码

　　美国信息交换标准代码（American Standard Code for Information Interchange，ASCII），已为世界所公认。这种字符标准编码是由7位二进制数码“0”和“1”组成，共27=128种，包括10个十进制数码、52个英文大小写字母、32个通用控制字符、34个专用符号，如表1-2所示。在计算机中常用1个字节（8位二进制数）来表示1个字符，而ASCII码由7位二进制数组成，多出的1位（最高位）常用作奇偶校验位，主要用来验证计算机在进行信息传输时的正确性，在字符编码中一般置为0。

　　字符通过输入设备转换为用ASCII码表示的字符数据，送入计算机；再由输出设备把要输出的ASCII码转换为字符传送给用户。

　　2．汉字编码

　　计算机通过包含汉字在内的字符集与用户进行信息交换，这些信息由计算机处理时，首先要把它变成计算机能接受的代码形式，最终计算机处理的信息又必须将内部代码形式转换成汉字的字形，才能被用户所理解。

　　3．Unicode

　　Unicode（Universal Multiple- octet Coded Character Set）是一种由国际组织设计的编码方法，可以容纳全世界所有文字的字符编码方案。

　　计算机只能处理数字，在处理字母或其他字符时，需指定一个数字来表示。在Unicode之前，有数百种指定这些数字的编码系统，这些编码系统会相互冲突，也就是说，两种编码可能使用相同的数字代表两个不同的字符，或使用不同的数字代表相同的字符。例如，在简体中文（GB）、繁体中文（BIG5）和日文中，同一字“文”的编码各不相同，在不同的编码或平台之间会产生乱码。Unicode解决了这个问题，由于采用统一的编码，每个字符的编码各不相同且是唯一的，不必管它在哪种文字里。

　　Unicode给每个字符提供了一个唯一的数字，不论是什么平台、什么程序，还是什么语言，它将世界上使用的所有字符都列出来，并给每个字符一个唯一的特定数值。Unicode标准已经被业界主要厂商Apple、HP、IBM、J ustSystem、Microsoft、Oracle、SAP、Sun、Sybase、Unisys和其他许多公司所采用，许多操作系统、所有最新的浏览器和许多其他产品都支持Unicode。Unicode标准的出现和支持它的工具的存在，是近年来全球软件技术最重要的发展趋势。

　　Unicode中采用两个字节的编码方案，可以表示216-1＝65535个字符，前128个字符是标准ASCII字符，接下来是128个扩展ASCII字符，其余字符供不同语言的文字和符号使用。在2000年公布的版本V3.0内包括10236个字母和符号、27786个汉字、11172个韩文拼音、6400个造字区、20249个保留区和65个控制符。Unicode只与ASCII兼容，与GB不兼容。目前Windows的内核已经采用Unicode编码，以便支持全世界所有的语言文字。