2017年事业单位招聘计算机专业知识:文字、字符的编码

来源:事业单位考试网 2017-05-02 15:34:00
  由于计算机内部存储、传送及处理的信息只有二进制信息,因此各种文字、符号也就必须用二进制编码表示。在计算机内部处理字符信息的编码统称为机内码,机内码有内部码、地址码、字形码等。其中内部码是字符在计算机内部最基本的表达形式,是在计算机中存储、处理和传送字符用的编码。字形码是表示字符形态的字模数据,是为输出字符给人看而准备的编码。考虑到处理汉字的计算机系统要中西文兼容和其他原因,汉字的内部码与其交换码不完全相同。
 
  1.ASCII码
 
  美国信息交换标准代码(American Standard Code for Information Interchange,ASCII),已为世界所公认。这种字符标准编码是由7位二进制数码“0”和“1”组成,共27=128种,包括10个十进制数码、52个英文大小写字母、32个通用控制字符、34个专用符号,如表1-2所示。在计算机中常用1个字节(8位二进制数)来表示1个字符,而ASCII码由7位二进制数组成,多出的1位(最高位)常用作奇偶校验位,主要用来验证计算机在进行信息传输时的正确性,在字符编码中一般置为0。
 
  字符通过输入设备转换为用ASCII码表示的字符数据,送入计算机;再由输出设备把要输出的ASCII码转换为字符传送给用户。
 
  2.汉字编码
 
  计算机通过包含汉字在内的字符集与用户进行信息交换,这些信息由计算机处理时,首先要把它变成计算机能接受的代码形式,最终计算机处理的信息又必须将内部代码形式转换成汉字的字形,才能被用户所理解。
 
  3.Unicode
 
  Unicode(Universal Multiple- octet Coded Character Set)是一种由国际组织设计的编码方法,可以容纳全世界所有文字的字符编码方案。
 
  计算机只能处理数字,在处理字母或其他字符时,需指定一个数字来表示。在Unicode之前,有数百种指定这些数字的编码系统,这些编码系统会相互冲突,也就是说,两种编码可能使用相同的数字代表两个不同的字符,或使用不同的数字代表相同的字符。例如,在简体中文(GB)、繁体中文(BIG5)和日文中,同一字“文”的编码各不相同,在不同的编码或平台之间会产生乱码。Unicode解决了这个问题,由于采用统一的编码,每个字符的编码各不相同且是唯一的,不必管它在哪种文字里。
 
  Unicode给每个字符提供了一个唯一的数字,不论是什么平台、什么程序,还是什么语言,它将世界上使用的所有字符都列出来,并给每个字符一个唯一的特定数值。Unicode标准已经被业界主要厂商Apple、HP、IBM、J ustSystem、Microsoft、Oracle、SAP、Sun、Sybase、Unisys和其他许多公司所采用,许多操作系统、所有最新的浏览器和许多其他产品都支持Unicode。Unicode标准的出现和支持它的工具的存在,是近年来全球软件技术最重要的发展趋势。
 
  Unicode中采用两个字节的编码方案,可以表示216-1=65535个字符,前128个字符是标准ASCII字符,接下来是128个扩展ASCII字符,其余字符供不同语言的文字和符号使用。在2000年公布的版本V3.0内包括10236个字母和符号、27786个汉字、11172个韩文拼音、6400个造字区、20249个保留区和65个控制符。Unicode只与ASCII兼容,与GB不兼容。目前Windows的内核已经采用Unicode编码,以便支持全世界所有的语言文字。