|
|
|
|
移动端

1.4.1 文本的表示

《计算机科学概论(第12版)》第1章数据存储,在本章中,我们学习有关计算机中数据表示和数据存储的内容。我们要研究的数据类型包括文本、数值、图像、音频和视频。除了传统计算外,本章的很多内容还涉及数字摄影、音频/视频录制和复制,以及远程通信等领域。本节为大家介绍文本的表示。

作者:刘艺/吴英/毛倩倩 译来源:人民邮电出版社|2018-01-28 20:12

开发者盛宴来袭!7月28日51CTO首届开发者大赛决赛带来技术创新分享

1.4 用位模式表示信息

在研究了位存储的技术后,现在来了解如何将信息编码为位模式。我们将集中学习一些流行的文本编码方法、数字数据编码方法、图像编码方法以及声音编码方法。其中每一个编码系统都可能会影响到典型的计算机用户。我们的目标是充分了解这些技术,以便知道应用这些技术的效果。

1.4.1 文本的表示

文本形式的信息通常由一种代码表示,其中文本中的每一个不同的符号(如英文字母和标点符号)均被赋予唯一的位模式。这样,文本就表示为一个长的位串,位串中的连续位模式表示的是原文本中的连续符号。

在20世纪的40年代和50年代,人们设计了许多这样的代码,并结合不同的设备使用,随之增加了不少通信问题。为了缓解这种情况,美国国家标准化学会(American National Standards Institute,ANSI,读作“AN–see”)采用了美国信息交换标准码(American Standard Code for Information Interchange,ASCII)。这种代码使用长度为7的位模式来表示大小写英文字母、标点符号、数字0~9以及某些控制信息(如换行、回车和制表符)。后来,ASCII码通过在每个7位位模式的最高端添加一个0,扩展为8位位模式。这个技术不仅使所产生的代码的位模式与字节型存储单元相匹配,而且还提供了128个附加位模式(通过给附加的位赋予数值1),可以表示除英语字母和关联的标点符号之外的符号。

美国国家标准化学会

美国国家标准化学会(ANSI)成立于1918年,是由一些工程师协会和政府机构联合创办的非赢利性联盟,致力于协调私人部门自发标准的发展。现在,ANSI成员中有1300多个企业、专业组织、行业协会和政府机构。ANSI的总部设在纽约,它是美国在ISO的代表。它的网站是http://www.ansi.org

其他国家的类似组织包括澳大利亚标准组织(Standards Australia)、加拿大标准委员会(Standards Council of Canada)、中国国家质量技术监督局(China State Bureau of Quality and Technical Supervision)、德国标准化学会(Deutsches Institut für Normung)、日本工业标准调查会(Japanese Industrial Standards Committee)、墨西哥标准指导委员会(Dirección General de Normas)、俄罗斯联邦国家标准和度量委员会(State Committee of the Russian Federation for Standardization and Metrology)、瑞士标准化协会(Swiss Association for Standardization)和英国标准学会(British Standards Institution)。

8位位模式的一部分ASCII码可见附录A。利用这个附录,我们可以将位模式

  1. 01001000  01100101  01101100  01101100  01101111  00101110 

解码为报文“Hello.”,如图1-11所示。

国际标准化组织(International Organization for Standardization)简称ISO,这个简称来源于希腊语中的“isos”一词,意思是平等。ISO开发了大量的ASCII扩展,每种扩展都是针对某一主要语种设计的。例如,其中一个标准提供了表达大部分西欧语言文本所需的符号。在其128个附加模式中,有表示英磅和德语元音?、?、ü的符号。

ISO——国际标准化组织

国际标准化组织(常称为ISO)建立于1947年,是一个由各国标准化团体组成的世界范围的联合会。现如今,它的总部设在瑞士日内瓦,有100多个成员团体和许多通信成员。(一个通信成员通常是一个国家的标准化团体,这个国家还没有国家认可的标准化团体。这些成员不能直接参与标准的开发,但可以了解ISO的活动。)ISO的网站是http://www.iso.org

ISO扩展的ASCII标准在支持全世界多语言通信方面取得了巨大进展,但是仍有两个主要障碍。首先,扩展的ASCII中额外可用的位模式数不足以容纳许多亚洲语言和一些东欧语言的字母表。其次,因为一个特定文档只能使用一个选定标准中的符号,所以无法支持包含不同语种的语言文本的文档。实践证明,这两者都会严重妨碍其国际化使用。为弥补这一不足,Unicode在一些主要软硬件厂商的合作下诞生了,并迅速赢得了计算界的支持。这种代码采用唯一的21位模式来表示每一个符号。当Unicode字符集与Unicode转换格式8位(Unicode transformation format 8-bit,UTF-8)编码标准结合在一起时,原来的ASCII字符仍然可以用8位来表示,而像汉语、日语和希伯来语这样的语言所产生的数以千计的其他字符则可以用16位来表示。除了可以表示世界上所有常用语言所需的字符以外,UTF-8的24位或32位模式还可以表示比较鲜为人知的Unicode符号,为未来的扩展留出了充足的空间。

由一长串根据ASCII或Unicode编码的符号组成的文件常称为文本文件(text file)。区分下面两类文件很重要:一类是由称为文本编辑器(text editor,常简称为编辑器)的实用程序操作的简单文本文件;一类是由字处理程序(word processor),如微软的Word,产生的较复杂的文件。两者都是由文本材料组成的,但是,文本文件只包含文本中各个字符的编码,而由字处理程序产生的文件还包含许多表示字体变化、对齐信息和其他参数的专有代码。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

非常网管——网络应用

在网络应用越来越复杂的今天,传统的网络应用已经不能满足企业和用户的需要,这就对网络管理员、信息管理部门提出了更高的要求。本书介绍了...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊