编码与字符存储空间的估计

本文探讨了ASCII编码的历史背景和存储效率,以及Unicode编码如何为统一全球字符集而牺牲存储空间。ASCII最初考虑过6位编码,最终采用8位,成为字节存储的标准。Unicode则是16位编码,能表示更多字符,但占用两倍于ASCII的存储空间。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ASCII编码存储大小的估计

采用8位编码的EBCDIC中其实还有很多编码未定义,这也说明当年ASCII码采用了7位编码也是合乎情理的。在ASCII码刚刚问世的那个年代,存储器的价格贵得令人咋舌,有一些观点认为ASCII码可以用6位编码并配合转义字符来使用,这样既可以区分大小写又节约了存储器。这种方案并没有被采纳,当时还有一些人认为ASCII码应采用8位编码,他们对计算机的体系结构有了一个大胆的推测,即计算机应该按字节存储,7位存储是不合适的。今天来看,8位的字节存储已经作为了一项标准。尽管ASCII码从技术的本质上来看是7位编码,但仍以8位的形式存储。

在字节与字符之间创建一种等价关系大大简化了我们的工作,举例来讲,如果要粗略估计一个文本文件所需要的存储空间,只要统计字符数就可以了。这时前面学过的K(kilos)和M (Megas)就派上了用场,用它们来表示文本所占据的计算机存储空间更加通俗易懂。

传统的排版格式是:一张大小为8.5×11英寸的打印纸,采用双倍行距,1英寸的页边距,每页可以容纳约27行的正文。每行宽度约为6.5英寸,每英寸可容纳10个字符,通过计算可以知道每页共包含约1750个字节。如果页面采用单倍行距,那么打印纸的容量约为原先的2倍,即3.5 KB。

翻开一本《纽约客》(The New Yorker)杂志,可以看到杂志每页有3栏,每栏包含60行,每行约有40个字符,这样算下来每页大致包含7200个字符(也可以说成字节)。

《纽约时报》(New York Times)每一页包含6栏。假如页面都是文字而不包含标题和图片ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值