字母编码是什么

字母编码是把字符集中的字母为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。

字母编码是把字符集中的字母为指定集合中某一对象(例如:比特模式、自然数序列、8 位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。

字母编码是什么

编码简介

在显示器上看见的文字、图片等信息在电脑里面其实并不是我们看见的样子,即使你知道所有信息都存储在硬盘里,把它拆开也看不见里面有任何东西,只有些盘片。假设,你用显微镜把盘片放大,会看见盘片表面凹凸不平,凸起的地方被磁化,凹的地方是没有被磁化;凸起的地方代表数字 1,凹的地方代表数字 0。硬盘只能用 0 和 1 来表示所有文字、图片等信息。那么字母”A”在硬盘上是如何存储的呢?可能小张计算机存储字母”A”是 1100001,而小王存储字母”A”是 11000010,这样双方交换信息时就会误解。

比如小张把 1100001 发送给小王,小王并不认为 1100001 是字母”A”,可能认为这是字母”X”,于是小王在用记事本访问存储在硬盘上的 1100001 时,在屏幕上显示的就是字母”X”。也就是说,小张和小王使用了不同的编码表。小张用的编码表是 ASCII,ASCII 编码表把 26 个字母都一一的对应到 2 进制 1 和 0 上;小王用的编码表可能是 EBCDIC,只不过 EBCDIC 编码与 ASCII 编码ψ的字母和 01 的对应关系不同。一般地说,开放的操作系统(LINUX、WINDOWS 等)采用 ASCII 编码,而大型主机系统(MVS、OS/390 等)采用 EBCDIC 编码。在发送数据给对方前,需要事先告知对方自己所使用的编码,或者通过转码,使不同编码方案的两个系统可沟通自如。

ASCII 码使用 7 位 2 进制数表示一个字符,7 位 2 进制数可以表示出 2 的 7 次方个字符,共 128 个字符。EBCDIC 码使用 8 位,可以表示出 2 的 8 次方个字符,256 个字符。

无论是 ASCII 码还是 EBCDIC 码,都无法对拥有几万个的汉字进行编码。因为上面已经提过,7 位 2 进制数最多对应上 128 个字符,8 位最多对应上 256 个字符。

英文字母编码方案直观编码

由 A 到 Z 依次可编码,如图所示。

直观编码 A~W

直观编码 XYZ

阵列编码

由 A 到 Z 依次可编码,如图所示。

二进编码

ψ(Ω)=111111111111111111111111111111111

ψ(A)=0000010010001001101010000101000001

ψ(B)=0100100010010001010010001001000101

ψ(C)=1010100001010000000010000001000111

ψ(D)=0100100010010000100010001001000101

ψ(E)=1010100000010000101010000001000011

ψ(F)=1010100000010000101010000001000000

ψ(G)=101000001010000001010000101000111

ψ(H)=0000100001010001101010000101000100

ψ(I)=0000000100000010000000010000100000

ψ(J)=0000000100000010000000010000001001

ψ(K)=000100100010000000101000010010000

ψ(L)=0000100000010000000010000001000001

ψ(M)=0001010101101010010010000101000001

ψ(N)=0001010010100100010010010101000101

ψ(O)=0100100100010010000010010001001011

ψ(P)=0100100100010010010010000001000000

ψ(Q)=0000010010001000100001010100101010

ψ(R)=0100100010010001010010001001000010

ψ(S)=0100100100010000001000010001001001

ψ(T)=0101000100000010000000010000001000

ψ(U)=0000100001010000010010000101000111

ψ(V)=0000100010100000010001000100100100

ψ(W)=0000100001010000010101011010100101

ψ(X)=0000010001001001000001001000100010

ψ(Y)=0000010001001001000000010000001000

ψ(z)=01010000010000010000001000001000

绝对码重相对码重

由 A 到 Z 依次可编码,如图所示

中文字母编码汉字编码史

汉字编码回溯到我国东汉时期,许慎首创部首编排法,将 9353 个汉字划分为 540 部,编出我国第一部系统分析汉字字形的字典《说文解字》。由于这种编排法揭示了汉字复杂的内部结构,因而流传至今。现在出版的有些字典只不过将部首略作删改,如《新华字典》改为 189 部,《现代汉语词典》改为 188 部。然而,部首编排法查字速度太慢,更谈不上见字识码。原商务印书馆长王云五创四角号码检字法,第一次解决了“见字识码”的问题。这种编码法现在仍是权威性的编码法之一,除了《四角号码新词典》采用以外,《现代汉语词典》在书前,新版《辞源》在书后均附有四角号码检字表。不过,这种编码的重码率太高,不能满足电子计算机的要求。

要知道,造成重码的原因是多方面的。就以“王”、“豆”两字的编码为例,它们的编码都是 1010,造成同码的原因为:(1)四角号码法只考虑了汉字四角的特点,而忽略了汉字的内部结构。然而,“王”与“豆”的根本区别正是在内部。(2)对这两字名义上是取四角,但所取的角中只有左上、左下两角生效。

树形编码

从以上对汉字编码史的回顾,我们得出如下结论:只有抓住汉字字形复杂的内部结构这一根本点,才可能得出先进的编码方案。“汉字树形结构中文字母编码法”(简称“树”法)正是在总结我国编码史的基础上提出来的。它以汉字结构文法及其语法树为理论基础,直接将三十六对中文字母(从数万汉字中提炼出,每对中文字母只对应一个数字或一个英文字母)作为汉字的编码,并共用现成的英文键盘。

象物质由分子组成一样,汉字由几个小块复合而成。这些构字小块简称块。块的形状多样,有矩形、三角形、凹多边形诸种。块内笔划之间相互关系错综复杂。那些笔划之间纵横相交或相连的块,如“丰”、“王”、“艺”……都是交连块。笔划分离的块如“甲”、“三”、“立,.··…等都是离散块。块内有块的那些块如“国”,“田”……是相套块。块与块彼此相嵌的块,如“臾”是相嵌块。上述这些块合称分块。

对数万汉字进行分解的结果,从中提炼出三十六对字符,作为中文字母。中文字母成对出现,每对字母对应一个数字或一个英文字母。换言之,每对中文字母对应于同一个 ASClI 码。中文字母分成两类,甲类为三十六个常用符号,乙类为三十六个大容量的偏旁部首,且为汉字,如“木,之”等。对《新华字典》71 年修订重排本“部容量”作了一个统计。该字典收字 8500 左右,将汉字分为 189 部,在中文字母中所出现的偏旁部首总容量为 7955 字,占整个字典总容量的 93.59%。这说明中文字母具有极强的构字能力。甲类符号又分为四区。

如果一汉字不是分块,那么对它进行树形结构的一级分解。设 LEAE(CW)={B1,B2,…BN},这里 N=2,3,4,5

1.1 若 N=2,对 B1、B2 分别进行二级分解,限分两块。转 3.

1.2 若 N>3,转 3。

2.如果一汉字是一分块,那么对它进行二级分解。

3.取每块为首的最大字母为其编码。

“树”法方法简明,不用记忆,识码高速。不管是哪一个国家的人,只要他能正确书写汉字,就能按书写分块的先后次序,对汉字进行树形结构的一级分解并进行编码,其速度不低于书写一个英文字的速度。

树”法平均码长短且重码率低。“树”法不局限于对汉字几个“角”的了解,它对汉字进行了层层剖析,将汉字分解为分块,又将分块继续分解为原子块,深刻地揭示了汉字复杂的内部结构。因而,收到了平均码长短且重码率低的效果。以一九八二年五月出版的《快速集中识字手册》的六千多汉字为例,重码率仅 0.3%,平均码长 2.5。

“树”法对高频汉字以及大容量部首都进行了巧妙安排。而且高频汉字的编码直接由“树”法规则决定,且编码长度短,不必另设简码表。前 20 个高频汉字的平均码长仅 1.75。

(0)
时间不会说谎  的头像时间不会说谎  

相关推荐

  • 天猫企业资质副本是真的吗

    天猫的经营对象必须是在中国范围内注册的企业,包括法定代表人和合伙企业,并持有相应的营业执照。同时,企业注册的品牌不得采用纯图片的形式,必须在中国注册相关文字商标,并持有国家商标局颁…

  • mp3格式化了还能用吗,如何恢复数据

    本文目录一览MP3格式化了还能用吗?如何恢复数据?如何防止MP3格式化?结论MP3格式化是一种将存储设备上的数据完全擦除的过程。在这个过程中,存储设备上的所有数据都将被删除,包括所有的音乐、照片、视频等文件。因此,如果您不小心将您的M

    2023年12月1日
  • 全国查房记录app(怎么查老婆的开的房记录)

    大多数人彼此旅行,有时和最好的朋友一起旅行,有时和家人一起旅行。但对于更多的年轻人来说,最好的旅行伙伴必须是他们自己的男/女朋友。毕竟,风、雪和雪的美丽景色必须与你最爱的人一起欣赏…

  • 百元耳机性价比之王2023,哪款值得购买?

    作为一个音乐爱好者,一款好的耳机是必不可少的。然而,市面上的耳机种类繁多,价格也是千差万别。对于一些预算有限的消费者来说,百元耳机是一个不错的选择。但是,面对如此多的百元耳机,哪一款才是真正的性价比之王呢?在本文中,我们将为您推荐几款百元耳

    2023年11月17日
  • 21天效应是什么

    在行为心理学中,人们把一个人的新习惯或新理念的形成并得以巩固至少需要21天的现象,称之为21天效应。也就是说,一个人的动作或想法,如果重复21天就会变成一个习惯性的动作或想法。 在…

  • 抖音怎么恢复聊天记录

    抖音聊天记录已经删除且未备份的话,是无法在本设备或者APP进行恢复的,因为这已经是永久性的删除,无法找回,在平时准备删除聊天记录时一定要慎重。只能联系抖音官方尝试沟通还原。 抖音上…

  • 担保交易是什么意思

    担保交易是指针对电子商务中,卖家与买家在交易过程中提供资金安全保障的交易模式,买卖双方通过第三方担保交易平台进行的交易活动,交易期间交易资金不是直接转账给对方,而是托管在第三方担保…

  • 微信右下角小红旗怎么弄?,快速教程

    微信小红旗是一种非常实用的功能,它可以让我们在聊天过程中快速记录一些重要的信息,比如需要回复的消息、需要关注的内容等等。但是,有些人可能不知道如何使用微信小红旗,今天我就来为大家介绍一下微信右下角小红旗怎么弄。一、什么是微信小红旗?微信

    2023年10月11日
  • 美能达3102代码,如何快速解读并排除故障

    美能达3102代码是汽车故障码的一种,它可以帮助我们快速诊断汽车故障并进行修复。本文将介绍美能达3102代码的含义和如何解读它,以及如何快速排除故障。一、美能达3102代码的含义美能达3102代码是一种OBD-II故障码,它表示氧气传感

    2023年11月12日
  • 苹果笔记本使用怎么样,值得购买吗?

    作为一名自媒体作者,我经常会被问到这样一个问题:苹果笔记本使用怎么样?是否值得购买?今天,我就来为大家详细介绍一下苹果笔记本的使用情况,以及是否值得购买的问题。一、苹果笔记本的使用情况苹果笔记本是苹果公司推出的一款笔记本电脑,它采用了苹

    2023年10月18日
  • 银行卡开通后不用会怎么样

    银行卡开通后,如果是一类卡,那么不会有任何影响,也不会产生任何的费用。而如果是二类卡,开通后卡片将收取年费、小额账户管理费,用户不使用卡片,卡片内就没有余额,余额不足以支付以上费用…

  • 华为诺亚方舟ai实验室待遇,有多少福利和优惠待遇?

    华为诺亚方舟ai实验室是华为公司旗下的一个重要部门,主要负责人工智能领域的研究和开发工作。作为一家全球知名的科技公司,华为在员工福利和优惠方面一直以来都非常慷慨,那么华为诺亚方舟ai实验室待遇又是怎样的呢?下面我们就来一探究竟。1.薪资待

    2023年11月13日
  • 夏普2048S纸盘搓不上纸,如何解决打印机卡纸问题

    作为一名办公室工作者,打印机是我们日常工作中必不可少的工具。然而,当我们需要打印大量文件时,打印机卡纸的问题就会频繁出现。尤其是在使用夏普2048S打印机时,很多人会遇到纸盘搓不上纸的问题。这个问题不仅浪费时间,还会影响工作效率。那么,如何

    2023年11月13日
  • 索尼爱立信手机历史机型,哪些经典机型你还记得?

    本文目录一览索尼爱立信手机历史机型(哪些经典机型你还记得?)索尼爱立信手机历史机型(哪些经典机型你还记得?)作为一家历史悠久的手机品牌,索尼爱立信曾经推出过许多经典机型,这些机型不仅在当时备受追捧,如今依然有着许多忠实粉丝。本文将为大家回

    2023年10月26日
  • 老式九阳豆浆机使用方法,如何正确操作,让豆浆更加美味

    作为一款老式的豆浆机,九阳豆浆机在市场上已经有很长一段时间了,但是其使用方法并不是那么简单。正确的使用方法可以让豆浆更加美味,而错误的使用方法则可能导致豆浆口感不佳。在本文中,我们将为您介绍老式九阳豆浆机的使用方法,让您能够轻松制作出美味可

    2023年10月15日

发表回复

登录后才能评论