标准查询网-电话:010-62993931

我国汉字编码标准的发展过程

点击数: 【字体: 收藏 打印文章 查看评论
 


  近十年来,随着信息技术的不断普及,计算机的广泛应用,互联网进入社会生活的所有方面,汉字信息处理得到了空前的普及,在社会生活的各个方面汉字信息处理的效率决定着社会的运行效率。因此,能否处理某个汉字,对某个人或某件事来说,就变的十分重要,甚至决定着这个事能否办理,如朱镕基总理的“镕”长期以来很多信息系统无法处理。这在一定时期、一定范围内对社会生活造成了很大的不便,又如二代身份证的推广,很多人名地名无法处理,也对社会生活和推广工作形成诸多不便。

  这种种原因,都源自于我国编码汉字的字数不足,但是汉字不是可以随便编码的,他受各种技术因素的制约,而汉字编码本身也是一个渐进的发展过程,本文就是从我国汉字编码的历史发展叙述我国汉字编码标准的发展过程以及与国际标准的关系,和今后应注意的问题。

  本文的作用是为了使广大的用户,开发和制造中文信息技术产品的厂商更全面的了解我国汉字编码的发展过程,中文信息技术的发展已经有三十年的历史了,汉字编码作为其基础起到了奠基的作用,三十年的跨度,本文很难提供全面正确的信息,仅能起到窥一斑而见全豹的作用,不足之处在所难免。

  上世纪七十年代初,当时的四机部以联合设计的方式启动了我国的计算机产业,当时的100系列小型机(NOWA)和200系列中型机是我国的主流机型,系统编码建立在ASCⅡ码和ISO646的基础上,不能处理汉字,应用领域仅限于科学计算和数据统计。

  七十年代后期有些用户单位基于本身对汉字处理的需求开发了可以处理3000-5000汉字的应用系统,但这些系统都是独立的、单个的,各个系统之间的收字差别很大,无法互换、互连、互操作。没有统一的编码,而且受到国外某些公司的影响,认为计算机根本就不适宜处理汉字。

  但技术是发展的,在经过约2年左右的探索后,业内专家认为计算机处理汉字是可能的。如果计算机不能处理汉字,那么在今后的计算机时代,多种民族文化将处于混乱和荒漠时代,关键的问题是解决汉字编码和汉字输入。

  我国的汉字编码历经近三十年的发展,对我国国民经济及社会信息化和信息产业的发展都起到了奠基的作用,同时使我国汉字信息处理技术和标准技术多年来处于国际领先水平,我国汉字编码历经的各个阶段大致情况如下:

  一、 GB2312-80 汉字编码字符集 基本集

  鉴于编码是信息处理的基础这一共识,1978年当时的电子工业部和国家标准局,启动了汉字编码字符集即GB2312的制定工作,成立了由产业、用户、标准、语言文字各领域专家组成的起草组,在大量收集、分析、整理资料的情况下,经过查频以及根据当时计算机技术的现状和当时的应用情况,最终确定了对6763个汉字进行编码,同时也对常用的682个西文和字符进行了编码,并将当时计算机内存、外存、主频的具体现状以及当时社会对计算机的需求情况将6763个汉字,分为一级汉字3755个,二级汉字3008个。当时的计算机产品可以仅支持一级汉字3755个,也可一、二级全支持,两种情况都符合标准。

  在GB2312开始起草的前几个月,即1977年12月20日,当时的中国文字改革委员会根据国务院批示,发布了《第二次汉字简化方案》(草案)。而且简化的部件在公布的简化字表之外应类推简化,起草组专家们认为如果按此方案推行,对将来的计算机乃至信息化是一场灾难,因此众多专家纷纷上书国务院言明利害。中国汉字应相对稳定,不能在音义同一的情况下用两个字形来表示,这对今后的信息技术发展将带来灾难性的后果,成倍的增加信息化的成本,而且也没有实际意义,当然还有其他方面的反映,如袁晓园先生“讲道理,怎么能用刀来讲呢?”即指“道”简化为“ ”,故后来国务院废止了《第二次汉字简化方案》(草案)以及类推简化的原则。所以长期以来简化字的数量就维持在1964年3月7日发布的《简化字总表》的范围内。而这些字在已发布的汉字编码标准中全部收入。

  该标准于1980年发布,标准发布后各界反映十分强烈,认为GB2312是具有里程碑式意义的标准,挽救了中华文化,开创了计算机产业,为社会信息化奠定了基础。该标准获标准领域唯一的国家科技一等奖。随后为了标准的应用,于1985年又制定了15X16、24X24、32X32的汉字字型国家标准,这批标准的发布使我国计算机产业步入了快车道,中文信息处理的各种产品如雨后春笋似的不断涌现出来,社会信息化应用也得到了较大的发展。

  但是到九十年代初期,计算机技术有了较大的发展,处理能力有了很大的提高,社会应用已较为普及,6763个汉字已经无法满足社会信息化的需求。同时基于全球信息交换的需要,国际标准化组织于八十年代中后期启动了ISO/IEC 10646《通用多八位编码字符集》标准的制定工作,其主导思想是将世界各国的主要文字在一个统一的平面上编码,以便有利于国际间的互连、互通。而该标准工作量最大的部分是表意文字(指中日韩统一汉字)。由于汉字的国际标准对我国至关重要。因此,我国各有关部门,信息产业部、技术监督局、当时的国家语委都给予高度重视。以全国信息技术标准化技术委员会对外归口进行国际国内汉字大字符集的标准化工作。

  二、 GBK、GB18030、GB13000.1

  由于汉字编码和其他少数民族编码对我国的重要性,因此ISO/IEC 10646是我国至今为止投入巨大的人力、财力,历时时间最长参加的国际标准工作,同时多年来一直主导着汉字部分的技术工作,在工作过程中为了加大我国发言的分量,以及在国际场合获得更多的支持,我们建立了两岸四地(大陆、台湾、香港、澳门)的协调机制,重点团结了朝鲜、越南、蒙古、新加坡等国家,这些工作在国际标准化场合保证了我国更多的权益。

  经过各国专家的努力,ISO/IEC 10646.1《通用多八位编码字符集》于1993年发布,我国亦同时发布了GB13000.1《信息技术 通用多八位编码字符集》,但是由于该标准的体系结构与GB2312不同,而我国已在GB2312的基础上建立了相当规模的计算机产业和应用环境。为了平缓过渡,又可以解决信息系统用字不足的问题。1994年由当时的电子部科技司和技术监督局标准化司共同发文发布了GBK《汉字内码扩展规范》的临时规范。以解决当时我国社会用字不足的矛盾,GBK收录了GB13000.1和ISO/IEC 10646.1的全部CJK统一汉字共20902个,结构上考虑到既能处理20902个汉字解决我国社会用字不满足的问题,又与GB2312兼容,以保证与已有系统之间的互连、互通、互操作,同时可与国际标准建立映射关系。

  GBK发布后,首先不允许当时Windows3.1及之后的3.X系列操作系统产品进入中国,同时由当时的电子部计算机司和技术监督局标准化司与微软会谈要求其正在开发的Win95必须支持GBK,具体事宜由全国信息技术标准化技术委员会负责,而且在Win95中采用的汉字输入法和汉字库必须在全国信息技术标准化技术委员会推荐的范围内选择,当时电子部曲维枝副部长和技术监督局李瑞副局长主抓此项工作。而且在Win95正式进入我国市场前必须通过我部设在中国电子技术标准化研究所的“中文信息处理产品标准符合性检测中心”测试合格才能在中国发布、销售。由于微软迫切希望Win95能如期在我国发布,因此双方一直有较好的配合,而对于我国的广大用户和产业由于Win95支持GBK,能处理20902个汉字,使我国社会用字不满足的矛盾和产业升级有了较大的提高。

  当时认为这种过渡仅需3-5年即可,所以以临时规范的形式发布了GBK,并不是正式标准,但在后来的实践中,以及其他国家和地区的具体状况,如台湾,虽然也花了很大的代价参与国际标准化的工作,但至今仍在使用“大五码”。因此在不断的工作中,我们发现这种过渡是一个长期的过程,特别是诸如各大应用系统,如:银行、统计、税务、民航、财政、户籍、工商等等这些应用领域,虽然在其前台和终端位置已经都可以支持大字符集,但其后台系统采用的中、大型计算机的软、硬件升级代价太大。

  由于GBK是个临时规范,在市场上的执行力度太弱,法律地位不明确,经过专家充分论证,认为在过渡期较长的情况下应该尽快制定具有明确法律地位的强制性国家标准,以适应我国进入WTO后的市场经济地位,维护我国的合法权益,因此信息产业部和国家技术监督局于1999年启动了GB18030的制定工作,由于GB18030的重要性,该标准发布时采用了政府发言人召开新闻发布会的形式发布,信息产业部娄勤俭副部长、原技术监督局李忠海副局长出席了新闻发布会,这种发布标准的方式在我国是首次,同时该标准发布日期和实施日期均为2000年3月17日,没有一天过渡期,也开创了我国标准发布的先例,可见主管部门对这一标准的重视程度。

  GB18030-2000将GBK的20902个汉字又进一步扩充到27484个汉字,而这27484个汉字是当时已进入ISO/IEC10646的2003年版的基本多文种平面的全部汉字字汇,因此GB18030与ISO/IEC 10646在字汇一级是一致的。

  该标准的发布在当时曾引起了美国有关机构的强烈关注,有些类似于WAPI的情况,主要是标准发布日期为2000年3月17日,而Win2000发布日期为2000年3月20日,而标准又没有一天过渡期,因此给了微软较大的压力所致。

  三、 GB18030-2005

  虽然自GB18030-2000发布后对产业和应用的压力有了很大的缓解,但由于整个社会的运作,已经进入了信息平台运作的时代,社会高度信息化的现状,决定了信息系统必须满足普遍和个性的全部需求,特别是有些应用领域如:户籍管理、银行实名制、数字图书馆、地理信息、二代身份证等应用系统,对处理的汉字的数量有更高的要求,如果不能满足将造成效率低下和社会矛盾频出的现象。

  因此,我们不断加大参与国际标准的力度,在参与国际标准的过程中充分考虑了我国各部门的分工情况,不断征求原国家语委(现教育部语信司)、新闻出版署的意见,同时在组团时均把他们作为中国代表团成员参加国际会议,在我国专家和历次中国代表团的艰苦工作中,我们最大限度的扩大和维护了我国利益,将ISO/IEC 10646扩充到70195(基本平面和表意文字辅助平面),在大力推进国际标准化工作的同时开展了GB18030的修订工作,发布了GB18030-2005,GB18030-2005的字汇与国际标准一致。由于GB18030-2005的发布在很大程度上满足了对汉字字数提出较高要求的应用领域的需求。

  四、 GB18030-2005之后的工作

  虽然经过20多年的努力,以及在国际标准化组织中的博弈,将国际标准的汉字字汇和我国的GB18030扩充至70195个汉字,在很大程度上满足了大部分应用的需求,但由于我国久远的文化历史,在历史中有据可查,累计出现的汉字据不完全统计约有12万左右,而在当今信息化社会,已经不同于当初的铅字排版印刷,当时如果出现一个没有的字,只需要刻一个铅字即可,既没有新老系统升级,也没有信息互换问题。而在信息化时代如果出现信息系统中没有某一个字的情况,只能将与这个字有关的业务停止或放缓或另寻他途。因为解决起来实在是成本、周期都负担太重。

  鉴于此,考虑到我国的应用现状和汉字在我国国民经济、社会活动中的特殊性,不同于日本可用假名代替,韩国可用韩文代替,而我们别无他途,因此在ISO/IEC 10646体系内又启动了中日韩统一汉字扩充C的工作,目前这一工作已基本结束,进入了最后的投票阶段。

  为了全面的解决我国社会用字问题,在全面做好扩充C结尾工作的同时,根据我国的建议,国际标准化组织已经启动了中日韩统一汉字扩充D的工作。扩充D的汉字总量超过10000,其中我们提出的汉字约7000个。预计扩充D的工作仍需约2年时间。

  在全面开展扩充D工作的同时,我们也在评估,已经编码的汉字是否已经可以满足我国社会信息化用字的需求,如果还不能完全满足应用需求,是否应向国际标准化组织提出开展扩充E工作的提案,以便尽快启动前期准备工作(我们已在征求国内各方的意见)。因为虽然在表意文字工作中我国处于主导地位,但我们毕竟只有一票。而按照目前编码的原则,及国际信息交换的要求,只有进入国际标准的汉字,才能加到我国标准中去。

  五、 结束语

  综上所述,由于我国及时开展了GB2312的制定工作,为我国信息化应用和信息产业发展打了一个坚实的基础。在随后的国内外标准化工作中我国一直处于主导地位,使我国在中文信息技术领域一直处于国际领先水平。而在当今信息化高度普及的今天,任何信息系统的基本元素应稳定不变,因为一旦改变社会代价太大。这就是为什么计算机键盘(从英文打字机继承而来)历200年不变,ASCⅡ码历60多年不变,ISO646历50年不变的原因。对于汉字也是同理,因此,任何基本字符的改变都应首先考虑社会转化的代价和实现的可能。

  故,在今后一个较长的历史时期内,我国汉字都应该进入一个稳定时期,任何新造字都将为社会信息化的各个方面造成巨大的负担,同时也给相关用户造成极大的不便。

作者:佚名 来源:计算机行业标准化网 发布时间:2008年12月29日
相关信息
没有相关内容
用户信息中心
本月排行TOP10
  • 还没有任何项目!
联系我们  |  关于我们  |  友情链接  |  版权声明  |  管理登录
Copyright ©2010 - 2015 北京中标金质科技有限责任公司 电话:010-62993931 地址:北京市海淀区后屯南路26号专家国际公馆5-20室
备案编号:京公网安备11010802008867号 京ICP备09034504号 新出发京零字第海140366号