中文信息处理
中文资讯处理是指用电脑对中文的音、形、义等资讯进行处理和加工。中文资讯处理是自然语言资讯处理的一个分支,是一门与电脑科学、语言学、数学、资讯学、声学等多种学科相关联的综合性学科。资讯处理技术在现代有广泛的应用,从1980年代开始,中文资讯处理进入了快速发展阶段,并极大地提高了中文社会的资讯处理效率。
中文资讯处理分为汉字资讯处理与汉语资讯处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。
基于历史、国家疆域、政治等各种问题,中文资讯处理系统所需要处理的文字,有时不仅包括汉文(繁简体汉字),也包括藏文、蒙文、壮文、维吾尔文等大量中国少数民族的文字,周边国家的日语假名、谚文,还包括古汉语文字、西夏文、契丹文等各种不同的文字。
中文资讯处理可以从硬件及软件两方面去看,以下详述中文资讯处理的发展历史、现况及未来发展等多方面的面貌。
范畴
[编辑]- 基础研究:汉字字符集及编码、汉字字频统计、词频统计、汉语自动分词、句法属性研究、、通用汉字样本库、汉字属性字典、语料库等
- 输入技术:中文输入法、中文手写输入、中文语音输入、光学字符识别等。
- 输出技术:汉字字模技术(字体库)、汉字雷射照排、汉语语音合成、动态组字等。
- 外字处理:动态组字、造字、电子书等。
- 存储技术:汉字库标准中文、字符编码等。
- 转换技术:繁简转换等
- 资讯处理:中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等
- 中文化:软件的国际化和本土化。
- 中文编程:目前有两种发展,一种是英文coding直接翻译,以降低开发人员的语言学习成本;一种是根据中文特点,发展出融合中国人思维模式的新的电脑语言。
相关学科
[编辑]语言文字学、电脑科学、模式识别、人工智慧、心理学、数学、数理统计、控制论、神经计算、模型论、资讯学、形式化理论、声学等
发展历史
[编辑]电脑在1946年发明,当时的电脑主要用于计算。及至1960年代,商用电脑开始普及,电脑被用于处理大规模的数据,当中其一个重要项目是图书馆的目录整理。在当时,美国国会图书馆及多家大学都有不少来自东亚的藏书。为了有效管理这批藏书,必须要有一套有效处理东亚文字的系统。这套系统包括了两方面:其一是如何把东亚文字存储在电脑内;其二是如何在电脑表示出东亚文字。
1959年,麻省理工学院电机工程系教授Samuel Hawks Caldwell在军方财政支持下,发明第一部处理中文电脑,称为SinoType(常州华文印刷新技术)。Caldwell在哈佛大学汉学教授杨联陞帮助下,研究汉字结构,发明按笔划分拆,以二十二键键盘,用笔划输入中文。SinoType操作接近中文打字机,操作员在键盘输入笔划,电脑按输入编成内码,以光学矩阵显示。操作员确认输入后按"影"键,即行打印。按当时的实验,操作员受八小时训练后,中文字输入速度为每四秒一字。SinoType的发明及设计,记载于1959年6月电脑学报Journal of Franklin Institute。一年后Samuel Caldwell过世,SinoType未被重用,然而其技术却成为日后中文处理基础。[1][2]
在过去,每一台电脑都有各自的数据表达方式,使电脑之间不能沟通。到1960年代美国资讯交换标准码(ASCII)的出现,电脑之间才可以互相沟通。不过,ASCII并不能有效处理英文以外的文字。而当时美国的图书馆开始电脑化,一批中文书有待编入目录。
最早商用可以处理中文的电脑,可以追溯到1970年。在当年举办的日本大阪万国博览会上,IBM公司公开了部分汉字处理系统的技术资料,到了1971年正式发表。当时公布的机种包括有“IBM 2345 汉字印刷机”、“IBM 029 汉字穿孔机”、“IBM System/360-System/370 OS/VS”及“DOS/VSE”等。其后,日本本土公司也争相开发,包括有富士通的JEF(Japanese processing Extended Facility)、NEC的JIPS(Japanese Information Processing System)及日立的KEIS(Kanji processing Extended Information System)等,全是大型机。到了1979年5月,NEC发表了可使用汉字ROM的私人电脑PC-8000系列;到了1982年10月,更开发出有名的16位的PC-9801私人电脑,能处理汉字的电脑在日本渐渐普及。在1970年代末期,更出现一种专门用作编辑文件的文字处理器,可看成为一种拥有特定功能的小型电脑,1980年代中后期再演化成手提方式,并可打印出汉字。至于输入方式,由1978年9月26日东芝发售“JW-10”起,“假名汉字变换”成为主流的汉字输入法;即以日文拼音的方式,配合人工智慧,输入汉字词汇。在还没有真正的中文电脑前,中国大陆部分学者依靠入口日本的电脑来处理中文。
1973年,中国新华社派出考察团到日本,参观了日本共同社、日立、日本电气、松下及东芝等公司。他们看到共同社采用磁芯技术解决了2000左右汉字和片假名的存储问题,并发现工作人员使用大键盘方式输入稿件。他们回国后,提出了采用电脑技术改善新华社收发编印四方面,并由中国四机部(民用机械、核工业和核武器、航空及电子工业)与北京市科技局邀请了富士通等公司到中国进行技术座谈会。后来,四机部提出研制汉字资讯处理系统。在1974年8月,中国开始了748工程,包括了用电脑来处理中文字,展开了各种研究工作,后来到1980年公布了GB 2312-80汉字编码的国家标准,1983年中国科学院研究Unix中文化,1985年推出了Unix中文版。
台湾方面,早期美国空军研究部门曾经与IBM公司合作研发中文电脑,而多家公司也开发了终端式的中文系统,包括有王安、工技院(中华一号到中华三号)及神通等。这些机器多数采用大键盘的输入方式,有数十至数百个键。到了1976年,中文电脑之父朱邦复发明了一套形意检字法,并在1978年改进为仓颉输入法,以英文键盘输入中文。在1979年,朱邦复提出以图形功能及从显示器的英文字符产生器入手,研发中文电脑,并由宏碁公司出产。之后,在原有英文操作系统上外挂中文系统的方法大行其道,多套中文软件相继推出,包括有国乔、倚天及仲鼎等。
中文资讯处理在20世纪经历了两次高潮:1990年前后,核心内容是汉字的电脑处理问题;经过几年的发展低潮之后,2000年之前,中文资讯处理的重点转向语音识别、语音合成和语义处理方面。
被打字机忽视的时代
[编辑]在20世纪上半叶,英文打字机的普及极大的提高了文字资料的录入速度。但由于打字机设计之初,并没有考虑到非字母输入(比如中文等其他文字)的需要,再加上当时中国的积弱,打印机在中国并没有普及。但仍然在当时出现了中文打字机,不过这些打印机大都需要配备数千个铅字组成的大字盘,机器成本昂贵和操作相比活字印刷并没有优势。汉字的输入难题,还体现在活字印刷术的应用历史中。虽然早在北宋就已经发明泥活字,随后在元朝、明朝又发明了木活字、铜活字,但一直到晚清西方技术传入,中国的印刷仍然以雕版为主。这最主要的难题就是在大量使用生僻字、异体字的时代,汉字的印刷活字起码需要应付上万个不同字符。而西方字母文字仅需要几十个不同字符就足够用了。
稳健的基础:电脑时代
[编辑]20世纪中叶,电脑开始出现,并进入中文地区,由于和打字机同样的理由,设计当初并没有考虑到中文等非英语文字的处理问题,使得电脑在最初的使用里,中文处理成了一个很大的问题,甚至于有人重拾汉字拉丁化问题。中文处理的大量基础也都是在这一阶段完成的,甚至出现了足以媲美英语的中文处理系统。
汉字资讯处理阶段
[编辑]- 硬件
- 软件
- 输入法
- 企业
- 标准、基础研究
- 中文资讯处理界基本上完成了词频统计、多种字体显示/打印字库、汉字显示/打印技术、输入法、内码标准、字符集标准等与字相关的所有基础工作。倪光南院士说,到2000年,中国已制定了70个与中文资讯处理相关的国家标准。
学术理论
[编辑]1990年代中期,最为普及的电脑操作系统由DOS升级到Windows平台。微软公司从繁体中文版的Windows 3.0及简体中文版的Windows 3.2开始,在操作系统里集成了汉字处理技术,使传统中文资讯处理产品迅速失去了市场。中文资讯处理进入一个低谷,原先做中文资讯处理的公司纷纷转行。Windows 2000及以上版本,无论采用何种文字,均已支持中文处理。
快速追赶:PC时代
[编辑]随着PC(个人电脑)在20世纪末21世纪初在中文地区的普及,中文资讯处理出现了巨大的发展。
- 中文输入方面,出现了音码和形码两种类型的大量输入法,适合中文快速输入的词/句智慧输入法也获得快速发展。象形输入法也获得初步发展,但识别率较低。
- 中文资讯量方面,在21世纪最初十年,中文已经发展成为资讯量全球第二的载体。
- 中文编码方面,获得巨大发展,参看下文
- 中文显示方面,紧随显示器的发展,出现了比较适合电脑浏览的黑体等字体,中文书法字体也大量电子化。
- 中文检索方面,分词技术发展,中文资讯检索的方便性已经能够满足日常大部分需求。
- 中文阅读方面,发展较慢,仍然处于人工阅读阶段。
超越:触控时代
[编辑]- 中文输入方面:
自2006年开始,随着微软的Surface平板电脑的问世,人机交互方式发生了巨大的变革。一种接近人类日常沟通模式的人机交互模式已经大量应用于最新的科技产品之中。新的汉字构造分解技术,中文智慧输入的已有积累,中文字体的表现力,中文手写的安全性等方面都远远超越了英文,中文输入的方便开始出现明显超越的趋势。第二代象形输入法也开始在新产品中应用,其输入效率通过基本的适应期之后,已经可以超越了原有的所有输入法。
汉语资讯处理阶段
[编辑]与此同时,为方便使中国各民族电脑化的步伐加快,政府作出一连串行动去使这些民族的语言更便于“电脑化”。这一连串行动包括以下各项:
- 取消民族语言中的特殊字符,尽可能以26个标准拉丁字母代替。(参看:壮语)
- 为还未有文字的民族设立以拉丁字母为本的新文字。
- 台湾方面,在1990年代曾引发“中文电脑化”及“电脑中文化”的争议。
- 资策会方面的意见:认为受限于电脑的软硬件大都由国外开发设计,故电脑中文化所需时日较多,应可设置为长期目标,但短期可先让中文适应电脑环境,中文可以快速适应时代的活动能力,充分发挥中文在资讯科技的应用。
- 学界及业界的意见:随着电脑发展日新月异,操作空间的限制很快就变得没有意义。政府应该在新时代来临以前,及早制定长远的标准。
- 结果:台湾资策会于1989年8月与中国大陆共同参与ISO 10646中文编码协调会,并提出HCS方案,同年10月参加ISO/IEC JTCI1/SC2/WG Ad-hoc会议。至于,资策会还继续参与ISO 10646中文编码标准会议,例如:CJK/JPG中日韩联合工作组第1-5次会议,ISO/IEC JTCI1/SC2/WG2/IRG会议等多次会议,成功的将CNS11643所有的字符集纳入于ISO10646国际标准之中。
电脑对汉字的亲和性增加,而Unicode在统汉码之后,亦不断推出扩展A至G计划,以涵盖历史上所有曾经出现过及使用过的汉字,并为它们编码记录。现时已整理好接近十万个汉字。
中文电脑系统
[编辑]运行在DOS上的中文系统
[编辑]下列都是1980年代出产的软件,随着Windows通行都逐一没落了。
- 天汇汉字系统TW213
- 希望汉字系统UCDOS
- 零壹中文系统
- 国乔中文系统
- 倚天中文系统,它还有Windows版本,最后一个版本是倚天2000 for Windows。
- 震汉中文系统,因与倚天高度相似而曾被倚天控告。
- 大千中文系统
对中文电脑有贡献的人
[编辑]- Samuel Hawks Caldwell: 麻省理工电机工程教授,1959年成功研制首部中文打字电脑及首套中文输入法。 [3]
- 王安
- 朱邦复
- 张仲陶
- 王永民
- 倪光南
- 何宜慈
- 支秉彝
- 安子介
- 周忠继
- 黄金富
- 龚仁文
- 高天助
- 许其清
参考书籍
[编辑]- 中文电脑经脉通:一本较全面介绍中文电脑的书籍
- 资讯梦工场:有台湾中文电脑起源的简介(页面存档备份,存于互联网档案馆)
专业期刊
[编辑]参考文献
[编辑]- ^ 存档副本. [2016-09-15]. (原始内容存档于2016-09-15).
- ^ 存档副本. [2016-09-15]. (原始内容存档于2016-09-19).
- ^ Caldwell, Samuel H. The sinotype—a machine for the composition of Chinese from a keyboard. Journal of the Franklin Institute. 1 June 1959, 267 (6): 471–502. doi:10.1016/0016-0032(59)90069-9.
外部链接
[编辑]- 中文输入法世界(页面存档备份,存于互联网档案馆)
- 中文资讯处理(自动校勘系统) (页面存档备份,存于互联网档案馆)
- 南史(自动校勘软件)(页面存档备份,存于互联网档案馆)