识别双字节字符集字符数据的语言的方法和系统技术方案

技术编号:2845198 阅读:177 留言:0更新日期:2012-04-11 18:40
一种在计算机系统中识别可能是包括韩语和其它多种东方语言的候选语言之一的DBCS字符数据的语言的方法和系统。该方法包括:分别对于每一种候选语言确定一个特征值集合,其中所确定的特征值在其它候选语言相应的本地字符集中没有定义或通常不用;读取待识别的DBCS字符数据并累计双字节的总计数;将DBCS字符数据与每种候选语言的特征值集合进行比较,并且每当DBCS字符数据和所述候选语言之一的特征值集合中的特征值之一匹配时,对相应候选语言累计计数;如果相应于韩语的计数大于或等于总计数的10%,则将待识别的DBCS字符数据识别为韩语,否则,将待识别的DBCS字符数据识别为所述其它多种东方语言中其计数最大的语言。

【技术实现步骤摘要】

本专利技术一般地涉及信息处理,尤其是涉及一种识别双字节字符集(DoubleByte Character Set,DBCS)字符数据为何种东方语言的方法和系统。
技术介绍
随着计算机网络和通信技术的发展,人们对互联网以及相关电子服务的使用越来越普遍,并且通过这些服务在不同地方持不同自然语言的人们之间的信息传输也越来越频繁。然而,不同地方的不同语言的用户在计算机系统中使用不同国家(或地区)规定的用于计算机信息交换的不同的字符集,例如ASCII字符集、DBCS字符集、Unicode字符集等。就地处东方的亚洲来说,普遍使用的是DBCS的本地字符集,其中包括例如,中国国家标准GB2312-80、GBK、GB18030-2000;由台湾财团法人信息工业策进会和五家软件公司创立的BIG5;日语的S_JIS;和韩语的KSC等等。因而,导致现有技术中存在着与此相关的诸多技术问题,其中例如,在进行诸如有赖于特定自然语言的特性的选择、显示、打印的操作之前,必须确定待操作的文件所使用的语言。又例如,当用户浏览环球网时,用户一般都希望以其所持本地语言输入进行搜索的字符串,并且希望搜索引擎或网页只搜索或显示出为其本地语言的结果。而此时如果网页或搜索引擎不能够支持对输入本地语言的识别,则其仅能将输入字符串当作英文来进行搜索,其结果通常是没有匹配项,因此不能正确地执行搜索。还有一些网页可以允许用户手工地指定浏览和搜索所期望的语言。另外,某些自然语言处理工具,例如拼写检查器、语法检查器等也需要在操作之前得知待检查文字段所用的语言以正确地运行。已出现了一些解决相关技术问题的可行方法和技术,例如Mozilla和Microsoft的方法,它们都是基于对特定语言的码点在文本中出现的频度的统计来检测其所属本地字符集的,这些方法实现起来比较繁锁,而且结果的准确性也不够理想。并且这些方法都是基于用于西方语言的字典。另外,相关的专利文献例如有美国专利号US6157905(名称为“IDENTIFYING LANGUAGEAND CHARACTER SET OF DATA REPRESENTING TEXT”)、US6704698(名称为“WORDCOUNTING NATURAL LANGUAGE DETERMINATION”)和US6539118(名称为“SYSTEMAND METHOD FOR EVALUATING CHARACTER SETS OF A MESSAGE CONTAINING APLURALITY OF CHARACTER SETS”)。其中US6157905是利用对广泛的数据建立一个字符出现频度统计模型,通过一个“训练阶段(training phase)”来积累数据,作为其后的辨别的依据。在判别的过程中,利用它自己建立的统计数据和新来数据产生的结果进行匹配的检查。但是该专利技术利用统计数据进行猜测判断,其单纯的频度统计里面会混入一些无用的数据(例如在各种语言中都常用的编码点),并对结果的准确性造成干扰。并且该专利技术的方法并未针对某些特定的字符集,整个方法比较繁琐复杂。US6704698主要是检测数据表述的是哪一种自然语言,并不涉及对属于哪个字符集进行判别。并且其是根据各种欧洲语言的常用词来进行判断,也没有包含中日韩等亚洲国家的语言。US6539118的目的是检查已知是使用Unicode或者其它的通用格式(universal format)的文字数据,并且判断其表述的是何种自然语言,进而使用哪一种本地字符集可以表示该段数据所包含的文字。但该专利技术并不涉及判断双字节字符集的未知编码格式的文字数据是使用哪种本地字符集以及编码。总之,现有技术中缺少和需要一种针对可能包含某种东方语言的DBCS字符数据来高效和准确地进行识别的方法和系统。
技术实现思路
鉴于上述问题,做出了本专利技术。本专利技术的一个目的是提供一种能够识别DBCS字符数据的语言的简单且准确度高的方法和系统。本专利技术的另一个目的是提供一种能够识别DBCS字符数据的语言并且进而能够分辨其所属本地字符集的方法。本申请的专利技术人利用了各种东方语言自身、尤其是在计算机中输入和存储格式方面的唯一的区别性特征做出了本专利技术。也就是说,在DBCS的本地字符集中,各种语言都分别具有一些独特的特征值,这些特征值在别种语言的本地字符集中或者没有定义或者是通常不用。比如说,当一段字符数据中包含有对中文简体所独特的特征值时,则其有很小的可能性会是日语或其它的什么语言,因为该特征值在日语或其它的语言中会根本没有定义或基本上不用。这是本专利技术用以识别DBCS字符数据的语言的重要思想。根据本专利技术的一个方面,提供了一种用于在计算机中识别可能是包括韩语和其它多种东方语言的候选语言之一的DBCS字符数据的语言的方法,包括下列步骤a.分别对于每一种候选语言确定一个特征值集合,其中所确定的特征值在其它候选语言相应的本地字符集中没有定义或通常不用;b.读取待识别的DBCS字符数据并累计双字节的总计数;c.将DBCS字符数据与每种候选语言的特征值集合进行比较,并且每当DBCS字符数据和所述候选语言之一的特征值集合中的特征值之一匹配时,对相应候选语言累计计数;d.如果相应于韩语的计数大于总计数的10%,则将待识别的DBCS字符数据识别为韩语,否则,将待识别的DBCS字符数据识别为所述其它多种东方语言中其计数最大的语言。根据本专利技术的另一方面,还提供了一种用于在计算机中识别可能是包括韩语和其它多种东方语言的候选语言之一的DBCS字符数据的语言的系统,包括存储单元,用于存储分别对于每一种候选语言所确定的特征值集合,其中所确定的特征值在其它候选语言相应的本地字符集中没有定义或通常不用;读取单元,用于读取待识别的DBCS字符数据;总计数单元,用于累计所读取的DBCS字符数据的双字节的总计数;比较单元,用于将所读取的DBCS字符数据与每种候选语言的特征值集合进行比较并输出比较结果;多个累加器,其分别相应于每种候选语言,当所输出的比较结果表明所述DBCS字符数据和所述候选语言之一的特征值集合中的特征值之一匹配时,该多个累加器中相应于该候选语言的累加器将其计数累加1;语言识别单元,用于根据所述总计数单元的总计数和所述分别相应于每种候选语言的多个累加器的相应计数来识别所述DBCS字符数据的语言,其中如果相应于韩语的计数大于总计数的10%,则将待识别的DBCS字符数据识别为韩语,否则,将待识别的DBCS字符数据识别为所述其它多种东方语言中其计数最大的语言。由此,根据本专利技术的方法和系统,可以简单高效地区别出不带有标识所采用语言和所属字符集的附加字符集信息或字体信息的DBCS本地字符数据的语言。并且与现有技术中已有的方法相比,本专利技术的方法实现起来更简单,提供了较高的准确度,并且所需的步骤少,占用的资源也小。本专利技术的其它方面和/或优点将部分地在随后的说明中得以阐明,并且部分地,将是从说明中能够明显看出的,或从本专利技术的实践中学习得到。附图说明从下面结合附图对实施例的说明中,本专利技术的这些和/或其它方面和优点将是显而易见的并且非常容易理解,在附图中图1是图示了根据本专利技术实施例的用于识别DBCS字符数据的语言的系统的结构的方框图;图2是根据本专利技术实施例的用于识别DBCS字本文档来自技高网
...

【技术保护点】
一种用于在计算机系统中识别可能是包括韩语和其它多种东方语言的候选语言之一的双字节字符集字符数据的语言的方法,包括下列步骤:    a.分别对于每一种候选语言确定一个特征值集合,其中所确定的特征值在其它候选语言相应的本地字符集中没有定义或通常不用;    b.读取待识别的双字节字符集字符数据并累计双字节的总计数;    c.将双字节字符集字符数据与每种候选语言的特征值集合进行比较,并且每当双字节字符集字符数据和所述候选语言之一的特征值集合中的特征值之一匹配时,对相应候选语言累计计数;    d.如果相应于韩语的计数大于或等于总计数的10%,则将待识别的双字节字符集字符数据识别为韩语,否则,将待识别的双字节字符集字符数据识别为所述其它多种东方语言中其计数最大的语言。

【技术特征摘要】
1.一种用于在计算机系统中识别可能是包括韩语和其它多种东方语言的候选语言之一的双字节字符集字符数据的语言的方法,包括下列步骤a.分别对于每一种候选语言确定一个特征值集合,其中所确定的特征值在其它候选语言相应的本地字符集中没有定义或通常不用;b.读取待识别的双字节字符集字符数据并累计双字节的总计数;c.将双字节字符集字符数据与每种候选语言的特征值集合进行比较,并且每当双字节字符集字符数据和所述候选语言之一的特征值集合中的特征值之一匹配时,对相应候选语言累计计数;d.如果相应于韩语的计数大于或等于总计数的10%,则将待识别的双字节字符集字符数据识别为韩语,否则,将待识别的双字节字符集字符数据识别为所述其它多种东方语言中其计数最大的语言。2.如权利要求1所述的方法,其中所述其它多种东方语言分别为中文简体、中文繁体和日语。3.如权利要求1或2所述的方法,其中所确定的韩语的特征值集合中的特征值包括单字节空格值0x20,并且当相对于待识别的双字节字符集字符数据和该单字节空格值相匹配时而累计的计数大于总计数的10%时,将所述待识别的双字节字符集字符数据识别为韩语。4.如权利要求3所述的方法,其中所确定的韩语的特征值集合中的特征值还包括下面单字节标点符号值感叹号0x21、逗号0x2c、句号0x2e、和问号0x3f,当所述步骤d的识别失败时,该方法还包括步骤e,用来判断相对于待识别的双字节字符集字符数据和所述单字节标点符号值相匹配时而累计的计数是否大于0,若是,则将所述待识别的双字节字符集字符数据识别为韩语。5.如权利要求2或4所述的方法,还包括在识别出双字节字符集字符数据为哪种语言后,通过检查是否所有双字节字符集字符数据都是由与该种语言相应的本地字符集中定义的字符组成来确定所属的本地字符集的步骤。6.如权利要求5所述的方法,其中与中文简体相应的本地字符集为GBK,与中文繁体相应的本地字符集为BIG5,与日语相...

【专利技术属性】
技术研发人员:赵香美郭宇
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1