【技术实现步骤摘要】
本专利技术涉及汉语编码技术、汉字输入技术和汉字检索技术,尤其涉及一种新的汉语形码编码技术及其汉字输入法和汉字检索法。本专利技术属于汉语编码及其汉字输入和汉字检索
技术介绍
自从电子计算机问世以来,汉语编码技术一直深受到人们重视。这些年来,不少研究人员根据汉字的字形、发音等特性,从各个角度采用不同的方法对汉字进行了编码。目前已申请专利的编码方案超过千种,形成了万“码”奔腾的局面,同时也促进了汉语编码及其汉字输入法和汉字检索法朝着易学、易记、快速、好用的方向发展。现有的汉语编码方案可分为四类流水码类、纯音码类、纯形码类、音形结合码类。它们分别具有以下的特点1.流水码类,如电报码等,其特点是以流水方式编码。此类编码方案中,因为其专业性强,难于记忆,所以,对于非专业人员来说,不易掌握和直接应用它。2.纯音码类,如全拼、双拼等,其特点是直接用汉语拼音方案中的拼音字母进行编码。此类编码方案中,目前流行最广的是全拼汉字输入法和全拼汉字检索法。此法具有如下优点(1)现代人从小学就开始就学习汉语拼音,且具有一定的普通话基础,不必花更多额外的精力,就能学会使用这种方法;(2)以词组输入效率较高;(3)编码直观,思维连贯;(4)与已有的中文知识和习惯兼容性好。但是,这种汉字输入法和汉字检索法还存在有如下难以克服的缺点(1)中国目前正在使用着的汉字超过15000余个,对于大多数人来说,他们对其中很多汉字不认识,这就给他们用拼音来输入这些汉字和检索这些汉字带来了困难;(2)中国方言多且复杂,普通话基础差的人也不在少数,这就给推广和应用全拼汉字输入法和全拼汉字检索法带来 ...
【技术保护点】
汉语杨码及其汉字输入法和汉字检索法,其特征在于:首先从一般汉字字典的传统部首中选取其中一部分部首作为本专利技术中构成汉字单字的标准部件,这些标准部件在本专利技术中被简称为字元;然后将所有的字元按其同名或者按其结构相似或相近进行分组:(1)简体汉字系统中的字元共分成50组,其中5组是单笔画字元组,它们分别是:“一、*”组、“丨、亅”组、“丿”组、“丶、*”组和“乙、*(*是代表除前面已经提到的汉字单笔画部首以外的其它所有的汉字单笔画部首,以下同)”组,另45组是多笔画字元(是指具有两笔画和两笔画以上的字元,以下同)组,它们分别是:“扌”组、“口”组、“人、八、亻”组、“氵”组、“*”组、“王”组、“酉”组、“石”组、“车”组、“止”组、“田”组、“山”组、“贝”组、“罒”组、“爫”组、“月”组、“鱼”组、“犭”组、“饣”组、“门”组、“立”组、“羊、”组、“米”组、“衤、礻”组、“马”组、“尸”组、“弓”组、“女”组、“纟”组、“耳”组、“土、士”组、“艹”组、“木”组、“日、曰”组、“目”组、“虫”组、“”组、“夕、夂”组、“钅”组、“舟”组、“”组、“广、疒”组、“忄”组、“火 ...
【技术特征摘要】
1.汉语杨码及其汉字输入法和汉字检索法,其特征在于首先从一般汉字字典的传统部首中选取其中一部分部首作为本发明中构成汉字单字的标准部件,这些标准部件在本发明中被简称为字元;然后将所有的字元按其同名或者按其结构相似或相近进行分组(1)简体汉字系统中的字元共分成50组,其中5组是单笔画字元组,它们分别是“一、 组、“丨、亅”组、“丿”组、“丶、”组和“乙、*(*是代表除前面已经提到的汉字单笔画部首以外的其它所有的汉字单笔画部首,以下同)”组,另45组是多笔画字元(是指具有两笔画和两笔画以上的字元,以下同)组,它们分别是“扌”组、“口”组、“人、八、亻”组、“氵”组、 组、“王”组、“酉”组、“石”组、“车”组、“止”组、“田”组、“山”组、“贝”组、“罒”组、“爫”组、“月”组、“鱼”组、“犭”组、“饣”组、“门”组、“立”组、“羊、”组、“米”组、“衤、礻”组、“马”组、“尸”组、“弓”组、“女”组、“纟”组、“耳”组、“土、士”组、“艹”组、“木”组、“日、曰”组、“目”组、“虫”组、“”组、“夕、夂”组、“钅”组、“舟”组、“”组、“广、疒”组、“忄”组、“火”组和“宀”组;(2)繁体汉字(含异体汉字,以下同)系统中的字元共分成51组,其中5组是单笔画字元组,它们分别是“一、 组、“丨、亅”组、“丿”组、“丶、”组和“乙、*”组,另46组是多笔画字元组,它们分别是“扌”组、“口”组、“人、八、亻”组、“氵”组、 组、“王”组、“酉”组、“石”组、“車”组、“止”组、“田”组、“山”组、“貝”组、“罒”组、“爫”组、“月”组、“魚”组、“犭”组、“飠”组、“門”组、“言”组、“立”组、“羊、”组、“米”组、“衤、礻”组、“馬”组、“尸”组、“弓”组、“女”组、“糹”组、“耳”组、“土、士”组、“艹”组、“木”组、“日、曰”组、“目”组、“虫”组、“”组、“夕、夂”组、“金”组、“舟”组、“”组、“广、疒”组、“忄”组、“火”组和“宀”组;(3)简繁体汉字(含异体汉字,以下同)共存系统中的字元共分成51组,其中5组是单笔画字元组,它们分别是“一、 组、“丨、亅”组、“丿”组、“丶、”组和“乙、*”组,另46组是多笔画字元组,它们分别是“扌”组、“口”组、“人、八、亻”组、“氵”组、 组、“王”组、“酉”组、“石”组、“车、車”组、“止”组、“田”组、“山”组、“贝、貝”组、“罒”组、“爫”组、“月”组、“鱼、魚”组、“犭”组、“饣、飠”组、“门、門”组、“言”组、“立”组、“羊、”组、“米”组、“衤、礻”组、“马、馬”组、“尸”组、“弓”组、“女”组、“纟、糹”组、“耳”组、“土、士”组、“艹”组、“木”组、“日、曰”组、“目”组、“虫”组、“”组、“夕、夂”组、“钅、金”组、“舟”组、“”组、“广、疒”组、“忄”组、“火”组和“宀”组;并且,用9个不同的单字符分别按序给上述各汉字系统中的相同的5组单笔画字元组确“一、 组、“丨、亅”组、“丿”组、“丶、”组、“乙、*”组和相同的4组多笔画字元组“扌”组、“口”组、“人、八、亻”组、“氵”组中的每组字元按组赋予同一个单字符作为该组内每一个字元的同一代码,再用这9个不同的单字符进行排列组合后,取出其中42个不同的双字符串,先用这42个不同双字符串中的33个不同双字符串,分别给上述各个汉字系统中的另外33个相同的多笔画字元组 组、“王”组、“酉”组、“石”组、“止”组、“田”组、“山”组、“罒”组、“爫”组、“月”组、“犭”组、“立”组、“羊、”组、“米”组、“衤、礻”组、“尸”组、“弓”组、“女”组、“耳”组、“土、士”组、“艹”组、“木”组、“日、曰”组、“目”组、“虫”组、“”组、“夕、夂”组、“舟”组、“”组、“广、疒”组、“忄”组、“火”组和“宀”组中的每组字元按组赋予同一个双字符串作为该组内每一个字元的同一代码,再用这42个不同双字符串中的另外的8个不同的双字符串分别给上述简体汉字系统中的多笔画字元组“车”组、“贝”组、“鱼”组、“饣”、“门”组、“马”组、“纟”组、“钅”组中的每组字元按组赋予同一个双字符串作为该组内每一个字元的同一代码,同样,用这8个不同的双字符串分别给上述繁体汉字系统中的多笔画字元组“車”组、“貝”组、“魚”组、“飠”组、“門”组、“馬”组、“糹”组、“金”组中的每组字元按组赋予同一个双字符串作为该组内每一个字元的同一代码,也同样用这8个不同的双字符串分别给上述简繁体汉字共存系统中的多笔画字元组“车、車”组、“贝、貝”组、“鱼、魚”组、“饣、飠”、“门、門”组、“马、馬”组、“纟、糹”组、“钅、金”组中的每组字元按组赋予同一个双字符串作为该组内每一个字元的同一代码,之后,再用这42个不同双字符串中的最后一个双字符串分别给繁体汉字系统中的最后一个多笔画字元组“言”组和简繁体汉字共存系统中的最后一个多笔画字元组“言”组中的字元赋予这个双字符串作为该组内字元的同一代码;最后,再用各个字元的代码按照本发明中的编码和取码规则,分别给各个汉字系统中的汉字单字、词、词组、短语和语句进行编码和取码,所取得的码在本发明中被简称为汉语杨码;将汉语杨码输入到中文信息处理设备中,就能够达到利用汉语杨码输入中文信息的目的;将字典、词(辞)典或其它汉语信息中的条目依照汉语杨码序排列,就能够达到利用汉语杨码检索字典、词(辞)典或其它汉语信息中条目的目的;将非汉字字符或图形依照汉语杨码的形式分别赋予汉语杨码,就能够达到利用汉语杨码处理非汉字字符或图形信息的目的。2.如权利要求1所述的汉语杨码及其汉字输入法和汉字检索法,其特征在于用1、2、3、4、5、6、7、8、9这9个阿拉伯数字字符分别代替权利要求1中所述的9个不同的单字符,再分别按序给权利要求1中所述的各汉字系统中的相同的5组单笔画字元组“一 组、“丨、亅”组、“丿”组、“丶、”组、“乙、*”组和相同的4组多笔画字元组“扌”组、“口”组、“人、八、亻”组、“氵”组中的每组字元按组赋予同一个阿拉伯数字字符作为该组内每一个字元的同一代码,再用这9个不同的阿拉伯数字字符进行排列组合,取出其中双字符串14、16、17、18、22、26、27、29、34、36、38、46、47、48、49、56、57、58、66、67、68、69、76、77、78、79、86、88、89、96、97、98、99分别代替权利要求1中所述的42个不同的双字符串中的其中33个不同的双字符串,分别按序给权利要求1中所述的各汉字系统中的另外33个相同的多笔画字元组 组、“王”组、“酉”组、“石”组、“止”组、“田”组、“山”组、“罒”组、“爫”组、“月”组、“犭”组、“立”组、“羊、”组、“米”组、“衤、礻”组、“尸”组、“弓”组、“女”组、“耳”组、“土、士”组、“艹”组、“木”组、“日、曰”组、“目”组、“虫”组、“”组、“夕、夂”组、“舟”组、“”组、“广、疒”组、“忄”组、“火”组、“宀”组中的每组字元按组赋予同一个双字符串作为该组内每一个字元的同一代码,取出其中双字符串19、28、37、39、42、55、59、87代替权利要求1中所述的42个不同的双字符串中的另外8个不同的双字符串分别按序给权利要求1中所述的简体汉字系统中的“车”组、“贝”组、“鱼”组、“饣”组、“门”组、“马”组、“纟”组、“钅”组中的每组字元按组赋予一个双字符串作为该组内每一个字元的同一代码,同样用19、28、37、39、42、55、59、87这8个不同的双字符串分别按序给权利要求1中所述的繁体汉字系统中的多笔画字元组“車”组、“貝”组、“魚”组、“飠”组、“門”组、“馬”组、“糹”组、“金”组中的每组字元按组赋予同一个双字符串作为该组内每一个字元的同一代码,也同样用19、28、37、39、42、55、59、87这8个不同的双字符串分别按序给权利要求1中所述的简繁体汉字共存系统中的多笔画字元组“车、車”组、“贝、貝”组、“鱼、魚”组、“饣、飠”组、“门、門”组、“马、馬”组、“纟、糹”组、“钅、金”组中的每组字元按组赋予同一个双字符串作为该组内每一个字元的同一代码;除上述已取用的41个双字符串外,再取出其中最后一个双字符串45代替权利要求1中所述的42个不同的双字符串中最后一个双字符串,给繁体汉字系统中的最后一个多笔画字元组“言”组和简繁体汉字共存系统中的最后一个多笔画字元组“言”组中的字元分别赋予这个双字符串作为该组内字元的同一代码;最后,再用各个字元的代码按照本发明中的编码和取码规则,分别给各个汉字系统中的汉字单字、词、词组、短语和语句进行编码和取码,所取得的码在本发明中被简称为数字型汉语杨码;将数字型汉语杨码输入到中文信息处理设备中,就能够达到利用数字型汉语杨码输入中文信息的目的;将字典、词(辞)典或其它汉语信息中的条目依照数字型汉语杨码序排列,就能够达到利用数字型汉语杨码检索该字典、词(辞)典或其它汉语信息中条目的目的;将非汉字字符或图形依照数字型汉语杨码的形式分别赋予数字型汉语杨码,就能够达到利用数字型汉语杨码处理非汉字字符或图形信息的目的。3.如权利要求1所述的汉语杨码及其汉字输入法和汉字检索法,其特征在于用9个不同的英文字母单字符分别替代权利要求2中所述的9个不同的阿拉伯数字字符1、2、3、4、5、6、7、8、9,和用这9个不同的英文字母的单字符及其排列组合后取出其中42个不同的英文字母双字符串,分别替代权利要求2中所述的9个不同的阿拉伯数字单字符和42个不同的阿拉伯数字双字符串后,再按照权利要求2中所述的用9个不同的阿拉伯数字字符1、2、3、4、5、6、7、8、9及其排列组合后所取出的42个不同的阿拉伯数字双字符串来构成各汉字系统中的每一个字元代码的方法来构成各汉字系统中的每一个字元的字母型代码,然后,用此代码按照本发明中的编码和取码规则,分别给各汉字系统中的汉字单字、词、词组、短语和语句进行编码和取码,所取得的码在本发明中被称为字母型汉语杨码;将字母型汉语杨码输入到中文信息处理设备中,就能够达到利用字母型汉语杨码输入中文信息的目的;将字典、词(辞)典或其它汉语信息中的条目依照字母型汉语杨码序排列,就能够达到利用字母型汉语杨码检索该字典、词(辞)典或其它汉语信息中条目的目的;将非汉字字符或图形依照字母型杨码方式分别赋予字母型汉语杨码,就能够达到利用字母型汉语杨码处理非汉字字符或图形信息的目的。4.如权利要求1所述的汉语杨码及其汉字输入法和汉字检索法,其特征在于用9个不同的其它单字符(指除英文字母和阿拉伯数字以外的单字符,以下同)或由其它单字符与英文字母字符、网拉伯数字字符混合后所组成的9个不同的单字符,分别替代权利要求2中所述的9个不同的阿拉伯数字单字符1、2、3、4、5、6、7、8、9,和用这9个不同的单字符及其排列组合后所取出的其中42个不同的双字符串,分别替代权利要求2中所述的9个不同的阿拉伯数字单字符和42个不同的阿拉伯数字双字符串后,再按照权利要求2中所述的用9个不同的阿拉伯数字单字符1、2、3、4、5、6、7、8、9及其排列组合后所取出的42个不同的阿拉伯数字双字符串来构成各汉字系统中的每一个字元代码的方法来构成各汉字系统中的每一个字元的其它型代码;然后,用此代码按照本发明中的编码和取码规则,分别给各汉字系统中的汉字单字、词、词组、短语和语句进行编码和取码,所取得的码在本发明中被称为其它型汉语杨码;将其它型汉语杨码输入到中文信息处理设备中,就能够达到利用其它型汉语杨码输入中文信息的目的;将字典、词(辞)典或其它汉语信息中条目依照其它型汉语杨码序排列,就能够达到利用其它型汉语杨码检索该字典、词(辞)典或其它汉语信息中条目的目的;将非汉字字符或图形依照其它型汉语杨码方式分别赋予其它型汉语杨码,就能够达到利用其它型汉语杨码处理非汉字字符或图形信息的目的。5.如权利要求1、2、3和4所述的汉语杨码及其汉字输入法和汉字检索法,其特征在于汉语杨码编码和取码规则(1)单个汉字的杨码编码和取码规则①按照1997年4月7日国家语言文字工作委员会和国家新闻出版署联合发布的《现代汉语通用字笔顺规范》中规定的汉字笔顺和优先取大的规则,视单个汉字是由一个或多个字元(是指两个或两个以上的字元,以下同)构成;②按照汉字的笔顺和优先取大的规则,视拆该汉字,并且将构成该汉字的所有字元代码字符按照拆分时的先后顺序排列在一起,就构成了一个新字符串(含单个字符),这个新字符串(含单个字符)就是该汉字的编码;③当该汉字的编码字符不足5个时,取该汉字编码作为该汉字的杨码;④当该汉字的编码字符超过4个时,取出该汉字编码的前4个字符,这前4个字符按原顺序所构成的字符串即为该汉字的杨码;(2)两个汉字或两个汉字以上的词、词组、短语或语句的杨码编码和取码规则①先取出该词、词组、短语或语句的第一个汉字杨码中的全部字符,再分别依次取出其后各个汉字中的每一个汉字杨码中的第一个字符,然后将它们按取出时的先后顺序排列成一个新字符串,这个新字符串就是该词、词组、短语或语句的编码;②当组成该词、词组、短语或语句的汉字不足7个时,就取该词、词组、短语或语句的编码作为该词、词组、短语或语句的杨码;③当组成该词、词组、短语或语句的汉字超过6个时,就取出该词、词组、短语或语句前6个汉字的编码作为该词、词组、短语或语句的杨码。(3)非汉字字符和图形的编码和取码规则①当非汉字字符或图形是由本发明中所定义的字元构成时,那么,这个非汉字字符或图形的编码和取码规则均同上述的汉字单字、词、词组、短语、语句的编码和取码规则;②当非汉字字符或图形不是由本发明中所定义的字元构成时,其编码和取码规则均由用户自行定义,但是,用户在自行定义该非汉字字符或图形的编码和取码规则时,必须要使用户自行定义中的所有非汉字字符或图形的编码字符类型与同版本中的汉字编码字符类型保持一致。(4)容错码为了兼顾部分人的习惯,本发明容许部分汉字以下列“不规范”方式编码和取码,这样所取得的杨码可作为“容错码”存在。本发明支持下列容错①支持笔顺容错笔顺容错是指每个汉字除了按1997年4月7日国家语言文字工作委员会和国家新闻出版署联合发布的《现代汉语通用字笔顺规范》中所规定的标准笔顺外,其中部分汉字还具有另外一种或多种人们习惯上所采用的其它笔顺,本发明中称该笔顺为该汉字的异笔顺;本发明容许异笔顺存在的现象被称为笔顺容错;汉字以异笔顺编码后所取得的杨码,称之为笔顺容错码;本发明支持笔顺容错码的存在,即支持笔顺容错。②支持笔画笔形容错笔画笔形容错是指部分汉字中的部分笔画笔形易使人们误解,在本发明中容许这种误解存在的现象被称为笔画笔形容错;汉字以误解的笔画笔形编码后所取得的杨码,称之为笔画笔形容错码;本发明支持笔画笔形容错码的存在,即支持笔画笔形容错。③支持视拆容错视拆容错是指人们在视拆汉字过程中,常常将部分汉字的字元拆错;在本发明中容许这种拆错汉字字元存在的现象被称之为视拆容错;汉字以拆错的字元编码后所取得的杨码,称之为视拆容错码;本发明支持视拆容错码的存在,即支持视拆容错。④支持自定义容错自定义容错是指人们为了某种目的,有意识地将某些汉字的单字、词、词组、短语、语句或非汉字字符、图形,按其缩写形式或密码形式自行定义成一种杨码;以这种形式所取得的杨码,称之为自定义容错码;本发明支持自定义容错码的存在,即支持自定义容错。6.如权利要求1、2、3和4所述的汉语杨码及其汉字输入法和汉字检索法,其特征在于优先取大的规则,是指在构成同一个汉字的所有字元中,笔画多的字元视为大,视拆汉字时,该汉字中的笔画多的字元必须优先作为字元拆分出,即笔画多的字元应作为一个整体字元存在,不可再将其拆分成两个或两个以上的笔画比它还要少的字元来作为构成该汉字的字元。7.如权利要求1、2、3和4所述的汉语杨码及其汉字输入法和汉字检索法,其特征在于中文信息处理设备,是指除了在硬件上至少要配备有与其软件相适应的运算器、控制器、存贮器、输入设备或装置、输出设备或装置外,在软件上至少还要配备有与其硬件相适应的中文操作系统和杨码汉字输入法系统。8.如权利要求1、2、3和4所述的汉语杨码及其汉字输入法和汉字检索法,其特征在于汉字输入方法及其步骤。根据中文信息处理设备的不同,与其相对应的杨码汉字输入方法及其输入步骤也不同,现分述如下(1)键盘式杨码汉字输入法采用键盘,用手击键,逐一按序输入中文信息杨码及其选择码字符,以达到利用键盘输入中文信息的目的。按照所配备的杨码输入法系统软件分类,键盘式杨码汉字输入法分为以下三类①键盘式数字型杨码汉字输入法a采用此法的中文信息处理设备中,其输入设备或装置至少要配备有用于输入汉语杨码及其选择码字符的10个阿拉伯数字键和退格键、确定键,其输出设备或装置至少要配备有显示屏设备或装置,其系统软件中至少要配备有与其硬件相适应的中文操作系统和键盘式数字型杨码汉字输入系统。b用此法输入中文信息的步骤首先打开要输入中文信息的文本,并且在其上定位好要输入中文信息的位置后,再进入键盘式数字型杨码汉字输入系统,此时,屏幕上显示出杨码汉字输入法窗口开始状态时的界面;然后按照要输入的中文信息杨码字符的前后顺序,用手指逐一地敲击键盘上相对应的数字键,这时,显示屏上的杨码汉字输入法窗口界面内也随之逐屏显示出与敲击过的字符或字符串相对应的同杨码中文信息及其选择...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。