一种位形码辅以拼音码的全字符结构串式输入方法技术

技术编号:29097412 阅读:28 留言:0更新日期:2021-06-30 10:08
本发明专利技术涉及一种位形码辅以拼音码的全字符结构串式输入方法,属于全字符文字编码技术领域,适用于计算机及智能设备操作系统中文字和符号的输入。本发明专利技术对一般计算机内所含的20902个GB13000.1汉字以及扩展的6万多汉字以及各种其他中外文字符进行低重码编码,以超大规模词组/结构串(已收集入库5000多万词组或结构串)为支撑,对各领域文字资料实现高速输入,即利用位形码和拼音对汉字和非汉字进行编码,并与键盘上的字母对应,对文句进行结构串划分,根据结构串取码规则实现结构串输入进而完成文句输入。本发明专利技术具有较好的可达性、快速性、易学性和规范性。易学性和规范性。易学性和规范性。

【技术实现步骤摘要】
一种位形码辅以拼音码的全字符结构串式输入方法


[0001]本专利技术涉及一种位形码辅以拼音码的全字符结构串式输入方法,属于全字符 文字编码
,适用于计算机及智能设备操作系统中文字和符号的输入。

技术介绍

[0002]对于汉字的输入已出现了很多编码方案,其中主要的方案包括:全拼、双拼、 狂拼码,自然码、五笔字型、郑码、太极(二笔)码、五十字元、大易码等。它 们各具特点,但经过长时间实践应用,物竞天择,现在被人们使用的输入法已所 剩无几。目前,流行的输入法几乎只剩下基于拼音的各种输入法(音码)及基于 字形的五笔字型输入法(形码)。基于拼音的各种输入法曾经被列为“慢速”输 入法,但学习很容易,几乎不花多少精力就能掌握。由于这个优势,故一直被普 通大众所使用。基于字形的五笔字型等输入法,为“快速”输入法,长期以来为 专业输入人士所使用,但需要花大量时间学习和掌握,久不使用,还易遗忘,感 到输入不便。

技术实现思路

[0003]本专利技术对一般计算机内所含的20902个GB13000.1汉字以及扩展的6万多 汉字以及各种其他中外文字符进行低重码编码,以超大规模词组/结构串(已收集 入库5000多万词组或结构串)为支撑,对各领域文字资料实现高速输入,即利用 位形码和拼音对汉字和非汉字进行编码,并与键盘上的字母对应,对文句进行结 构串划分,根据结构串取码规则实现结构串输入进而完成文句输入。
[0004]为了解决上述技术问题,本专利技术采用如下技术方案:
[0005]一)汉字编码构形:用于对汉字进行编码的构形即为编码构形,编码构形包 括根构形和扩展构形;
[0006](1)根构形根构形是最基础的构形,共66个,包括:
[0007](11)叠字构形:

二叠构形:由完全相同的两部分组成,以
‘‥’
表示, 编码为U;

三叠构形:由完全相同的三部分组成,以



表示,编码为T;
ꢀ③
四叠构形:由完全相同的三部分组成,以



表示,编码为Y。
[0008](12)对称类构形:

左右对称或总体近似对称构形,编码为A;

竖轴 竖钩轴近似对称构形,编码为A。
[0009](13)端连构形:若干笔画端部一一相连接或近似相连且不属于其它定义的 链接状构形,编码为L。
[0010](14)折类构形:

顺折构形:其书写方向总体上是顺时针方向旋转的构 形,编码为B,其中竖钩“亅”也当作顺折处理;

逆折构形:其书写方向总 体上是逆时针方向旋转的构形,编码为T;

复折构形:其书写既包括顺时针 走向也包括逆时针走向的构形,编码为G。
[0011](15)含交叉点构形:

含单交叉点构形和

含多交叉点构形。
[0012](16)特殊构形:为本输入法所特有的几个构形。
[0013](2)扩展构形:扩展构形是在根构形的基础上通过添加笔画形成的构形, 扩展构形和对应根构形的编码相同;其中一些扩展构形字右下角带“.”,表示该 字含特定附构形,基本上为该字内所含的笔画结构,或笔画的部位,附构形对应 的编码为附码,是二级码;上述汉字编码构形与键盘上字母键的对应关系如表1:
[0014]表1编码构形详解说明
[0015][0016][0017][0018]二)汉字的编码
[0019](1)汉字的编码构形及编码级别:所有汉字都是由编码构形进行量测取码, 汉字中出现的构形分为3个级别,分别为一级构形、二级构形和三级构形,应对 的编码即为一级码、二级码和三级码;
[0020](11)一级构形汉字取码时,首先以最大的编码构形对汉字进行量测比对, 匹配上的编码构形即为一级构形,为汉字的主要信息结构,其所对应的码,即为 一级码,当一级构形不包含二级构形时,即为单一构形,否则称为复合构形;
[0021](12)二级构形:某些一级构形包含次级构形,为汉字结构的次要信息结构, 包括如下四种:

包容型复合构形及其内构形:编码构形像容器一样可以包含 其它构形,被包含的构形即为该包容型构形的内构形,包容型复合构形与其内构 形关系是两者无交叉点,被包构形从整体上讲,其上下左右至少三面被包锁,只 允许一个方向有出口;

叠字复合构形及其内构形:叠字构形为一级构形,其 中相同的一个部分称为“等元”,对等元进行量测的构形即为二级构形,等元构 形即为二级构形,对应的是二级码,是一级构形的内构形;

左右对称复合构 形及其内构形:左右对称构形左侧部分作为二级构形,是一级构形的内构形;
④ꢀ
特定复合构形及其内构形:指定28个汉字本身作为一级编码构形,指定它们含 特定的附构形,在其左下角以“.”表示该字为特定复合构形,其对应编码如表2:
[0022]表228特定字的附构形及对应附码
[0023][0024][0025](13)三级构形:单一构形不含内构形,有时需进一步对它们本身所含更低 层的构形进行取码,这些更低层的构形即为三级构形,为汉字的最底层信息结构。
[0026](2)基础部件构形划分:对于语委列出的560个基础部件,它们有些属于 单一编码
构形,有些属于复合构形,其余为含多个一级构形的组合,对基础部件 进行构形划分编码时,遵循以下优先顺序原则:
[0027]a“构形数最小化”原则,即以尽量少的构形来获取一个基础部件的信息;b 尽量保留3笔及以上的正常书写汉字,特别规定,某些基础部件的上、下为“一”, 保留构形“二”;c尽量将相交结构及端连结构组成构形;d尽量按上下型取构形; e均衡原则,所取的各构形笔画数尽量均衡,并且尽量为多笔构形;f上部或书 写靠前的构形取较多笔画。
[0028](3)汉字编码方法
[0029](31)构形选取原则:采用对汉字进行构形量测匹配取码,对GB13000.1 所列的20902个汉字的完整编码的最小码长为3,最大码长为4,而对扩展的6 万多汉字的最大码长可为5,编码构形选取应遵循的原则是:
[0030]①“
先主要后次要”原则,即首先以一级构形进行编码,而先不管二级、三 级码,只有当一级构形编码达不到码长的要求时,再考虑次级的二级构形补充编 码,如果仍达不到码长要求时,才最后诉诸三级构形编码;
[0031]用公式表示如下:汉字全码=Left(一级构形码+二级构形码+三级构形码,4), 上式表示对括号内逗号前面的组合字符串从左向右取4个字符,即如果前面字符 串个数≤4,所取即为整个字符串,否则只是前面的4个字符,下面类同的表达 式也为类推的表述,如果某字由3个“一级构形码”组成,且均不含二级码,则 该字的全码长就为3,不再利用三级码。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种位形码辅以拼音码的全字符结构串式输入方法,其特征在于:利用位形码和拼音对汉字和非汉字进行编码,并与键盘上的字母对应,对文句进行结构串划分,根据结构串取码规则实现结构串输入进而完成文句输入;一)汉字编码构形用于对汉字进行编码的构形即为编码构形,编码构形包括根构形和扩展构形;(1)根构形根构形是最基础的构形,共66个,包括:(11)叠字构形

二叠构形:由完全相同的两部分组成,以
‘‥’
表示,编码为U;

三叠构形:由完全相同的三部分组成,以



表示,编码为T;

四叠构形:由完全相同的三部分组成,以



表示,编码为Y;(12)对称类构形

左右对称或总体近似对称构形,编码为A;

竖轴竖钩轴近似对称构形,编码为A;(13)端连构形若干笔画端部一一相连接或近似相连且不属于其它定义的链接状构形,编码为L;(14)折类构形

顺折构形:其书写方向总体上是顺时针方向旋转的构形,编码为B,其中竖钩“亅”也当作顺折处理;

逆折构形:其书写方向总体上是逆时针方向旋转的构形,编码为T;

复折构形:其书写既包括顺时针走向也包括逆时针走向的构形,编码为G;(15)含交叉点构形

含单交叉点构形

含多交叉点构形(16)特殊构形为本输入法所特有的几个构形;(2)扩展构形扩展构形是在根构形的基础上通过添加笔画形成的构形,扩展构形和对应根构形的编码相同;其中一些扩展构形字右下角带“.”,表示该字含特定附构形,基本上为该字内所含的笔画结构,或笔画的部位,附构形对应的编码为附码,是二级码;上述汉字编码构形与键盘上字母键的对应关系如下表:
二)汉字的编码(1)汉字的编码构形及编码级别所有汉字都是由编码构形进行量测取码,汉字中出现的构形分为3个级别,分别为一级构形、二级构形和三级构形,应对的编码即为一级码、二级码和三级码;(11)一级构形
汉字取码时,首先以最大的编码构形对汉字进行量测比对,匹配上的编码构形即为一级构形,为汉字的主要信息结构,其所对应的码,即为一级码,当一级构形不包含二级构形时,即为单一构形,否则称为复合构形;(12)二级构形某些一级构形包含次级构形,为汉字结构的次要信息结构,包括如下四种:

包容型复合构形及其内构形编码构形像容器一样可以包含其它构形,被包含的构形即为该包容型构形的内构形,包容型复合构形与其内构形关系是两者无交叉点,被包构形从整体上讲,其上下左右至少三面被包锁,只允许一个方向有出口;

叠字复合构形及其内构形叠字构形为一级构形,其中相同的一个部分称为“等元”,对等元进行量测的构形即为二级构形,等元构形即为二级构形,对应的是二级码,是一级构形的内构形;

左右对称复合构形及其内构形左右对称构形左侧部分作为二级构形,是一级构形的内构形;

特定复合构形及其内构形指定28个汉字本身作为一级编码构形,指定它们含特定的附构形,在其左下角以“.”表示该字为特定复合构形,其对应编码如下表:
(13)三级构形单一构形不含内构形,有时需进一步对它们本身所含更低层的构形进行取码,这些更低层的构形即为三级构形,为汉字的最底层信息结构;(2)基础部件构形划分对于语委列出的560个基础部件,它们有些属于单一编码构形,有些属于复合构形,其余为含多个一级构形的组合,对基础部件进行构形划分编码时,遵循以下原则:a“构形数最小化”原则,即以尽量少的构形来获取一个基础部件的信息;b尽量保留3笔及以上的正常书写汉字,特别规定,某些基础部件的上、下为“一”,保留构形“二”;c尽量将相交结构及端连结构组成构形;d尽量按上下型取构形;e均衡原则,所取的各构形笔画数尽量均衡,并且尽量为多笔构形;f上部或书写靠前的构形取较多笔画;(3)汉字编码方法(31)构形选取原则采用对汉字进行构形量测匹配取码,对GB13000.1所列的20902个汉字的完整编码的最小码长为3,最大码长为4,而对扩展的6万多汉字的最大码长可为5,编码构形选取应遵循的原则是:
①“
先主要后次要”原则,即首先以一级构形进行编码,而先不管二级、三级码,只有当一级构形编码达不到码长的要求时,再考虑次级的二级构形补充编码,如果仍达不到码长
要求时,才最后诉诸三级构形编码;用公式表示如下:汉字全码=Left(一级构形码+二级构形码+三级构形码,4)上式表示对括号内逗号前面的组合字符串从左向右取4个字符,即如果前面字符串个数≤4,所取即为整个字符串,否则只是前面的4个字符,下面类同的表达式也为类推的表述,如果某字由3个“一级构形码”组成,且均不含二级码,则该字的全码长就为3,不再利用三级码;

汉字取码需对构形进行判断划分,划分原则实际上就是划分的优先级别,由高到底按以下顺序进行:a“构形数最少化”原则,以最少的构形完成对汉字的测量取码,特别规定,上下各有一个孤立的“一”,且之间只有一个一级构形,则两横组成“二”构形;b保留2笔及以上基础部件常用字构形;c将相交笔画及端连笔画组成构形;d按上下型或左右取构形;e均衡原则,所取的各构形笔画数均衡,并且尽可能都为多笔构形;f上部或书写靠前的构形取较多笔画;(32)编码方式

含4个及以上一级构形的汉字编码按照如下取码顺序表选取;12161514131211109876543即第1码是在左上角取构形码,然后紧邻第1码的右侧取第2构形码,接着转至左下角取第3码构形码,第4码为紧邻第3构形的左侧;上表中共有4行,每一行称为取码同层,其中“1、2、16、15”为上同层,1位顶部可等于、略低于或略高于其右侧2位构形顶部,同样2与16位具相同关系,“3、4、5、6”为下同层,下同层的判断是:a.具有相同的笔画最底部;b.构形重心大致相同;c.3位底部略高于4位底部,当遇到同层中两个构形呈包夹嵌套在一起时,先取外夹构形,下同层全部取完后,才移转到其上的“7、8、9、10”同层取码;

含不足4个一级构形的汉字编码汉字编码不足4码时,需考虑补充取二级内码及三级码。总的来说,单一构形本身的三级构形编码,是从取码顺序表的1号位开始取;其他情况下,二级、三级取码均从取码顺序表的3号位开始;A单一编码构形本身的编码单一编码构形本身的取码公式为:编码构形全码=Left(其本身键位代码+三级码+γγγ,4)其中γ表示百搭码,代码字母为“R”,其作用是在没有其它信息编码可利用但又必须占位时,就以此来充当,后面称为补码;
单一编码构形不含二级内码,需从取码顺序表的1号位取三级构形码;B单一复合构形的编码a只含1个内码复合编码构形全码=Left(其本身键位代码+二级构形码+二级构形的三级码,4);b含2个以上内码复合编码构形全码=Left(其本身键位代码+各二级内码,4);C含2个一级构形字的编码按取码顺序表取完2个一级构形码后,3、4码按以下方式取:a 2个一级构形均无内码左右型字:汉字全码=Left(第1构形码+第2构形码+第2构形的三级码+第1构形的三级码,4);其它型字:汉字全码=Left(第1构形码+第2构形码+第1构形的三级码+第2构形的三级码,4);b 2个一级构形中的一个含1个内码,另一个不含内码汉字全码=Left(第1构形码+第2构形码+内码+另一构形的1个三级码,4);c 2个一级构形中的一个含多个内码,另一个不含内码汉字全码=Left(第1构形码+第2构形码+2个二级内码);d 2个一级构形中均含内码左右型汉字:2个一级码+第2构形的内码+第1构形的内码;其它型汉字:2个一级码+第1构形的内码+第2构形的内码;D含3个一级构形字的编码按取码顺序表取完3个一级构形码后,若不含二级构形,则所取的3个一级码即为完整全码,不再取三级码,否则逆向返回补取1个二级构形码;三)常用非汉字的编码对主要非汉字符的编码规则大多以拼音读音为依据,其他根据有关方式编码:(1)英语字母的编码采用字母加固定拼音字母方式编码:小写字母编码=本字母+xxy大写字母编码=本字母+dxy其中,xxy为“小写英”的拼音首字母,dxy“大写英”的拼音首字母;另外,英语大小写字母还有一种全角汉化的形式,其编码为:小写字母编码=本字母+xxh;大写字母编码=本字母+dxh;(2)数字及数字序号的编码阿拉伯数字的编码采用键位移植法,即将1~0数字编码顺序安排到其下的Q~P键上取码;数字编码=Q~P+szm,其中,szm为“数字码”的拼音首字母;带圆括号的数字序号(1)~(10),带圆括号的数字编码=Q~P+yks,其中,yks为“圆括数”的拼音首字母;
另外,全角汉化数字编码为:汉化数字编码=Q~P+hsz;其中,hsz为“汉化数字”的拼音首字母;数字序号均为一级码;(3)标点符号的编码标点符号主要以其名称的拼音为依据,个别,指最常用的逗号和句号,采用移植法,具体对应编码如下表:
(4)希腊字母的编码综合其读音和形状与英语字母的对位关系进行编码,具体对应编码如下表:具体对应编码如下表:(5)数学符号首码常用...

【专利技术属性】
技术研发人员:宦秉炼
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1