本发明专利技术将汉字分解成横、撇、竖和捺四种基本笔画,利用相临两个基本笔画的关系作为汉字识别码,称为汉字指纹,共有65种,其中54种与“田”字的九个交点具有对应关系,据此将汉字指纹定义在键盘上的三个“田”字区。用汉字指纹编码汉字,只需在单字拼形编码中对拼形汉字作方块式拆分,而在其它拼形编码和汉字音形或形音结合编码中不再需要拆分汉字。本发明专利技术的编码方法还可用于汉字字典的编排。(*该技术在2013年保护过期,可自由使用*)
【技术实现步骤摘要】
【国外来华专利技术】汉字编码的核心是汉字识别信息的提取,这些信息来自两方面音和形。单独以汉字拼音压缩技术为基础的拼音编码法虽然在改进上已经趋于穷尽,但并没因此走出重码率高的困境。以汉字字根为基础的拼形编码法虽在解决重码问题占有优势,但是沉重的字根键盘记忆,特别是繁琐的汉字拆分,难以为一般人员使用。集汉字音形于一体的结合编码法,由于拼形部分规律性差、记忆量大,仍然难学。本专利技术的任务是提供一种汉字拼形编码及其输入键盘,它要具备识别能力强、规律性好、便于记忆的特征,用于汉字拼形编码和音形或形音结合编码。专利技术是这样实现的先分解出汉字的基本笔画,然后划分汉字相临两个基本笔画的相互关系,最后将这种相互关系作为汉字拼形码定义在键盘上。汉字笔画错综复杂,但是适当作以分解,可以得到横、撇、竖、捺四种基本笔画,它们是不含明显折点的一段直线或曲线,特征如下1、横用“-”表示,呈水平方向。2、竖用“|”表示,呈竖直方向,同“横”垂直。3、撇用“/”表示,左端低,右端高,同“横”夹角为45度。4、捺用“\”表示,左端高,右端低,同“撇”垂直。在汉字笔画中,方向朝上、左上和右上的勾(例如“乙”、“或”、“小”和“良”中勾),多起修饰作用,识别汉字意义不大,不计入基本笔画。例如,“勹”由基本笔画/、-、|顺序构成,“才”由基本笔画-、|、/顺序构成,“玄”由基本笔画\、-、/、-、/、-、\顺序构成,“斤”由基本笔画/、/、-、|顺序构成,“乙”由基本笔画-、/、-顺序构成,“子”由基本笔画-、/、|、-顺序构成。汉字基本笔画虽只有四种,但是按照不同的相互关系,便可组成成千差万别的汉字。例如“上”、“土”、和“工”的第一、二、三基本笔画都分别是“-、|、-”,但是,第一、二基本笔画的相互关系“上”为“├”,“土”为“十”,“工”为“┬”。由此看出,相临两个基本笔画的相互关系,如同人类指纹的个体特性一样,是一种十分有效的汉字识别信息,称其为汉字指纹,并将汉字第一、二基本笔画的相互关系称为汉字第一指纹(亦称首指纹),汉字第二、三基本笔画的相互关系称为汉字第二指纹(亦称次首指纹),余者类推。与此同理,将汉字倒数第一、二基本笔画的相互关系称为汉字倒数第一指纹(亦称末指纹),倒数第二、三基本笔画的相互关系称为汉字倒数第二指纹(亦称次末指纹),余者类推。当一个汉字仅由一个基本笔画构成时,不能形成汉字指纹,称之为汉字空指纹,记为“~”。例如,“一”由空指纹构成。四种基本笔画即可同质(同类基本笔画)组合,亦可异质(不同类基本笔画)组合。同质组合有四种形式-与-、|与 、丿与/、\与\,两个基本笔画之间无交点,分别用符号--、||、//和\\表示,称汉字同质指纹。例如,“二”、“业”、“得”和“江”的首指纹分别是--、||、//和\\。异质组合有六种形式-与|、-与/、-与\、|与/、|与\和/与\,每种异质组合形式又分有交点和无交点两种。无交点异质组合分别用符号-|、-/、-\、|/、|\和/\表示,称无交点异质指纹。例如,“豆”、“千”、“方”、“儿”、“门”和“家”的首指纹分别是-|、-/、-\、|/、|\和/\。在“/与\”组合中,如果无交点、或交点不明显,但是可以形成一个,且只有一个明显夹角,则视为两基本笔画端点相交。例如,“小”、“办”、“匀”和“戈”的最后两笔都视为端点相交。在有交点的六种异质组合中,交点位置、相交方向和角度的不同,使每一种组合都呈现九种相交形式,各组合形式如下1、正田字指纹由“-与|”组合构成,特征是构成汉字指纹的两个基本笔画一个是“-”,另一个是“|”。相交的九种形式可用符号“┌、┬、┐、├、┼、┤、└、┴、┘”形象地表示,它们恰好与“田”字的九个交点相对应,故称正田字指纹。例如,“正”由汉字指纹┬、├、-|、和┴顺序构成。2、单旋田字指纹由“-与/”、“-与\”、“|与/”、“|与\”四种组合构成,特征是构成汉字指纹的两个基本笔画中,一个是“-”或“|”,另一个是“/”或“\”。如果将“/”或“\”旋转成与另一基本笔画垂直,将与组合“-与|”一致。故称这类指纹为单旋田字指纹。这四种组合的汉字指纹分别用对应的正田字指纹附加各自组合符号表示。例如“┌-/”、“┌-\”、“┌|/”、“┌|\”等。同一正田字指纹对应的四种单旋田字指纹,统一用符号“#”表示。例如,“车”、“戈”的首指纹分别是┼-/、┼-\,统一表示为┼#。3、双旋田字指纹由“/与\”组合构成,特征是构成汉字指纹的两个基本笔画一个是“/”,另一个是“\”。如果将“/”与“\”按照顺时针方向都旋转45度,将与组合“-与|”一致。故称这类指纹为双旋田字指纹。双旋田字指纹分别用对应的正田字指纹附加符号“*”表示。例如,“水”、“页”和“木”的末指纹分别是┌*、┬*、┐*。整个汉字指纹系统结构如下表表1.汉字指纹系统结构 在65种汉字指纹中,田字指纹54种,占汉字指纹总数的83%,采用“田”字自然排列方式,按单旋田字、正田字和双旋田字三类分别定义在键盘的左、中、右三个区,其中双旋田字指纹└*、┴*与┘*合用同一“M”键。在11种非田字指纹中,“-/”与“~”定义在同一“P”键,其它九个指纹--、||、//、\\、-|、|/、|\、/\分别定义在L、F、V、R、B、H、C、J”键,分别与┤*、├、└、┌、┴、┤、┘#、├*同用一键,见附图说明图1。在汉字指纹拼形编码中,利用汉字指纹的独具特征,只需对汉字进行形象的几何拆分即可得到充分的汉字识别信息。本专利技术将汉字分成独形字和拼形字,其中拼形字是可以拆分成首、末两个方形子块的汉字,余者为独形字。拼形字按几何形式拆分成十二种结构,详见如下,汉字后括号内分别为首块和末块。1、上下: 。例如,盟(明、皿)、出(山、山)。2、左右: 。例如,明(日、月)、腺(月、泉)。3、全包围: 。例如,国(囗、玉)、园(囗、元)。4、上开围: 。例如,函(凵、 )、画(凵、 )。5、下开围: 。例如,冈(冂、乂)、向( 、口)。6、左开围: 。例如,丑( 、十)。7、右开围: 。例如,匡(匚、王)、匾(匚、扁)。8、左上包围: 。例如,病(疒、丙)、灰(、火)。9、左下包围: 。例如,这(辶、文)、延( 、廴)。10、右上包围: 。例如,匀(勹、冫)、忒(弋、心)。11、右下包围: 。例如,斗( 、十)。12、先中后边: 。例如,水(亅、 )、小(亅、八)。拼形汉字拆分原则如下1、不拆成独一基本笔画子块。例“示”拆成“二”与“小”,不拆成“一”与“ ”2、绝不拆交,能离不连。例如“京”拆成“亠”与“ ”,不拆成“ ”与“小”。3、全包优先当汉字即可拆成全包围结构,又可拆成其它结构时,拆成全包围结构。例“田”拆成“口”与“十”,不拆成“凵”与“干”。4、直观优先拆成的子块为汉字时优先。例如“举”拆成“兴”与“ ”,不拆成“ ”与“ ”。5、兼顾均衡,余部归前。例“喜”拆成“ ”与“ ”,不是“ ”与“口”、“湘”拆成“沐”与“目”,不是“氵”与“相”。6、首笔定序拥有汉字首笔的子块在首块,否则为尾块。例如,“田”拆成“口”与“十”,不拆成“十”与“口”。在单字拼形编码中,独形汉字取首、次首、末、次末指纹顺序编码,即“首、次首、末、次末”。例如,本文档来自技高网...
【技术保护点】
本专利技术所属技术领域为汉字信息处理。现有技术中的汉字拼形编码以及音形或形音结合编码,都缺少一种易于学习、记忆量小,而且识别汉字信息大的拼形编码。一种汉字指纹编码及其输入键盘,其特征是将汉字笔画分解为基本笔画,把汉字相临两个基本笔画的关系用 作汉字识别码,称为汉字指纹,通过汉字指纹“田”字形的键盘定义方式和汉字方块式拆分,建立汉字编码。
【技术特征摘要】
【国外来华专利技术】
【专利技术属性】
技术研发人员:张志武,
申请(专利权)人:张志武,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。