一种手写汉字图像的笔顺识别方法及系统技术方案

技术编号:31805974 阅读:26 留言:0更新日期:2022-01-08 11:07
本发明专利技术公开了一种手写汉字图像的笔顺识别方法及系统,其中,笔顺识别方法包括预处理步骤、第一次笔顺匹配步骤、第二次笔顺匹配步骤和笔段融合步骤;本发明专利技术提供的笔顺识别方法是针对静态手写汉字图像,避免了在电子设备上书写体验的失真;本发明专利技术基于八邻域方向编码规则给出了不同类型笔画的非法方向编码,并根据非法方向编码来计算第一次笔顺匹配步骤中的匹配权重;本发明专利技术对手写汉字进行第一次笔顺匹配和第二次笔顺匹配,可确保手写汉字中的每个笔段都有匹配的笔顺;本发明专利技术通过不同笔段的八邻域编码链和不同笔画的合法方向编码来实现笔段融合;通过本发明专利技术提供的笔顺识别方法,能有效提高静态手写汉字图像中笔顺识别的准确率。率。率。

【技术实现步骤摘要】
一种手写汉字图像的笔顺识别方法及系统


[0001]本专利技术属于计算机图像处理
,更具体地,涉及一种手写汉字图像的笔顺识别方法及系统。

技术介绍

[0002]在规范汉字书写教学的整个过程中,小学低年级的汉字教学是基础所在,但低年级的多数学习者书写出的汉字风格多变,对每个学生写过的所有汉字都给出纠正信息并辅助改正很难实现。且大部分家长和教师没有受过严格的、系统的规范汉字书写教育,即使最终能实现一对一的辅导,教师和家长也无法对学生书写的汉字给出具体化和规范化的评价信息。
[0003]随着信息技术的不断发展与完善,已经出现了很多计算机辅助的汉字书写评价系统。相关研究工作可以分为事后评价和实时评价两类。事后评判是指让书写者不受打扰一次性书写完目标汉字,然后提取其手写汉字的特征数据与模版汉字进行对比并进行规范性评价;实时评判,则是指书写者每次写完目标汉字的一个笔画,系统立即评判其规范性。这两类系统的研究都已经有相当多的成果,且主要的关注点都在于手写汉字笔顺的正确性。
[0004]要深入研究手写汉字笔顺的正确性评价,手写汉字的数据化十分重要。目前很多汉字书写教学系统都是通过类似于书写平板之类设备搭配电容笔来进行汉字数据采集,电子设备有时序数据,能够很方便的采集到书写者手写汉字的笔顺信息。然而,此类设备大多较为坚硬且表面光滑,影响书写体验,在电子屏上书写时很难得到真正笔纸的书写体验。此外,电子设备采集了汉字笔段数据后,一般通过设置阈值来实现笔段融合,而很少考虑汉字笔画本身的特征。
[0005]让书写者使用硬笔在特定纸张上书写目标汉字,通过拍照采集原始图像,最后通过计算机图像处理技术从中提取出手写汉字的字迹数据,可以避免书写者在书写体验上的失真,但同时带来了笔顺识别的困难,静态手写汉字图像没有时序数据,要从静态手写汉字图像中识别出手写汉字的笔顺存在许多难点。
[0006]汉字骨架提取操作是静态手写汉字笔顺识别的重要步骤,对静态手写汉字进行汉字骨架提取操作能得到汉字骨架,汉字骨架能正确反映汉字的拓扑结构,没有多余的毛刺或旁枝。
[0007]一幅静态手写汉字图像中的任一像素P有4个相邻的像素,分别位于其上下左右,这4个像素是像素P的4邻域;像素P的D邻域是像素p的四个顶点对应的点;像素P的4邻域和D邻域组成像素P的八邻域;八邻域方向编码规则为:以像素P左边的邻域点为起点,逆时针将八邻域标记为P0、P1、P2、P3、P4、P5、P6、P7;P到P0的方向编码为0,P到P1的方向编码为1,P到P2的方向编码为2,P到P3的方向编码为3,P到P4的方向编码为4,P到P5的方向编码为5,P到P6的方向编码为6,P到P7的方向编码为7。
[0008]一幅静态手写汉字图像中构成手写汉字部分的像素点为笔迹像素点;删除汉字骨架中的交叉点可得到多个笔段,每个笔段由多个笔迹像素点组成;当对某个笔段中的所有
笔迹像素点进行遍历操作时,某一笔迹像素点A的方向编码的记录方法如下:
[0009](1)确定遍历操作中A的上一笔迹像素点A0;
[0010](2)查找在A0的八邻域中,A所处的位置以及A0到A的方向编码X;
[0011](3)将A的方向编码记为X,即X对应的笔迹像素点为A。
[0012]因此,遍历操作访问的第一个笔迹像素点没有方向编码,将该笔段中其他笔迹像素点的方向编码组成一个集合,即为该笔段的八邻域编码链。
[0013]根据八邻域方向编码规则对国标一级字库中的标准汉字建立八邻域编码链时,将上述记录方法中的笔迹像素点替换为构成标准汉字的像素点,将笔段替换为笔画,即可得到构成标准汉字的每个笔画的八邻域编码链。
[0014]一幅静态手写汉字图像或标准汉字图像中,采用图像的左上角做为坐标系的原点,水平向右为横轴坐标轴正方向,垂直向下为纵轴坐标轴正方向,选取此坐标系可以使具体的坐标数据全为正整数。
[0015]静态手写汉字的笔段或标准汉字的笔画的质心为该笔段或该笔画的所有像素点坐标值的均值。

技术实现思路

[0016]针对现有技术的缺陷,本专利技术的目的在于提供一种手写汉字图像的笔顺识别方法及系统,旨在解决静态手写汉字图像中的笔顺识别的问题。
[0017]为实现上述目的,本专利技术提供了一种手写汉字图像的笔顺识别方法,包括以下步骤:
[0018](1)预处理步骤:对原始手写汉字图像进行汉字骨架提取操作,得到汉字骨架图像;对所述汉字骨架进行分割操作,得到含有多个笔段的分割图像;所述原始手写汉字图像仅包含1个手写汉字;
[0019](2)第一次笔顺匹配步骤:通过分支界限法,根据笔画集对所述分割图像中的笔段进行笔顺匹配操作,将匹配成功的笔段组成成功笔段集,完成从所述成功笔段集到所述笔画集的第一映射:将每个笔段映射到匹配成功的笔顺;将匹配失败的笔段组成失败笔段集,对所述失败笔段集执行下述第二次笔顺匹配步骤;
[0020]所述笔画集的获取方法为:在规范汉字字库中查找获得所述原始手写汉字图像中的手写汉字的标准笔画集,简称为笔画集;
[0021]所述规范汉字字库的建立方法为:根据八邻域方向编码规则对国标一级字库中的所有汉字建立规范汉字字库,所述规范汉字字库由每个汉字的标准笔画集构成,所述标准笔画集包括每个笔画的笔顺和质心;
[0022](3)第二次笔顺匹配步骤:对所述失败笔段集中的每个笔段,分别计算该笔段的质心与所述笔画集中每个笔画的质心的距离,并组成距离集;查找所述距离集中的最小距离;查找所述最小距离对应的笔画在所述笔画集中的笔顺,判定该笔顺与该笔段匹配成功;完成从所述失败笔段集到所述笔画集的第二映射:将每个笔段映射到匹配成功的笔顺;
[0023](4)笔段融合步骤:将所述第一映射和所述第二映射合并为第三映射,将所述第三映射中映射到同一笔顺的2个以上的笔段组成该笔顺的待融合笔段集;分别对每个所述待融合笔段集进行笔段融合操作:将每个所述待融合笔段集中的笔段融合为1个笔段。
[0024]优选地,所述预处理步骤中的汉字骨架图像的任一笔迹像素点在其八邻域内只存在4个以下的相邻的笔迹像素点;所述预处理步骤中的笔段的起终点在其八邻域内只存在1个相邻的笔迹像素点,其他笔迹像素点在其八邻域内只存在2个相邻的笔迹像素点;
[0025]所述规范汉字字库中的标准笔画集还包括每个笔画的非法方向编码和合法方向编码;
[0026]所述非法方向编码的规则为:
[0027]若该笔画的主方向编码为0,则非法方向编码为2和6;
[0028]若该笔画的主方向编码为1,则非法方向编码为3和7;
[0029]若该笔画的主方向编码为2,则非法方向编码为0和4;
[0030]若该笔画的主方向编码为3,则非法方向编码为1和5;
[0031]若该笔画的主方向编码为4,则非法方向编码为2和6;
[0032]若该笔画的主方向编码为5,则非法方向编码为3和7;
[0033]若该笔画的主方向编码为6,则非法方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手写汉字图像的笔顺识别方法,其特征在于,包括以下步骤:(1)预处理步骤:对原始手写汉字图像进行汉字骨架提取操作,得到汉字骨架图像;对所述汉字骨架进行分割操作,得到含有多个笔段的分割图像;所述原始手写汉字图像仅包含1个手写汉字;(2)第一次笔顺匹配步骤:通过分支界限法,根据笔画集对所述分割图像中的笔段进行笔顺匹配操作,将匹配成功的笔段组成成功笔段集,完成从所述成功笔段集到所述笔画集的第一映射:将每个笔段映射到匹配成功的笔顺;将匹配失败的笔段组成失败笔段集,对所述失败笔段集执行下述第二次笔顺匹配步骤;所述笔画集的获取方法为:在规范汉字字库中查找获得所述原始手写汉字图像中的手写汉字的标准笔画集,简称为笔画集;所述规范汉字字库的建立方法为:根据八邻域方向编码规则对国标一级字库中的所有汉字建立规范汉字字库,所述规范汉字字库由每个汉字的标准笔画集构成,所述标准笔画集包括每个笔画的笔顺和质心;(3)第二次笔顺匹配步骤:对所述失败笔段集中的每个笔段,分别计算该笔段的质心与所述笔画集中每个笔画的质心的距离,并组成距离集;查找所述距离集中的最小距离;查找所述最小距离对应的笔画在所述笔画集中的笔顺,判定该笔顺与该笔段匹配成功;完成从所述失败笔段集到所述笔画集的第二映射:将每个笔段映射到匹配成功的笔顺;(4)笔段融合步骤:将所述第一映射和所述第二映射合并为第三映射,将所述第三映射中映射到同一笔顺的2个以上的笔段组成该笔顺的待融合笔段集;分别对每个所述待融合笔段集进行笔段融合操作:将每个所述待融合笔段集中的笔段融合为1个笔段。2.根据权利要求1所述的手写汉字图像的笔顺识别方法,其特征在于,所述预处理步骤中的汉字骨架图像的任一笔迹像素点在其八邻域内只存在4个以下的相邻的笔迹像素点;所述预处理步骤中的笔段的起终点在其八邻域内只存在1个相邻的笔迹像素点,其他笔迹像素点在其八邻域内只存在2个相邻的笔迹像素点;所述规范汉字字库中的标准笔画集还包括每个笔画的非法方向编码和合法方向编码;所述非法方向编码的规则为:若该笔画的主方向编码为0,则非法方向编码为2和6;若该笔画的主方向编码为1,则非法方向编码为3和7;若该笔画的主方向编码为2,则非法方向编码为0和4;若该笔画的主方向编码为3,则非法方向编码为1和5;若该笔画的主方向编码为4,则非法方向编码为2和6;若该笔画的主方向编码为5,则非法方向编码为3和7;若该笔画的主方向编码为6,则非法方向编码为0和4;若该笔画的主方向编码为7,则非法方向编码为1和5;所述合法方向编码的规则为:若该笔画的主方向编码为0,则合法方向编码为0、1和7;若该笔画的主方向编码为1,则合法方向编码为0、1和2;若该笔画的主方向编码为2,则合法方向编码为1、2和3;若该笔画的主方向编码为3,则合法方向编码为2、3和4;
若该笔画的主方向编码为4,则合法方向编码为3、4和5;若该笔画的主方向编码为5,则合法方向编码为4、5和6;若该笔画的主方向编码为6,则合法方向编码为5、6和7;若该笔画的主方向编码为7,则合法方向编码为0、6和7;所述笔画的主方向编码为该笔画的八邻域编码链中出现次数最多的方向编码。3.根据权利要求2所述的手写汉字图像的笔顺识别方法,其特征在于,所述第一次笔顺匹配步骤中的笔段匹配操作包括以下步骤:(1)匹配权重计算步骤:计算每个所述笔段的主方向编码,并分别对比所述笔画集中所有笔画的非法方向编码:若所述笔段的主方向编码不属于其中一个笔画的非法方向编码,则计算该笔段与该笔画的匹配权重,并继续对比下一个笔画;否则,判定该笔段与该笔画不匹配,并继续对比下一个笔画;直至完成所有笔画的对比;所述笔段的主方向编码为该笔段的八邻域编码链中出现次数最多的方向编码;所述匹配权重为该笔段的质心与该笔画的质心之间的距离;(2)匹配笔顺步骤:根据每个所述笔段的所有的匹配权重,通过分支界限法完成所述第一映射。4.根据权利要求2所述的手写汉字图像的笔顺识别方法,其特征在于,所述笔段融合步骤中的笔段融合操作包括以下步骤:(1)笔段编码步骤:以起始点为起点对所述待融合笔段集中的每个笔段进行遍历操作,按照八邻域方向编码规则计算除起点以外的每个笔迹像素点的方向编码,各个所述方向编码按所述遍历操作的遍历顺序构成该笔段的八邻域编码链;(2)翻转笔段步骤:对所述待融合笔段集中的每个笔段,在所述所述第三映射中查找该笔段的像,根据该笔段的像在所述笔画集中查找对应的笔画的合法方向编码;判断该笔段的八邻域编码链是否包含在该合法方向编码中,若不包含,则翻转该笔段,并将翻转后的笔段放入所述待融合笔段集,删除翻转前的笔段;否则,不翻转该笔段,且该笔段保留在所述待融合笔段集中;(3)融合笔段步骤:任取所述待融合笔段集中的两个笔段:第一笔段和第二笔段,对第一笔段的起始像素点P1和终止像素点P2,以及第二笔段的起始像素点P3和终止像素点P4,计算距离D1,D2,D3和D4;D1为P1和P3之间的距离,D2为P1和P4之间的距离,D3为P2和P3之间的距离,D4为P2和P4之间的距离;若D1~D4中最小的距离小于设定的阈值,则取P1~P4中距离最近的两点进行融合,并将融合后的笔段放入所述待融合笔段集;否则判定为融合失败,并删除融合失败的笔段;所述融合失败的笔段为所述第一笔段和所述第二笔段中属于所述失败笔段集的笔段;(4)融合完成步骤:对所述待融合笔段集重复执行所述融合笔段步骤,直至融合为1个笔段。5.一种手写汉字图像的笔顺识别系统,其特征在于,包括:笔画集获取模块:用于根据八邻域方向编码规则对国标一级字库中的所有汉字建立规范汉字字库,所述规范汉字字库由每个汉字的标准笔画集构成,所述标准笔画集包...

【专利技术属性】
技术研发人员:舒江波杨宗凯刘三女牙李简然卢帅成易宝林张照理戴志诚张维吴亮曾晶丽
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利