当前位置: 首页 > 专利查询>吉林大学专利>正文

一种甲骨文字体构建方法技术

技术编号:32364574 阅读:23 留言:0更新日期:2022-02-20 03:36
一种甲骨文字体构建方法,属于图像处理技术领域,包括收集甲骨文图片,并对所述甲骨文图片进行预处理;构建基于yolov4改进的目标检测模型提取处理后的甲骨文图片当中的部件,从而识别出构成甲骨文的部件和每个部件在甲骨文图片中所在的位置;构建部件位置关系推理模型,根据从甲骨文图片中识别出的构成甲骨文的部件以及每个部件在甲骨文图片中所在的位置,生成部件间位置关系;构建甲骨文部件的矢量图库;构建甲骨文文字与部件的知识图谱;生成包含完整部件的甲骨文的矢量图;根据得到的矢量图表示的最终文字结果,以ttf形式输出现代汉语立定字的字体。本发明专利技术方法实现了对知识库当中已有的古文字或者新的古文字拓片进行字体生成。生成。生成。

【技术实现步骤摘要】
一种甲骨文字体构建方法


[0001]本专利技术属于图像处理
,具体地,涉及一种甲骨文字体构建方法。

技术介绍

[0002]甲骨文具有图画性强,笔画繁多,字无定型等特点,目前甲骨文,金文约有4500个汉字,但其中被考释的只有2000个,很多甲骨文图片并没有现代汉字的字体,这对古文字工作者造成了极大的困难,基于目标检测识别古文字的方法通常适用于训练集比较充足有明确的标签并且对于数据集的质量要求较高,但是对于未释字或者一些数据量很少的甲骨文字根本无法进行识别,主要技术难点在于以下几个方面:1、如果需要进行文字的整体识别,则需要足够的训练集图片进行训练,并且对于训练集的要求质量较高;2、对于知识库当中没有的字体来说,想要将甲骨文图片转换成ttf形式的字体存储到字库方便古文字学者进行研究极为困难;3、缺少完善的统计查询工具,甲骨文年代比较久远,缺少对应的甲骨文现代汉语文字的知识库,难以进行查询。

技术实现思路

[0003]本专利技术的目的是提出了一种基于目标检测、知识图谱、矢量图转换和字体生成的甲骨文字体构建方法,可以实现对于古文字拓片进行高准确率的识别和智能分析,实现了对知识库当中已有的古文字或者新的古文字拓片进行字体生成,对于古文字造字具有重要的指导意义,方便古文字学者进行古文字的探索。
[0004]为实现上述目的,本专利技术采用如下技术方案1、一种甲骨文字体构建方法,其特征在于,包括如下步骤:
[0005]步骤1:收集甲骨文图片,并对所述甲骨文图片进行预处理,所述预处理过程包括图片大小调整、色域变换和图片垂直翻转;
[0006]步骤2:将甲骨文图片输入到基于yolov4改进的部件目标检测模型中,识别出甲骨文图片中包含的部件和每个部件在甲骨文图片中所在的位置;
[0007]步骤3:构建部件位置关系推理模型,根据步骤2中从甲骨文图片识别出的构成甲骨文文字的部件,以及每个部件在甲骨文图片中所在的位置,生成部件间位置关系;具体根据部件与文字结构,生成对应的文字表达式,文字表达式用于体现甲骨文文字中包含的部件与部件之间的位置关系信息;文字表达式的格式为:数字+部件,数字代表预先设定的文字结构编号,部件数量至少一个,当具有两个及两个以上的部件时,文字表达式中部件前后排列顺序是按照文字结构中部件序号的先后顺序排列的,且文字结构中部件的序号是按照从左到右、从上到下、从内到外顺序进行编号;
[0008]步骤4:构建甲骨文部件的矢量图库;根据已有的甲骨文部件图片,使用imgToSvg()函数将所述甲骨文部件图片转换为现代汉语的部件的矢量图;生成矢量图后,将甲骨文图片中的字,以及由所述甲骨文图片生成的矢量图文件中<path>标签的"d"属性中的数据保存至数据库中;
[0009]步骤5:构建甲骨文文字与部件的知识图谱
[0010]1)定义甲骨文知识图谱本体
[0011]I首先定义文字类与部件类,然后在文字类下添加所有在文字表格数据中的具体的文字子类,并以"Character_eg",即"字符英文表示"作为每个文字子类的类名;同样,在部件类下添加所有在部件表格数据中的具体的部件子类,并以"Radical_eg",即"部件英文表示"作为每个部件子类的类名;
[0012]II定义类之间的关系
[0013]文字与部件的关系为文字包含部件,因此定义文字和部件的关系为“包含”;
[0014]III定义本体中,类拥有的属性,包括"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh","Radical_zh","Radical_eg",即"字符英文表示","字符中文表示","包含部件数","字符结构英文表示","字符结构中文表示","部件中文表示","部件英文表示";
[0015]2)构建实例
[0016]I构建所有字符实例,为每个字符实例添加属性"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh";
[0017]II构建所有部件实例,为每个部件实例添加属性"Radical_zh","Radical_eg"";
[0018]III构建字符与部件关系,将字符实例与字符包括的部件实例建立"包含"关系;
[0019]步骤6:根据步骤2、步骤3、步骤4和步骤5,生成包含完整部件的甲骨文文字的矢量图;
[0020]步骤7:根据步骤6得到的矢量图表示的最终文字结果,以ttf形式输出现代汉语立定字的字体。
[0021]进一步,所述基于yolov4改进的目标检测模型是通过yolov4网络结构中的主干特征提取网络提取甲骨文图片当中的部件,且主干特征提取网络是通过对yolov4算法中的CSPDarknet53网络用MobileNet网络进行替换生成的。
[0022]进一步,所述文字结构包括“独体字”,“上下结构”,“左右结构”,“包围结构”,“半包围

左上右下”,“半包围

左下右上”,“左中右结构”,“上中下结构”,“左右结构

上下结构”,“上下结构

左右结构”,“包围结构

上下结构”,“品字结构”,“上下结构

品字结构”和“镶嵌结构”。
[0023]进一步,所述文字结构的判别方式如下:
[0024]1)独体字
[0025]仅检测到1个部件时,输出文字结构为独体字;
[0026]2)上下结构
[0027]文字包括部件A和部件B,部件A和部件B呈上下布置,且部件A位于B部件上方,部件之间满足如下关系:
[0028][0029]3)左右结构
[0030]文字包括部件A和部件B,部件A和部件B呈左右布置,且部件A位于部件B左侧,部件之间满足如下关系:
[0031][0032]4)包围结构
[0033]文字包括部件A和部件B,部件A设置在部件B内部,部件之间满足如下关系:
[0034][0035]5)半包围

左上右下结构
[0036]文字包括部件A和部件B,部件A位于部件B的左上方,部件A相对于部件B处在文字的左上位置,部件B相对与部件A处在文字的右下位置,部件之间满足如下关系:
[0037][0038]6)半包围

左下右上结构
[0039]文字包括部件A和部件B,部件A相对于部件B处在文字的左下位置,部件B相对与部件A处在文字的右上位置,部件之间满足如下关系:
[0040][0041]7)左中右结构
[0042]文字包括部件A、部件B和部件C,部件A、部件B和部件C依次从左向右布置,部件之间满足如下关系:
[0043][0044]8)上中下结构...

【技术保护点】

【技术特征摘要】
1.一种甲骨文字体构建方法,其特征在于,包括如下步骤:步骤1:收集甲骨文图片,并对所述甲骨文图片进行预处理,所述预处理过程包括图片大小调整、色域变换和图片垂直翻转;步骤2:将甲骨文图片输入到基于yolov4改进的部件目标检测模型中,识别出甲骨文图片中包含的部件和每个部件在甲骨文图片中所在的位置;步骤3:构建部件位置关系推理模型,根据步骤2中从甲骨文图片识别出的构成甲骨文文字的部件,以及每个部件在甲骨文图片中所在的位置,生成部件间位置关系;具体根据部件与文字结构,生成对应的文字表达式,文字表达式用于体现甲骨文文字中包含的部件与部件之间的位置关系信息;文字表达式的格式为:数字+部件,数字代表预先设定的文字结构编号,部件数量至少一个,当具有两个及两个以上的部件时,文字表达式中部件前后排列顺序是按照文字结构中部件序号的先后顺序排列的,且文字结构中部件的序号是按照从左到右、从上到下、从内到外顺序进行编号;步骤4:构建甲骨文部件的矢量图库;根据已有的甲骨文部件图片,使用imgToSvg()函数将所述甲骨文部件图片转换为现代汉语的部件的矢量图;生成矢量图后,将甲骨文图片中的字,以及由所述甲骨文图片生成的矢量图文件中<path>标签的"d"属性中的数据保存至数据库中;步骤5:构建甲骨文文字与部件的知识图谱1)定义甲骨文知识图谱本体I首先定义文字类与部件类,然后在文字类下添加所有在文字表格数据中的具体的文字子类,并以"Character_eg",即"字符英文表示"作为每个文字子类的类名;同样,在部件类下添加所有在部件表格数据中的具体的部件子类,并以"Radical_eg",即"部件英文表示"作为每个部件子类的类名;II定义类之间的关系文字与部件的关系为文字包含部件,因此定义文字和部件的关系为“包含”;III定义本体中,类拥有的属性,包括"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh","Radical_zh","Radical_eg",即"字符英文表示","字符中文表示","包含部件数","字符结构英文表示","字符结构中文表示","部件中文表示","部件英文表示";2)构建实例I构建所有字符实例,为每个字符实例添加属性"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh";II构建所有部件实例,为每个部件实例添加属性"Radical_zh","Radical_eg";III构建字符与部件关系,将字符实例与字符包括的部件实例建立"包含"关系;步骤6:根据步骤2、步骤3、步骤4和步骤5,生成包含完整部件的甲骨文文字的矢量图;步骤7:根据步骤6得到的矢量图表示的最终文字结果,以ttf形式输出现代汉语立定字的字体。2.根据权利要求1所述的甲骨文字体构建方法,其特征在于:所述基于yolov4改进的目标检测模型是通过yolov4网络结构中的主干特征提取网络提取甲骨文图片当中的部件,且主干特征提取网络是通过对yolov4算法中的CSPDarknet53网络用MobileNet网络进行替换
生成的。3.根据权利要求1所述的甲骨文字体构建方法,其特征在于:所述文字结构包括“独体字”,“上下结构”,“左右结构”,“包围结构”,“半包围

左上右下”,“半包围

左下右上”,“左中右结构”,“上中下结构”,“左右结构

上下结构”,“上下结构

左右结构”,“包围结构

上下结构”,“品字结构”,“上下结构

品字结构”和“镶嵌结构”。4.根据权利要求1或3所述的甲骨文字体构建方法,其特征在于:所述文字结构的判别方式如下:1)独体字仅检测到1个部件时,输出文字结构为独体字;2)上下结构文字包括部件A和部件B,部件A和部件B呈上下布置,且部件A位于B部件上方,部件之间满足如下关系:3)左右结构文字包括部件A和部件B,部件A和部件B呈左...

【专利技术属性】
技术研发人员:徐昊吴垒李沿增刁晓蕾史大千
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利