甲骨文字识别模型及训练方法、系统、设备、计算机介质技术方案

技术编号:21344347 阅读:43 留言:0更新日期:2019-06-13 22:47
本申请公开了一种甲骨文字识别模型及训练方法、系统、设备及计算机介质,该方法包括获取甲骨文图文数据集,将甲骨文图文数据集划分为训练集和测试集;基于训练集和测试集对甲骨文字识别模型进行训练,得到训练好的甲骨文字识别模型,以基于训练好的甲骨文字识别模型对目标甲骨文字进行识别;其中,甲骨文字识别模型包括:第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层,第三全连接层;且第一卷积层的卷积核尺寸大于11×11。本申请提供的甲骨文字识别模型可以自动对目标甲骨文字进行识别,提高了甲骨文字识别的识别效率。

Oracle Bone Character Recognition Model and Training Method, System, Equipment and Computer Media

This application discloses an Oracle character recognition model and its training method, system, equipment and computer media. The method includes acquiring Oracle character data set, dividing Oracle character data set into training set and test set, training Oracle character recognition model based on training set and test set, and obtaining a trained Oracle character recognition model based on the trained Oracle character data set. Bone character recognition model recognizes target Oracle characters, which includes: the first convolution layer, the first largest pooling layer, the second convolution layer, the second largest pooling layer, the third convolution layer, the fourth convolution layer, the fifth convolution layer, the third largest pooling layer, the first full connection layer, the second full connection layer and the third full connection layer. The size of the core is larger than 11 *11. The oracle-bone character recognition model provided in this application can automatically recognize the target oracle-bone character, which improves the recognition efficiency of oracle-bone character recognition.

【技术实现步骤摘要】
甲骨文字识别模型及训练方法、系统、设备、计算机介质
本申请涉及卷积神经网络模型
,更具体地说,涉及甲骨文字识别模型及训练方法、系统、设备、计算机介质。
技术介绍
甲骨文字作为古文字还未进入国家标准,也未进入国际标准,所以甲骨文字在出版物上是以图片出现,这位甲骨文字的检索带来了困难。为了检索甲骨文字,现有的甲骨文字识别方法包括基于SVM(SupportVectorMachine,支持向量机)的甲骨文字识别和基于分形几何的甲骨文字识别方法。然而,基于SVM的甲骨文字识别需要采用分块直方图的方式,即手工提取的方式,来提取文字特征;而基于分形几何的甲骨文字识别方法利用分形几何的原理,通过计算字形以及各个象限的分形维数,将甲骨文字形式化为一组分形描述码,再通过与甲骨文字的分形特征库进行配准,得到识别结果,其同样需要人工干预过程。也即,现有的基于SVM的甲骨文字识别和基于分形几何的甲骨文字识别方法均需要人工参与,识别效率较低。综上所述,如何提高甲骨文字识别的识别效率是目前本领域技术人员亟待解决的问题。
技术实现思路
本申请的目的是提供一种甲骨文字识别模型训练方法,其能在一定程度上解决如何提高甲骨文字识别的识别效率的技术问题。本申请还提供了一种甲骨文字识别模型及训练系统、设备及计算机可读存储介质。为了实现上述目的,本申请提供如下技术方案:一种甲骨文字识别模型训练方法,包括:获取甲骨文图文数据集,在所述甲骨文图文数据集中划分出训练集;基于所述训练集对所述甲骨文字识别模型进行训练,得到训练好的甲骨文字识别模型,以基于所述训练好的甲骨文字识别模型对目标甲骨文字进行识别;其中,所述甲骨文字识别模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层;且所述第一卷积层的卷积核尺寸大于11×11。优选的,所述在所述甲骨文图文数据集中划分出训练集之后,所述基于所述训练集对所述甲骨文字识别模型进行训练之前,还包括:基于所述训练集对所述甲骨文字识别模型对应的浅层模型进行训练,得到训练好的浅层模型;将所述训练好的浅层模型的权值作为所述甲骨文字识别模型的初始权值;其中,所述浅层模型包括依次连接的所述第一卷积层、所述第二卷积层、所述第三卷积层、所述第一最大池化层、所述第二最大池化层、所述第三最大池化层、所述第一全连接层、所述第二全连接层和所述第三全连接层。优选的,所述获取甲骨文图文数据集,在所述甲骨文图文数据集中划分出训练集,包括:获取所述甲骨文图文数据集;将所述甲骨文图文数据集中的原始图像像素变换为256×256,得到第一变换图像;分别在所述第一变换图像、所述第一变换图像对应的水平翻转图像中,抽取5个225×225切片,得到第二变换图像;在所述第二变换图像中划分出所述训练集。优选的,所述在所述第二变换图像中划分出所述训练集,包括:将所述第二变换图像进行旋转,得到第三变换图像;在所述第三变换图像中划分出所述训练集。优选的,所述基于所述训练集对所述甲骨文字识别模型进行训练,得到训练好的甲骨文字识别模型的过程中,包括:采用0.55的随机失活率对所述第一全连接层和所述第二全连接层进行随机失活正则化处理。一种甲骨文字识别模型,用于对目标甲骨文字进行识别,包括:依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层;所述第一卷积层用于接收所述目标甲骨文字,且所述第一卷积层的卷积核尺寸大于11×11。优选的,所述第一卷积层的卷积核数目为64、所述第二卷积层的卷积核数目为128、所述第三卷积层的卷积核数目为256、所述第四卷积层的卷积核数目为256、所述第五卷积层的卷积核数目为256。优选的,所述第一卷积层的卷积核尺寸为15×15,步长为3;所述第二卷积层的卷积核尺寸为5×5,步长为1,填充方式为same填充;所述第三卷积层、所述第四卷积层和所述第五卷积层的卷积核尺寸为3×3,步长为1,填充方式为所述same填充。优选的,所述第一最大池化层、所述第二最大池化层和所述第三最大池化层的滤波器尺寸为3×3,步长为2。一种甲骨文字识别模型训练系统,包括:第一获取模块,用于获取甲骨文图文数据集,在所述甲骨文图文数据集中划分出训练集;第一训练模块,用于基于所述训练集对所述甲骨文字识别模型进行训练,得到训练好的甲骨文字识别模型,以基于所述训练好的甲骨文字识别模型对目标甲骨文字进行识别;其中,所述甲骨文字识别模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层;且所述第一卷积层的卷积核尺寸大于11×11。本申请提供的一种甲骨文字识别模型训练方法,获取甲骨文图文数据集,在甲骨文图文数据集中划分出训练集;基于训练集对甲骨文字识别模型进行训练,得到训练好的甲骨文字识别模型,以基于训练好的甲骨文字识别模型对目标甲骨文字进行识别;其中,甲骨文字识别模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层;且第一卷积层的卷积核尺寸大于11×11。由甲骨文字识别模型的描述可知,本申请提供的甲骨文字识别模型的类型为卷积神经网络模型,所以甲骨文字识别模型训练完成后,便可以借助甲骨文字识别模型自动对目标甲骨文字进行识别,而无需人工参与,提高了甲骨文字识别的识别效率。本申请提供的一种甲骨文字识别模型及训练系统、设备及计算机可读存储介质也解决了相应技术问题。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的一种甲骨文字识别模型训练方法的第一流程图;图2为本申请实施例提供的一种甲骨文字识别模型训练方法的第二流程图;图3为本申请实施例提供的一种甲骨文字识别模型训练系统的结构示意图;图4为本申请实施例提供的一种甲骨文字识别模型训练设备的结构示意图;图5为本申请实施例提供的一种甲骨文字识别模型训练设备的另一结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请参阅图1,图1为本申请实施例提供的一种甲骨文字识别模型训练方法的第一流程图。本申请实施例提供的一种甲骨文字识别模型训练方法,可以包括以下步骤:步骤S101:获取甲骨文图文数据集,在甲骨文图文数据集中划分出训练集。实际应用中,可以先获取甲骨文图文数据集,甲骨文图文数据集中包括原始甲骨文字及对应的识别结果。具体的可以先收集并建立甲骨文图文资料库本文档来自技高网...

【技术保护点】
1.一种甲骨文字识别模型训练方法,其特征在于,包括:获取甲骨文图文数据集,在所述甲骨文图文数据集中划分出训练集;基于所述训练集对所述甲骨文字识别模型进行训练,得到训练好的甲骨文字识别模型,以基于所述训练好的甲骨文字识别模型对目标甲骨文字进行识别;其中,所述甲骨文字识别模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层;且所述第一卷积层的卷积核尺寸大于11×11。

【技术特征摘要】
1.一种甲骨文字识别模型训练方法,其特征在于,包括:获取甲骨文图文数据集,在所述甲骨文图文数据集中划分出训练集;基于所述训练集对所述甲骨文字识别模型进行训练,得到训练好的甲骨文字识别模型,以基于所述训练好的甲骨文字识别模型对目标甲骨文字进行识别;其中,所述甲骨文字识别模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层;且所述第一卷积层的卷积核尺寸大于11×11。2.根据权利要求1所述的方法,其特征在于,所述在所述甲骨文图文数据集中划分出训练集之后,所述基于所述训练集对所述甲骨文字识别模型进行训练之前,还包括:基于所述训练集对所述甲骨文字识别模型对应的浅层模型进行训练,得到训练好的浅层模型;将所述训练好的浅层模型的权值作为所述甲骨文字识别模型的初始权值;其中,所述浅层模型包括依次连接的所述第一卷积层、所述第二卷积层、所述第三卷积层、所述第一最大池化层、所述第二最大池化层、所述第三最大池化层、所述第一全连接层、所述第二全连接层和所述第三全连接层。3.根据权利要求1或2所述的方法,其特征在于,所述获取甲骨文图文数据集,在所述甲骨文图文数据集中划分出训练集,包括:获取所述甲骨文图文数据集;将所述甲骨文图文数据集中的原始图像像素变换为256×256,得到第一变换图像;分别在所述第一变换图像、所述第一变换图像对应的水平翻转图像中,抽取5个225×225切片,得到第二变换图像;在所述第二变换图像中划分出所述训练集。4.根据权利要求3所述的方法,其特征在于,所述在所述第二变换图像中划分出所述训练集,包括:将所述第二变换图像进行旋转,得到第三变换图像;在所述第三变换图像中划分出所述训练集。5.根据权利要求1或2所述的方法,其特征在于,所述基于所述训练集对所述甲骨文字识别模型进行训练,得到训...

【专利技术属性】
技术研发人员:陈锐吴宗泽任志刚
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1