古籍文字处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号:34634600 阅读:14 留言:0更新日期:2022-08-24 15:07
本发明专利技术公开了一种古籍文字处理方法,所述方法包括获取待识别图像;将所述待识别图像输入文字处理模型,其中,所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标,所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字;根据所述坐标以及所述目标文字生成多个目标文字行;根据所述目标文字行生成所述待识别对应的目标文本内容。本发明专利技术还公开了一种古籍文字处理装置及计算机可读存储介质,实现了在对文字识别的同时精确地各个文字的坐标。个文字的坐标。个文字的坐标。

【技术实现步骤摘要】
古籍文字处理方法、装置及计算机可读存储介质


[0001]本专利技术涉及文字识别领域,尤其涉及古籍文字处理方法、装置及计算机可读存储介质。

技术介绍

[0002]随着深度学习的研究与发展,基于计算机视觉的图像文本检测、识别技术在日常生活、商业活动和科学研究中发挥着越来越重要的作用,并取得了不错的进展,从计算机视觉角度看,古籍图片中的文字识别属于OCR(Optical Character Recognition,光学字符识别)领域,随着人工智能的兴起与发展,深度神经网络使得各类计算机视觉领域任务得到很好解决。在OCR方面,目前主流方法是pipeline的方式,即上游检测网络+下游识别网络。以百度的Paddle

OCR为例,检测网络为主干结构(如ResNet,DenseNet,Xception等)结合可微二值化模块(Differentiable Binarization,DB),通过检测网络输出存在文本的区域(通常为一行或者一列文字);识别网络为主干网络(如MobileNet)结合卷积循环神经网络结构(Convolutional Recurrent Neural Network,CRNN),可以输出文字行的对应文本。这种方式仅能将图片划分为若干文字行/列,无法得出每个文字的坐标。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种古籍文字处理方法、装置及计算机可读存储介质,旨在解决无法得到图像文本中各个文字的坐标的问题。
[0005]为实现上述目的,本专利技术提供一种古籍文字处理方法,所述古籍文字处理方法的步骤包括:
[0006]获取待识别图像;
[0007]将所述待识别图像输入文字处理模型,其中,所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标,所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字;
[0008]根据所述坐标以及所述目标文字生成多个目标文字行;
[0009]根据所述目标文字行生成所述待识别对应的目标文本内容。
[0010]可选地,所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标的步骤包括:
[0011]根据所述待识别图像生成包含所述待识别字符的目标文字框;
[0012]根据各个目标文字框的坐标参数确定各个待识别字符的坐标。
[0013]可选地,所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字的步骤包括:
[0014]根据各个待识别字符对应的坐标将所述待识别图像划分为各个待识别字符对应
的字符图像;
[0015]识别出各个字符图像分别对应的目标文字。
[0016]可选地,所述坐标包括包含所述目标文字框的左上角坐标值以及右下角坐标值,所述根据所述坐标以及所述目标文字生成多个目标文字行的步骤包括:
[0017]根据所述左上角坐标值以及所述右下角坐标值确定各个所述目标文字框对应的中心横坐标值;
[0018]获取各个目标文字框的宽度值,并将最小的宽度值确定为聚类半径;
[0019]根据所述聚类半径对各个所述中心横坐标值进行DBSCAN聚类,以得到各个所述目标文字行。
[0020]可选地,所述获取待识别图像的步骤之前,还包括:
[0021]获取第一训练样本以及第二训练样本,其中,所述第一训练样本包括待训练图像中的各个字符的坐标以及所述待训练图像,所述第二训练样本包括待训练图像中的各个字符对应的字符图像以及各个所述字符图像对应的文字;
[0022]根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练,以生成所述文字处理模型。
[0023]可选地,所述根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练的步骤包括:
[0024]将所述第一训练样本输入至YOLOV5模型进行训练,以生成所述文字处理模型中的文字检测模块;
[0025]将所述第二训练样本输入至Efficient

net

b7模型进行训练,以生成所述文字处理模型中的文字识别模块。
[0026]可选地,获取所述第一训练样本的步骤包括以下至少一项:
[0027]获取原始古籍图像,并截取所述原始古籍图像中的背景图像,获取文字数据库中的待训练字符,确定各个待训练字符的坐标,根据所述坐标将各个所述待训练字符以预设方式粘贴于所述背景图像,并将粘贴后的所述背景图像确定为所述第一训练样本中的待训练图像,并根据各个待训练字符的坐标确定所述第一训练样本中的待训练图像中的各个字符的坐标;
[0028]获取所述原始古籍图像中的原始字符,确定所述原始字符分别对应的坐标,根据所述坐标将所述原始字符以预设方式粘贴于所述背景图像,并将粘贴后的所述背景图像确定为第一训练样本中的所述待训练图像,并根据所述原始字符分别对应的坐标确定第一训练样本中的所述待训练图像中的各个字符的坐标。
[0029]可选地,获取所述第二训练样本的步骤包括:
[0030]将待训练图像输入至所述文字检测模块,以得到所述待训练图像中的各个字符的字符坐标;
[0031]根据所述字符坐标确定所述待训练图像中的每一文字行的行坐标;
[0032]根据所述行坐标以及所述字符坐标确定所述待训练图像中每一文字行中的字符;
[0033]根据所述字符对所述待训练图像进行分割,以生成所述待训练图像中各个字符对应的字符图像;
[0034]将各个字符图像以及各个字符图像对应的文字确定为所述第二训练样本。
[0035]此外,为实现上述目的,本专利技术还提供一种古籍文字处理装置,所述古籍文字处理装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的古籍文字处理程序,所述古籍文字处理程序被所述处理器执行时实现如上所述的古籍文字处理方法的步骤。
[0036]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有古籍文字处理程序,所述古籍文字处理程序被所述处理器执行时实现如上所述的古籍文字处理方法的步骤。
[0037]本专利技术实施例提出的一种古籍文字处理方法、装置及计算机可读存储介质,在获取待识别图像时,将所述待识别图像输入文字处理模型,通过所述文字处理模型中的文字检测模块确定所述待识别图像中各个待识别字符的坐标,进而通过所述文字处理模型中的文字识别模块根据所述坐标确定各个待识别字符对应的目标文字,在确定各个待识别字符的坐标以及目标文字后,根据所述坐标以及所述目标文字生成多个目标文字行,根据各个目标文字行生成所述待识别图像对应的目标文本内容,通过在文字处理模型上设置文字检测模块,实现了识别文字坐标的技术效果。
附图说明
[0038]图1是本专利技术实施例方案涉及的硬件运行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种古籍文字处理方法,其特征在于,所述古籍文字处理方法的步骤包括:获取待识别图像;将所述待识别图像输入文字处理模型,其中,所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标,所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字;根据所述坐标以及所述目标文字生成多个目标文字行;根据所述目标文字行生成所述待识别图像对应的目标文本内容。2.如权利要求1所述的古籍文字处理方法,其特征在于,所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标的步骤包括:根据所述待识别图像生成包含所述待识别字符的目标文字框;根据各个目标文字框的坐标参数确定各个待识别字符的坐标。3.如权利要求1所述的古籍文字处理方法,其特征在于,所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字的步骤包括:根据各个待识别字符对应的坐标将所述待识别图像划分为各个待识别字符对应的目标字符图像;识别出各个目标字符图像分别对应的目标文字。4.如权利要求2所述的古籍文字处理方法,其特征在于,所述坐标包括包含所述目标文字框的左上角坐标值以及右下角坐标值,所述根据所述坐标以及所述目标文字生成多个目标文字行的步骤包括:根据所述左上角坐标值以及所述右下角坐标值确定各个所述目标文字框对应的中心横坐标值;获取各个目标文字框的宽度值,并将最小的宽度值确定为聚类半径;根据所述聚类半径对各个所述中心横坐标值进行DBSCAN聚类,以得到各个所述目标文字行。5.如权利要求1所述的古籍文字处理方法,其特征在于,所述获取待识别图像的步骤之前,还包括:获取第一训练样本以及第二训练样本,其中,所述第一训练样本包括待训练图像中的各个字符的坐标以及所述待训练图像,所述第二训练样本包括待训练图像中的各个字符对应的字符图像以及各个所述字符图像对应的文字;根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练,以生成所述文字处理模型。6.如权利要求5所述的古籍文字处理方法,其特征在于,所述根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练的步骤包括:将...

【专利技术属性】
技术研发人员:杨喆翟建峰杨瑞兴薛鹏
申请(专利权)人:上海迥灵信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1