古籍文字处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号：34634600 阅读：14 留言：0更新日期：2022-08-24 15:07

本发明专利技术公开了一种古籍文字处理方法，所述方法包括获取待识别图像；将所述待识别图像输入文字处理模型，其中，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字；根据所述坐标以及所述目标文字生成多个目标文字行；根据所述目标文字行生成所述待识别对应的目标文本内容。本发明专利技术还公开了一种古籍文字处理装置及计算机可读存储介质，实现了在对文字识别的同时精确地各个文字的坐标。个文字的坐标。个文字的坐标。

全部详细技术资料下载

【技术实现步骤摘要】
古籍文字处理方法、装置及计算机可读存储介质

[0001]本专利技术涉及文字识别领域，尤其涉及古籍文字处理方法、装置及计算机可读存储介质。

技术介绍

[0002]随着深度学习的研究与发展，基于计算机视觉的图像文本检测、识别技术在日常生活、商业活动和科学研究中发挥着越来越重要的作用，并取得了不错的进展，从计算机视觉角度看，古籍图片中的文字识别属于OCR(Optical Character Recognition，光学字符识别)领域，随着人工智能的兴起与发展，深度神经网络使得各类计算机视觉领域任务得到很好解决。在OCR方面，目前主流方法是pipeline的方式，即上游检测网络+下游识别网络。以百度的Paddle
‑
OCR为例，检测网络为主干结构(如ResNet，DenseNet，Xception等)结合可微二值化模块(Differentiable Binarization，DB)，通过检测网络输出存在文本的区域(通常为一行或者一列文字)；识别网络为主干网络(如MobileNet)结合卷积循环神经网络结构(Convolutional Recurrent Neural Network，CRNN)，可以输出文字行的对应文本。这种方式仅能将图片划分为若干文字行/列，无法得出每个文字的坐标。
[0003]上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种古籍文字处理方法、装置及计算机可读存储介质，旨在解决无...

【技术保护点】

【技术特征摘要】
1.一种古籍文字处理方法，其特征在于，所述古籍文字处理方法的步骤包括：获取待识别图像；将所述待识别图像输入文字处理模型，其中，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字；根据所述坐标以及所述目标文字生成多个目标文字行；根据所述目标文字行生成所述待识别图像对应的目标文本内容。2.如权利要求1所述的古籍文字处理方法，其特征在于，所述文字处理模型的文字检测模块根据所述待识别图像确定各个待识别字符的坐标的步骤包括：根据所述待识别图像生成包含所述待识别字符的目标文字框；根据各个目标文字框的坐标参数确定各个待识别字符的坐标。3.如权利要求1所述的古籍文字处理方法，其特征在于，所述文字处理模型的文字识别模块根据各个待识别字符的坐标确定各个待识别字符对应的目标文字的步骤包括：根据各个待识别字符对应的坐标将所述待识别图像划分为各个待识别字符对应的目标字符图像；识别出各个目标字符图像分别对应的目标文字。4.如权利要求2所述的古籍文字处理方法，其特征在于，所述坐标包括包含所述目标文字框的左上角坐标值以及右下角坐标值，所述根据所述坐标以及所述目标文字生成多个目标文字行的步骤包括：根据所述左上角坐标值以及所述右下角坐标值确定各个所述目标文字框对应的中心横坐标值；获取各个目标文字框的宽度值，并将最小的宽度值确定为聚类半径；根据所述聚类半径对各个所述中心横坐标值进行DBSCAN聚类，以得到各个所述目标文字行。5.如权利要求1所述的古籍文字处理方法，其特征在于，所述获取待识别图像的步骤之前，还包括：获取第一训练样本以及第二训练样本，其中，所述第一训练样本包括待训练图像中的各个字符的坐标以及所述待训练图像，所述第二训练样本包括待训练图像中的各个字符对应的字符图像以及各个所述字符图像对应的文字；根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练，以生成所述文字处理模型。6.如权利要求5所述的古籍文字处理方法，其特征在于，所述根据所述第一训练样本以及所述第二训练样本分别对预设模型进行训练的步骤包括：将...

【专利技术属性】
技术研发人员：杨喆，翟建峰，杨瑞兴，薛鹏，
申请(专利权)人：上海迥灵信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人