一种应用于藏文古籍多字体文字识别的训练数据合成方法技术

技术编号：38661868 阅读：20 留言：0更新日期：2023-09-02 22:44

本发明专利技术公开了一种应用于藏文古籍多字体文字识别的训练数据合成方法，属于藏文识别技术领域，包括以下步骤：采集多字体藏文古籍文献扫描图片，并分析其字体及版式特征；提取原始藏文古籍扫描图片的文字、版式及背景等特征，并通过简单的几何变换生成用于模型训练的初始数据集，通过藏文古籍版式及标注规则，对初始数据集进行人工标注；基于藏文古籍文献文字的字体，生成具有多字体、复杂背景及文字倾斜等特征的合成训练数据；构建用于藏文古籍识别的藏文字丁集；通过藏文古籍文献真实标注图片及计算机自动合成的伪数据一定比例的融合，并生成用于深度神经网络模型训练的数据集；本发明专利技术解决了由于藏文古籍文献多字体文字识别缺乏训练数据的问题。缺乏训练数据的问题。缺乏训练数据的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于藏文古籍多字体文字识别的训练数据合成方法

[0001]本专利技术涉及藏文识别
，具体而言，涉及一种应用于藏文古籍多字体文字识别的训练数据合成方法。

技术介绍

[0002]藏文是藏族文化的重要载体，历史以来用藏文出版的各种书籍的量仅次于汉文，是中国文化的宝藏，具有重要的人文科学研究及应用价值。我国的藏文古籍文献主要以传统木刻本、手写本或石碑雕刻等方式存储于纸介质和其他实物介质中，难以利用现代计算机网络广泛、快捷、经济地传播和共享。
[0003]藏文古籍文献资源数字化保护和利用是国内外文献数字化领域的一个研究热点，然而受制于藏文古籍文字识别训练数据集严重缺乏等问题，导致藏文古籍文献文字识别技术缺乏数据支撑。从而，很多珍贵文献、易破损的纸质文献无法实现数字化。藏文古籍文献文字识别数据集是藏文古籍文字识别技术研发的重要数据保障，直接影响识别系统的性能。为此，藏文古籍文字识别训练数据集的构建研究尤为重要，在大数据时代背景下，随着深度学习技术的突破以及处理器计算性能的大幅提升，深度学习在文字识别研究领域中得到了广泛的应用，在英文、法文以及中文等识别方面取得了显著成效。然而，基于深度学习的藏文古籍文字识别由于缺乏训练数据而导致模型泛化能力薄弱，无法实现藏文古籍文献的高质量文字识别。因此，目前的研究方法大多都只能停留在传统的方法之上，远远不能满足藏文古籍文献数字化保护和利用的需求，亟待研发高精度、高识别率、高性能的数字化技术。
[0004]现有技术中，使用的核心识别算法绝大多数都是传统的模式分类方法。...

【技术保护点】

【技术特征摘要】
1.一种应用于藏文古籍多字体文字识别的训练数据合成方法，其特征在于，包括以下步骤：采集具有藏文古籍多字体文字的文字图片，以具有八个字丁单位的矩形框，对所述文字图片文字进行特征提取，生成用于模型训练的初始数据集；基于所述初始数据集，通过获取所述文字图片的板式特征，对所述初始数据集进行一次标注；基于所述藏文古籍多字体文字的字体，对进行一次标注后的所述初始数据集进行二次标注；基于构成藏文的字丁，对进行二次标注后的所述初始数据集进行三次标注，生成用于模型训练的目标数据集，其中，所述目标数据集用于对深度神经网络模型训练，构建用于识别藏文古籍多字体文字的模型。2.根据权利要求1所述一种应用于藏文古籍多字体文字识别的训练数据合成方法，其特征在于：在获取初始数据集的过程中，基于所述矩形框，选择所述藏文古籍多字体文字的纵向的八个字丁单位，判断所述八个字丁单位的最后一个字符的下一个字符是否为藏文音节分隔符或藏文分句符，若是，则根据所述矩形框选中的所述藏文古籍多字体文字，生成所述初始数据集；若否，则根据第八个字符自右向左找到相邻的藏文音节分隔符或藏文分句符作为当前的结束位置，生成所述初始数据集。3.根据权利要求2所述一种应用于藏文古籍多字体文字识别的训练数据合成方法，其特征在于：在生成初始数据集的过程中，基于所述矩形框，选择所述藏文古籍多字体文字的纵向的八个字丁单位，判断所述八个字丁单位中是否存在空白位置，若存在，则以空白位置的左侧为当前的所述矩形框的结束位置。4.根据权利要求3所述一种应用于藏文古籍多字体文字识别的训练数据合成方法，其特征在于：在对初始数据集进行一次标注的过程中，根据所述藏文古籍多字体文字的所述版式特征，对所述初始数据进行一次标注，其中，训练好的所述深度神经网络模型，通过获取待识别图像的所述排放方向，对所述...

【专利技术属性】
技术研发人员：仁青东主，尼玛扎西，道吉扎西，仁增多杰，拥措，
申请(专利权)人：西藏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人