当前位置: 首页 > 专利查询>西藏大学专利>正文

一种应用于藏文古籍多字体文字识别的训练数据合成方法技术

技术编号:38661868 阅读:20 留言:0更新日期:2023-09-02 22:44
本发明专利技术公开了一种应用于藏文古籍多字体文字识别的训练数据合成方法,属于藏文识别技术领域,包括以下步骤:采集多字体藏文古籍文献扫描图片,并分析其字体及版式特征;提取原始藏文古籍扫描图片的文字、版式及背景等特征,并通过简单的几何变换生成用于模型训练的初始数据集,通过藏文古籍版式及标注规则,对初始数据集进行人工标注;基于藏文古籍文献文字的字体,生成具有多字体、复杂背景及文字倾斜等特征的合成训练数据;构建用于藏文古籍识别的藏文字丁集;通过藏文古籍文献真实标注图片及计算机自动合成的伪数据一定比例的融合,并生成用于深度神经网络模型训练的数据集;本发明专利技术解决了由于藏文古籍文献多字体文字识别缺乏训练数据的问题。缺乏训练数据的问题。缺乏训练数据的问题。

【技术实现步骤摘要】
一种应用于藏文古籍多字体文字识别的训练数据合成方法


[0001]本专利技术涉及藏文识别
,具体而言,涉及一种应用于藏文古籍多字体文字识别的训练数据合成方法。

技术介绍

[0002]藏文是藏族文化的重要载体,历史以来用藏文出版的各种书籍的量仅次于汉文,是中国文化的宝藏,具有重要的人文科学研究及应用价值。我国的藏文古籍文献主要以传统木刻本、手写本或石碑雕刻等方式存储于纸介质和其他实物介质中,难以利用现代计算机网络广泛、快捷、经济地传播和共享。
[0003]藏文古籍文献资源数字化保护和利用是国内外文献数字化领域的一个研究热点,然而受制于藏文古籍文字识别训练数据集严重缺乏等问题,导致藏文古籍文献文字识别技术缺乏数据支撑。从而,很多珍贵文献、易破损的纸质文献无法实现数字化。藏文古籍文献文字识别数据集是藏文古籍文字识别技术研发的重要数据保障,直接影响识别系统的性能。为此,藏文古籍文字识别训练数据集的构建研究尤为重要,在大数据时代背景下,随着深度学习技术的突破以及处理器计算性能的大幅提升,深度学习在文字识别研究领域中得到了广泛的应用,在英文、法文以及中文等识别方面取得了显著成效。然而,基于深度学习的藏文古籍文字识别由于缺乏训练数据而导致模型泛化能力薄弱,无法实现藏文古籍文献的高质量文字识别。因此,目前的研究方法大多都只能停留在传统的方法之上,远远不能满足藏文古籍文献数字化保护和利用的需求,亟待研发高精度、高识别率、高性能的数字化技术。
[0004]现有技术中,使用的核心识别算法绝大多数都是传统的模式分类方法。也就是根据藏文文字的特点,在单字符图像归一化、特征提取和分类器选择等阶段采取特定的方法,使得单字符的识别准确率达到较高水平,但是这些技术仅适用于图像质量比较好,字符之间基本没有粘连的现代印刷体藏文识别。传统OCR方法一般首先定位文本行,然后再识别其中的每个字符,存在切分错误而导致影响字符识别性能的缺陷,并且单字符识别无法获取上下文信息。通常需要查找所有可能是切点的位置,然后将所有可能的切分点发送到单字符识别模块,并通过在每个切分间进行动态规划找到合适的路径来确定切分的结果。在最佳路径选择的搜索过程中,还必须结合文本外观的统计特性,在某些情况下还必须结合语言模型。从目前已有的技术来看,国内外藏文文字识别技术还停留传统的方法上,没有将藏文语言结构及文字构成规律应用于识别技术研究,识别的精度不高,泛化能力薄弱,亟待研发高精度、高识别率、高性能的数字化技术。
[0005]
技术实现思路

[0006]为了解决上述问题,本专利技术的目的是提供一种应用于藏文古籍多字体文字识别的训练数据合成方法,通过分析藏文古籍文字特征与版式特征,采用人工构建与合成构建相
结合的方法建成大量的藏文古籍训练数据集,从而提高藏文古籍文字识别的准确率与泛化能力。
[0007]为了实现上述技术目的,本申请提供了一种应用于藏文古籍多字体文字识别的训练数据合成方法,包括以下步骤:
[0008]采集具有藏文古籍多字体文字的文字图片,以具有八个字丁单位的矩形框,对文字图片文字进行特征提取,生成用于模型训练的初始数据集;
[0009]基于初始数据集,通过获取文字图片的板式特征,对初始数据集进行一次标注;
[0010]基于藏文古籍多字体文字的字体,对进行一次标注后的初始数据集进行二次标注;
[0011]基于构成藏文的字丁,对进行二次标注后的初始数据集进行三次标注,生成用于模型训练的目标数据集,其中,目标数据集用于对深度神经网络模型训练,构建用于识别藏文古籍多字体文字的模型。
[0012]优选地,在获取初始数据集的过程中,基于矩形框,选择藏文古籍多字体文字的纵向的八个字丁单位,判断八个字丁单位的最后一个字符的下一个字符是否为藏文音节分隔符或藏文分句符,若是,则根据矩形框选中的藏文古籍多字体文字,生成初始数据集;若否,则根据第八个字符自右向左找到相邻的藏文音节分隔符或藏文分句符作为当前的结束位置,生成初始数据集。
[0013]优选地,在生成初始数据集的过程中,基于矩形框,选择藏文古籍多字体文字的纵向的八个字丁单位,判断八个字丁单位中是否存在空白位置,若存在,则以空白位置的左侧为当前的矩形框的结束位置。
[0014]优选地,在对初始数据集进行一次标注的过程中,根据藏文古籍多字体文字的版式特征,对初始数据进行一次标注,其中,训练好的深度神经网络模型,通过获取待识别图像的排放方向,对待识别图像中的藏文古籍多字体文字进行识别。
[0015]优选地,在对初始数据集进行二次标注的过程中,提取文字图片的背景特征,将字体添加到背景特征中,并对字体进行处理后,生成用于文字识别的样本库,通过样本库对初始数据集进行二次标注,其中,字体,包括:乌金苏通体、乌金萨钦体和乌金萨琼体。
[0016]优选地,在生成样本库的过程中,对字体的处理方法包括:对文字进行倾斜、变形、模糊处理中的一种或多种组合。
[0017]优选地,在获取字丁的过程中,根据藏文的上加字、基字、下加字、元音进行纵向拼写构成的纵向组合字符,生成字丁,其中,藏文的拼写顺序是前加字、上加字、基字、下加字、元音、后加字、再后加字。
[0018]优选地,用于实现训练数据合成方法的训练数据合成系统,包括:
[0019]数据采集模块,用于采集具有藏文古籍多字体文字的文字图片;
[0020]数据处理模块,用于根据文字图片,具有八个字丁单位的矩形框,进行特征提取,生成用于模型训练的初始数据集
[0021]数据标注模块,用于基于初始数据集,通过获取文字图片的版式特征,对初始数据集进行一次标注;通过获取藏文古籍多字体文字的字体,对进行一次标注后的初始数据集进行二次标注;通过获取构成藏文的字丁,对进行二次标注后的初始数据集进行三次标注,生成用于模型训练的目标数据集,其中,目标数据集用于对深度神经网络模型训练,构建用
于识别藏文古籍多字体文字的模型。
[0022]本专利技术公开了以下技术效果:
[0023]本专利技术通过分析藏文古籍文献文字及版式特点,制定适合藏文古籍文献文字识别的图像标注方法,并通过数据增强技术与扩充藏文古籍文献文字识别训练数据的方法,解决了由于藏文古籍文献文字识别缺乏训练数据的问题。
附图说明
[0024]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本专利技术所述的分隔符或分句符为结尾时的标注;
[0026]图2是本专利技术所述的非分隔符或分句符为结尾时的标注;
[0027]图3是本专利技术所述的字符中间存在较大的空白时的标注;
[0028]图4是本专利技术所述的横向排版的文本位置编号;
[0029]图5是本专利技术所述的纵向排版的文本位置编号;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于藏文古籍多字体文字识别的训练数据合成方法,其特征在于,包括以下步骤:采集具有藏文古籍多字体文字的文字图片,以具有八个字丁单位的矩形框,对所述文字图片文字进行特征提取,生成用于模型训练的初始数据集;基于所述初始数据集,通过获取所述文字图片的板式特征,对所述初始数据集进行一次标注;基于所述藏文古籍多字体文字的字体,对进行一次标注后的所述初始数据集进行二次标注;基于构成藏文的字丁,对进行二次标注后的所述初始数据集进行三次标注,生成用于模型训练的目标数据集,其中,所述目标数据集用于对深度神经网络模型训练,构建用于识别藏文古籍多字体文字的模型。2.根据权利要求1所述一种应用于藏文古籍多字体文字识别的训练数据合成方法,其特征在于:在获取初始数据集的过程中,基于所述矩形框,选择所述藏文古籍多字体文字的纵向的八个字丁单位,判断所述八个字丁单位的最后一个字符的下一个字符是否为藏文音节分隔符或藏文分句符,若是,则根据所述矩形框选中的所述藏文古籍多字体文字,生成所述初始数据集;若否,则根据第八个字符自右向左找到相邻的藏文音节分隔符或藏文分句符作为当前的结束位置,生成所述初始数据集。3.根据权利要求2所述一种应用于藏文古籍多字体文字识别的训练数据合成方法,其特征在于:在生成初始数据集的过程中,基于所述矩形框,选择所述藏文古籍多字体文字的纵向的八个字丁单位,判断所述八个字丁单位中是否存在空白位置,若存在,则以空白位置的左侧为当前的所述矩形框的结束位置。4.根据权利要求3所述一种应用于藏文古籍多字体文字识别的训练数据合成方法,其特征在于:在对初始数据集进行一次标注的过程中,根据所述藏文古籍多字体文字的所述版式特征,对所述初始数据进行一次标注,其中,训练好的所述深度神经网络模型,通过获取待识别图像的所述排放方向,对所述...

【专利技术属性】
技术研发人员:仁青东主尼玛扎西道吉扎西仁增多杰拥措
申请(专利权)人:西藏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1