本发明专利技术公开了一种基于动态特征选择的结构化图片内容识别方法,其特点是采用动态特征选择机制,从大尺寸特征图中选择部分有用的特征向量以去除特征图中的冗余特征,对其进行动态偏移,并将相对位置编码和位置环境信息引入到空间关系编码器中,提取更复杂的字符空间关系,具体包括:1)细粒度视觉特征提取;2)动态特征选择;3)空间关系提取;4)文本解码;5)模型训练等步骤。本发明专利技术与现有技术相比具有方法简便,准确率高,不但减小了空间关系编码器的计算开销,还增强了模型的泛化能力,进一步提升了结构化图像内容识别的准确,应用前景良好。应用前景良好。应用前景良好。
【技术实现步骤摘要】
一种基于动态特征提取的结构化图片内容识别方法
[0001]本专利技术涉及计算机图片文本识别
,尤其是一种基于动态特征提取的结构化图片内容识别方法。
技术介绍
[0002]结构化图片内容识别是指将数学公式、化学公式、乐谱等结构化图片的内容转换成文本序列,以便于对其进行编辑、检索等操作。在个性化推荐、音乐检索、自动解题等人工智能场景中具有广泛的应用。结构化图片内容识别相比于传统的文本识别更具挑战,因为它不仅需要从图片中确定所有的字符,还需要判断图片中所有字符之间的空间关系。
[0003]最近,基于深度学习的编码器
‑
解码器模型被大量用于解决结构化图片内容识别问题。这些方法大体包括三个模块:抽取输入图片语义特征的视觉编码器(卷积神经网络)、提取字符之间空间关系的空间关系编码器和用来预测输出序列的文本解码器(循环神经网络)。与非深度学习方法相比,编码器
‑
解码器模型在结构化图片内容识别问题中的准确率取得了一定提升,但依然具有如下问题:
[0004]1)结构化图片内容识别需要细粒度的视觉特征,通常情况下,绝大多数模型会使用一个带有小感受野的卷积神经网络对输入图片进行编码。然而,这会产生一个大尺寸的特征图,为空间关系编码器带来了巨大的计算开销。尤其是对于带有复杂操作的空间关系编码器来说,计算量往往是不能承受的。针对这一问题,现有方法中有两种解决方案。一种方法是简化位置特征的提取。在Deng等人提出的模型中,通过只考虑同一行内的字符空间关系来降低空间关系编码器的计算开销。然而这种方法忽略了跨行之间的字符空间关系,降低了识别准确率。另一种方法是在保留细粒度特征的同时,尽可能减小视觉编码器特征图的尺寸。Fu等人使用了基于连通域的字符切割算法提取输入图片的字符级特征,与其他方法相比,降低了视觉编码器的特征数量。但对于背景复杂的结构化图片(如乐谱),连通域分割算法不能正常工作,识别性能显著降低。
[0005]2)结构化图片有着非常丰富的空间位置信息,对于图片中的字符,除了在整张图片中的绝对位置之外,还存在着字符与字符之间的相对位置。对于结构化图片内容识别而言,相对位置信息比绝对位置信息更容易推断出字符的空间语义。在现有的结构化图片内容识别方法中,空间关系编码器只使用了绝对位置信息,几乎没有考虑字符之间的相对位置。此外,和一维文本序列不同,二维空间中字符的排列不是紧密相连的,对于一个字符而言,周围是否存在其他字符的位置环境信息也没有被考虑。
技术实现思路
[0006]本专利技术的目的是针对现有技术的不足而设计的一种基于动态特征提取的结构化图片内容识别方法,采用动态特征选择机制,从大尺寸特征图中选择部分有用的特征向量以减少特征数目,去掉特征图中的冗余特征,然后对其进行动态偏移以增强模型的泛化能力,将相对位置编码和位置环境信息引入到空间关系编码器中,提取到了更复杂的字符空
间关系,进一步提升了结构化图像内容识别的准确率,在没有明显增加计算开销的基础上,大大提高了模型对结构化图片中复杂空间关系的获取能力,方法简便,准确率高,具有良好且广泛的应用前景。
[0007]本专利技术的目的是这样实现的:一种基于动态特征提取的结构化图片内容识别方法,其特点是采用动态特征选择机制,从大尺寸特征图中选择部分有用的特征向量以去除特征图中的冗余特征,对其进行动态偏移,并将相对位置编码和位置环境信息引入到空间关系编码器中,提取更复杂的字符空间关系,结构化图片内容的识别具体包括如下步骤:
[0008]1)细粒度视觉特征提取:使用小感受野的卷积神经网络提取输入结构化图像的细粒度视觉特征,计算特征图中特征向量的绝对位置编码,将绝对位置编码与细粒度视觉特征进行融合。
[0009]2)动态特征选择:使用神经网络判断细粒度视觉特征中每一个特征向量代表的字符类型。定义可用于进行特征选择的损失函数,设定选择特征的比例参数,确定特征图中有效特征的坐标。定义动态偏移分布,将被选择的坐标根据分布进行动态偏移,得到最终的特征向量。
[0010]3)空间关系提取:在被选择的特征中,计算每一对特征向量在完整特征图中的相对位置编码。计算每一个特征向量在完整特征图中的位置环境信息。使用融合了相对位置编码和位置环境信息的空间关系提取器提取特征向量之间的空间关系。
[0011]4)文本解码:使用用于文本生成的解码模型,解码得到结构化图像内容的文本序列。
[0012]5)模型训练:先使用优化器对动态特征选择步骤中的损失函数进行训练,更新相关的部分模型参数。再定义模型的总损失函数,使用优化器对模型的全部参数进行更新,得到结构化图片内容的文本序列。
[0013]所述细粒度视觉特征提取步骤中,使用了一个感受野很小的卷积神经网络以便提取到图像中全部的字符细节;在生成的大特征图中,计算每个特征向量的二维坐标,使用嵌入矩阵计算其绝对位置编码,将绝对位置编码与细粒度视觉特征进行融合。
[0014]所述动态特征选择步骤中,使用全连接神经网络判断细粒度视觉特征中的每个特征向量在词表中的类别,定义一个特征选择损失函数,设定特征选择的比例参数,确定大特征图中被选中特征的坐标;定义一个动态偏移分布,以每一个坐标为中心按照动态偏移分布进行采样,得到偏移后的坐标,最终确定被选择的特征向量。
[0015]所述空间关系提取步骤中,使用嵌入矩阵计算每一对被选择的特征向量的行相对位置编码和列相对位置编码;使用卷积神经网络计算每一个特征向量在一定区域内的位置环境信息,将相对位置编码和位置环境信息引入transformer模型,提取被选择的特征向量之间的空间关系。
[0016]所述文本解码步骤中,使用transformer模型,将空间关系提取步骤的结果作为输入,进一步解码得到最终的文本预测结果。
[0017]所述模型训练步骤中,使用Adam优化器先对动态特征选择步骤中的特征选择损失函数进行训练,更新相应的部分模型参数,完成训练后,定义模型的总损失函数,使用Adam优化器更新模型的全部参数至总损失函数收敛。
[0018]本专利技术与现有技术相比具有方法简便,准确率高,在计算开销不大的情况下,提高
了模型对结构化图片中复杂空间关系的获取能力,提取到了更复杂的字符空间关系,本专利技术在保留了结构化图片细粒度视觉特征的基础上,使用动态特征选择机制,去掉了特征图中的冗余特征,大幅度减少了空间关系编码器中的计算开销,动态偏移机制提高了模型的泛化能力。在此基础上,把字符特征之间的相对位置信息和字符的位置环境信息引入到空间关系编码器中,进一步提升了结构化图像内容识别的准确,具有良好且广泛的应用前景。
附图说明
[0019]图1为为实施例1的结构化图片内容识别流程图。
具体实施方式
[0020]本专利技术在细粒度视觉特征的基础上,使用动态特征选择机制,先从大尺寸特征图中选择部分有用的特征向量以减少特征数目,然后对其进行动态偏移以增强模型的泛化能力。将相对位置编码和位置环境信息引入到空间关系编码器本文档来自技高网...
【技术保护点】
【技术特征摘要】
1. 一种基于动态特征选择的结构化图片内容识别方法,其特征在于采用动态特征选择机制,从大尺寸特征图中选择部分有用的特征向量以去除特征图中的冗余特征,对其进行动态偏移,并将相对位置编码和位置环境信息引入到空间关系编码器中,提取更复杂的字符空间关系,结构化图片内容的识别具体包括如下步骤:(一)、细粒度视觉特征提取使用小感受野的卷积神经网络提取输入结构化图像的细粒度视觉特征,计算特征图中特征向量的绝对位置编码,将绝对位置编码与细粒度视觉特征进行融合;(二)、动态特征选择使用全连接神经网络判断细粒度视觉特征中每一个特征向量代表的字符类型,定义可用于进行特征选择的损失函数,设定选择特征的比例参数,确定特征图中有效特征的坐标;定义动态偏移分布,将被选择的坐标根据分布进行动态偏移,得到最终的特征向量;(三)、空间关系提取在被选择的特征中,计算每一对特征向量在完整特征图中的相对位置编码,计算每一个特征向量在完整特征图中的位置环境信息,使用融合了相对位置编码和位置环境信息的空间关系提取器提取特征向量之间的空间关系;(四)、文本解码使用用于文本生成的解码模型,解码得到结构化图像内容的文本序列;(五)、模型训练使用优化器对动态特征选择步骤中的损失函数进行训练,更新相关的部分参数,然后定义总损失函数,并使用优化器对全部参数进行更新,得到结构化图片内容的文本序列。2.根据权利要求1所述的基于动态特征选择的结构化图片内容识别方法,其特征在于所述细粒度视觉特征提取步骤中,小感受野的卷积神经网络提取到图像中全部的字符...
【专利技术属性】
技术研发人员:付英男,高明,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。