一种基于动态特征提取的结构化图片内容识别方法技术

技术编号：34837655 阅读：25 留言：0更新日期：2022-09-08 07:33

本发明专利技术公开了一种基于动态特征选择的结构化图片内容识别方法，其特点是采用动态特征选择机制，从大尺寸特征图中选择部分有用的特征向量以去除特征图中的冗余特征，对其进行动态偏移，并将相对位置编码和位置环境信息引入到空间关系编码器中，提取更复杂的字符空间关系，具体包括：1）细粒度视觉特征提取；2）动态特征选择；3）空间关系提取；4）文本解码；5）模型训练等步骤。本发明专利技术与现有技术相比具有方法简便，准确率高，不但减小了空间关系编码器的计算开销，还增强了模型的泛化能力，进一步提升了结构化图像内容识别的准确，应用前景良好。应用前景良好。应用前景良好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态特征提取的结构化图片内容识别方法

[0001]本专利技术涉及计算机图片文本识别
，尤其是一种基于动态特征提取的结构化图片内容识别方法。

技术介绍

[0002]结构化图片内容识别是指将数学公式、化学公式、乐谱等结构化图片的内容转换成文本序列，以便于对其进行编辑、检索等操作。在个性化推荐、音乐检索、自动解题等人工智能场景中具有广泛的应用。结构化图片内容识别相比于传统的文本识别更具挑战，因为它不仅需要从图片中确定所有的字符，还需要判断图片中所有字符之间的空间关系。
[0003]最近，基于深度学习的编码器
‑
解码器模型被大量用于解决结构化图片内容识别问题。这些方法大体包括三个模块：抽取输入图片语义特征的视觉编码器(卷积神经网络)、提取字符之间空间关系的空间关系编码器和用来预测输出序列的文本解码器(循环神经网络)。与非深度学习方法相比，编码器
‑
解码器模型在结构化图片内容识别问题中的准确率取得了一定提升，但依然具有如下问题：
[0004]1)结构化图片内容识别需要细粒度的视觉特征，通常情况下，绝大多数模型会使用一个带有小感受野的卷积神经网络对输入图片进行编码。然而，这会产生一个大尺寸的特征图，为空间关系编码器带来了巨大的计算开销。尤其是对于带有复杂操作的空间关系编码器来说，计算量往往是不能承受的。针对这一问题，现有方法中有两种解决方案。一种方法是简化位置特征的提取。在Deng等人提出的模型中，通过只考虑同一行内的字符空间关系来降低空间关系编码器的计算开销。然...

【技术保护点】

【技术特征摘要】
1. 一种基于动态特征选择的结构化图片内容识别方法，其特征在于采用动态特征选择机制，从大尺寸特征图中选择部分有用的特征向量以去除特征图中的冗余特征，对其进行动态偏移，并将相对位置编码和位置环境信息引入到空间关系编码器中，提取更复杂的字符空间关系，结构化图片内容的识别具体包括如下步骤：（一）、细粒度视觉特征提取使用小感受野的卷积神经网络提取输入结构化图像的细粒度视觉特征，计算特征图中特征向量的绝对位置编码，将绝对位置编码与细粒度视觉特征进行融合；（二）、动态特征选择使用全连接神经网络判断细粒度视觉特征中每一个特征向量代表的字符类型，定义可用于进行特征选择的损失函数，设定选择特征的比例参数，确定特征图中有效特征的坐标；定义动态偏移分布，将被选择的坐标根据分布进行动态偏移，得到最终的特征向量；（三）、空间关系提取在被选择的特征中，计算每一对特征向量在完整特征图中的相对位置编码，计算每一个特征向量在完整特征图中的位置环境信息，使用融合了相对位置编码和位置环境信息的空间关系提取器提取特征向量之间的空间关系；（四）、文本解码使用用于文本生成的解码模型，解码得到结构化图像内容的文本序列；（五）、模型训练使用优化器对动态特征选择步骤中的损失函数进行训练，更新相关的部分参数，然后定义总损失函数，并使用优化器对全部参数进行更新，得到结构化图片内容的文本序列。2.根据权利要求1所述的基于动态特征选择的结构化图片内容识别方法，其特征在于所述细粒度视觉特征提取步骤中，小感受野的卷积神经网络提取到图像中全部的字符...

【专利技术属性】
技术研发人员：付英男，高明，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人