文档图像的处理方法、装置及电子设备制造方法及图纸

技术编号：34292937 阅读：72 留言：0更新日期：2022-07-27 09:55

本公开提供了一种文档图像的处理方法、装置及电子设备，涉及突出处理技术领域，尤其涉人工智能、自然语义处理等技术领域。具体实现方案为：获取待处理的文档图像；获取文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；根据多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图；根据多粒度多模态文档图、多粒度文本结点的结点信息和多粒度视觉结点的结点信息，确定文档图像的多粒度语义特征信息。本方案可以结合不同粒度元素，使获得语义特征信息更加丰富全面。富全面。富全面。

全部详细技术资料下载

【技术实现步骤摘要】
文档图像的处理方法、装置及电子设备

[0001]本公开涉及图像处理
，具体涉及人工智能、自然语言处理等
，尤其涉及一种文档图像的处理方法、装置及电子设备。

技术介绍

[0002]视觉丰富文档理解是文档智能的重要环节，是处理、分析扫描文档、数字文档等的关键技术。然而，要准确理解视觉丰富文档的内容，需要全面地考虑文档中的文本和视觉元素信息，以及这些元素间的布局关系。所以，如何全面地对文档图像进行视觉丰富的文档信息表示，已成为亟需解决的问题。

技术实现思路

[0003]本公开提供了一种文档图像的处理方法、装置及电子设备。
[0004]根据本公开的第一方面，提供了一种文档图像的处理方法，包括：
[0005]获取待处理的文档图像；
[0006]获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；
[0007]根据所述多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图；
[0008]根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息。
[0009]在本公开的一些实施例中，所述获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，包括：
[0010]将所述文档图像以文字为粒度进行文本识别，获得所述细粒度文本结点及其结点信息；
[0011]将所述文档图像以文本段为粒度进行文本识别，获得所述粗粒度文本结点及其结点信息...

【技术保护点】

【技术特征摘要】
1.一种文档图像的处理方法，包括：获取待处理的文档图像；获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；根据所述多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图；根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息、和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息。2.根据权利要求1所述的方法，其中，所述获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，包括：将所述文档图像以文字为粒度进行文本识别，获得细粒度文本结点及其结点信息；将所述文档图像以文本段为粒度进行文本识别，获得粗粒度文本结点及其结点信息；将所述文档图像进行图像切分，获得细粒度视觉结点及其结点信息；将所述文档图像进行显著性视觉区域识别，获得粗粒度视觉结点及其结点信息。3.根据权利要求2所述的方法，其中，所述根据所述多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图，包括：根据所述细粒度文本结点及其结点信息和所述细粒度视觉结点及其结点信息，在所有细粒度结点之间构建两两互连的全连接细粒度边；根据所述粗粒度文本结点及其结点信息和所述粗粒度视觉结点及其结点信息，在所有粗粒度结点之间构建两两互连的全连接粗粒度边；根据所述细粒度文本结点的结点信息和所述粗粒度文本结点的结点信息，构建所述细粒度文本结点与其所属的粗粒度文本结点之间的第一跨粒度边；根据所述细粒度视觉结点的结点信息和所述粗粒度视觉结点的结点信息，构建所述细粒度视觉结点与其所属粗粒度视觉结点之间的第二跨粒度边；根据所述细粒度文本结点、所述粗粒度文本结点、所述细粒度视觉结点、所述粗粒度视觉结点、所述全连接细粒度边、所述全连接粗粒度边、所述第一跨粒度边和所述第二跨粒度边，获得所述多粒度多模态文档图。4.根据权利要求3所述的方法，其中，所述根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息，包括：基于所述全连接细粒度边，对所述细粒度文本结点的结点信息和所述细粒度视觉结点的结点信息分别进行编码，获取所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息；根据所述第一跨粒度边、所述第二跨粒度边、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述粗粒度文本节点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息；基于所述全连接粗粒度边，根据所述粗粒度文本节点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息；根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信
息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息；将所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息，作为所述文档图像对应的多粒度语义特征信息。5.根据权利要求4所述的方法，其中，所述根据所述第一跨粒度边、所述第二跨粒度边、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述粗粒度文本的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，包括：基于所述第一跨粒度边，确定与所述粗粒度文本结点连接的目标细粒度文本结点，并将所述目标细粒度文本结点的语义特征信息进行聚合，获得所述粗粒度文本结点的第一语义特征信息；基于所述第二跨粒度边，确定与所述粗粒度视觉结点连接的目标细粒度视觉结点，并将所述目标细粒度视觉结点的语义特征信息进行聚合，获得所述粗粒度视觉结点的第一语义特征信息。6.根据权利要求4所述的方法，其中，所述根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息，包括：基于所述第一跨粒度边，确定所述细粒度文本结点所属的目标粗粒度文本结点，并将所述细粒度文本结点的语义特征信息和所述目标粗粒度文本结点的第二语义特征信息进行融合处理，获得所述细粒度文本结点的目标语义特征信息；基于所述第二跨粒度边，确定所述细粒度视觉结点所属的目标粗粒度视觉结点，并将所述细粒度视觉结点的语义特征信息和所述目标粗粒度视觉结点的第二语义特征信息进行融合处理，获得所述细粒度视觉结点的目标语义特征信息。7.根据权利要求4所述的方法，还包括：确定所述粗粒度文本结点对应的文本段中是否存在实体；响应于所述文本段中存在实体，确定所述文本段中的实体类型；将所述文本段中的实体类型对应的特征信息增加到所述粗粒度文本结点的第一语义特征信息中，获得所述粗粒度文本结点的增强语义特征信息；其中，所述基于所述全连接粗粒度边，根据所述粗粒度文本结点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息，包括：基于所述全连接粗粒度边，根据所述粗粒度文本结点的增强语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息。8.一种文...

【专利技术属性】
技术研发人员：王文瑾，黄正杰，罗斌，彭启明，尹维冲，冯仕堃，黄世维，何径舟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人