文档图片处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：38276347 阅读：10 留言：0更新日期：2023-07-27 10:27

本申请公开了一种文档图片处理方法、装置、电子设备及可读存储介质，方法包括：获取文档图片中多个文本块对应的多个文本块信息，其中，文本块信息包括每个文本块的文本信息和坐标信息；根据每个文本块的文本信息和坐标信息，生成目标文本；根据文档图片、目标文本、多个文本块信息和预设图片处理模型，生成多个字向量、多个文本向量、多个位置向量和图像特征向量；根据多个字向量、多个文本向量、多个位置向量、图像特征向量和预设图片处理模型，确定每个文本块中每个字的标签信息；根据标签信息，确定每个文本块的文本数据。提高了文本结构化的鲁棒性以及准确性，进而有效提升了文本结构化的整体效果。结构化的整体效果。结构化的整体效果。

全部详细技术资料下载

【技术实现步骤摘要】
文档图片处理方法、装置、电子设备及可读存储介质

[0001]本申请涉及文档图像处理
，特别是涉及一种文档图片处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]目前，在保险理赔、医疗、资料审核等领域，会用到对文档图片所包含的文本信息，通过人工智能技术进行理解、分类、提取以及信息归纳，以将各种文档图片转化成结构化的文本数据。现有技术中，一般通过光学字符识别(Optical Character Recognition，OCR)技术将文档图片转换为文本及符号，再应用自然语言处理(Natural Language Processing，NLP)技术将文档图片的文本及符号转化为结构化信息。然而，通过OCR技术抽取的文本信息可能缺失语义分割性，因此，直接使用NLP技术对OCR的文本信息进行结构化的效果大打折扣。此外，OCR技术普遍存在错字漏字的情况，使得最终得到的文本准确性较低。

技术实现思路

[0003]有鉴于此，本申请提供了一种文档图片处理方法、装置、电子设备及可读存储介质，主要目的在于解决OCR技术结合NLP技术进行文档图片的文本提取结构化效果较差，且文本准确性较低的问题。
[0004]依据本申请第一方面，提供了一种文档图片处理方法，该方法包括：
[0005]获取文档图片中多个文本块对应的多个文本块信息，其中，文本块信息包括每个文本块的文本信息和坐标信息；
[0006]根据每个文本块的文本信息和坐标信息，生成目标文本；
[0007]根据文档图片、目标文本、多...

【技术保护点】

【技术特征摘要】
1.一种文档图片处理方法，其特征在于，包括：获取文档图片中多个文本块对应的多个文本块信息，其中，文本块信息包括每个文本块的文本信息和坐标信息；根据所述每个文本块的所述文本信息和所述坐标信息，生成目标文本；根据所述文档图片、所述目标文本、所述多个文本块信息和预设图片处理模型，生成多个字向量、多个文本向量、多个位置向量和图像特征向量；根据所述多个字向量、所述多个文本向量、所述多个位置向量、所述图像特征向量和所述预设图片处理模型，确定每个文本块中每个字的标签信息；根据所述标签信息，确定每个文本块的文本数据。2.根据权利要求1所述的方法，其特征在于，所述获取文档图片中多个文本块对应的多个文本块信息的步骤，具体包括：获取待处理的所述文档图片；将所述文档图片输入至所述预设图片处理模型进行识别，确定出所述文档图片中每个文本块的所述文本信息和所述坐标信息。3.根据权利要求1所述的方法，其特征在于，所述根据所述每个文本块的所述文本信息和所述坐标信息，生成目标文本的步骤，具体包括：根据每个文本块的坐标信息，对所述多个文本块的多个文本信息进行拼接，生成拼接后的目标文本。4.根据权利要求1所述的方法，其特征在于，所述根据所述文档图片、所述目标文本、所述多个文本块信息和预设图片处理模型，生成多个字向量、多个文本向量、多个位置向量和图像特征向量的步骤，具体包括：将所述目标文本输入所述预设图片处理模型，生成所述多个字向量；将所述多个文本块信息输入所述预设图片处理模型，生成多个文本块对应的所述多个文本向量；获取所述文档图片的图片格式信息；将每个文本块的所述坐标信息和所述图片格式信息输入所述预设图片处理模型，生成多个文本块对应的所述多个位置向量；将所述图片格式信息输入所述预设图片处理模型，生成所述文档图片的图像特征向量。5.根据权利要求1所述的方法，其特征在于，所述根据所述多个字向量、所述多个文本向量、所述多个位置向量、所述图像特征向量和所述预设图片处理模型，确定每个字符的标签信息的步骤，具体包括：根据所述多个字向量、所述多个文本向量、所述多个位置向...

【专利技术属性】
技术研发人员：凌慧峰，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人