【技术实现步骤摘要】
数据关系识别方法和数据关系识别的数据处理方法
[0001]本说明书实施例涉及计算机
,特别涉及一种数据关系识别方法。
技术介绍
[0002]随着计算机技术的发展,表格表单、发票等富文本图像的广泛应用,极大方便了人们的生产生活,富文本图像在使用过程中,需要对其中的数据进行分析,而对富文本图像中的数据之间的对应关系进行识别,在富文本图像的数据分析中起到重要作用。
[0003]目前,对富文本图像中的数据之间的对应关系进行识别,依赖于富文本图像中各数据对应的图像块信息的提取和分析,例如,对图像块的图像信息、文本信息进行提取和分析,得到数据之间的对应关系。
[0004]然而,过分依赖于图像块中数据自身的图像块信息,在面对结构化数据的富文本图像时,没有充分利用图像块的相关信息,导致数据关系的识别准确度不足。因此,亟需一种高准确度的数据关系识别方法。
技术实现思路
[0005]有鉴于此,本说明书实施例提供了一种数据关系识别方法。本说明书一个或者多个实施例同时涉及另一种数据关系识别方法,一种数据关系识别的数据处理方法,一种数据关系识别装置,另一种数据关系识别装置,一种数据关系识别的数据处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0006]根据本说明书实施例的第一方面,提供了一种数据关系识别方法,包括:
[0007]获取待识别图像,其中,待识别图像包括至少两个图像块,各图像块包含对应的数据,图像块包括图像块信息和位置信息;< ...
【技术保护点】
【技术特征摘要】
1.一种数据关系识别方法,包括:获取待识别图像,其中,所述待识别图像包括至少两个图像块,各图像块包含对应的数据,图像块包括图像块信息和位置信息;对第一图像块的图像块信息和位置信息进行多模态编码,得到所述第一图像块的第一多模态特征,对第二图像块的图像块信息和位置信息进行多模态编码,得到所述第二图像块的第二多模态特征,其中,所述第一图像块和所述第二图像块为各图像块中任意两个;基于所述第一多模态特征和所述第二多模态特征,确定所述第一图像块和所述第二图像块之间位置关系,基于所述位置关系,确定所述第一图像块和所述第二图像块之间的图像块关系,其中,所述位置关系包括距离关系、方向关系和连线关系中至少一种;基于各图像块之间的图像块关系,确定各数据之间的数据关系。2.根据权利要求1所述的方法,所述对第一图像块的图像块信息和位置信息进行多模态编码,得到所述第一图像块的第一多模态特征,对第二图像块的图像块信息和位置信息进行多模态编码,得到所述第二图像块的第二多模态特征,包括:利用关系识别模型的编码器,对第一图像块的图像块信息和位置信息进行多模态编码,得到所述第一图像块的第一多模态特征,对第二图像块的图像块信息和位置信息进行多模态编码,得到所述第二图像块的第二多模态特征;所述基于所述第一多模态特征和所述第二多模态特征,确定所述第一图像块和所述第二图像块之间位置关系,基于所述位置关系,确定所述第一图像块和所述第二图像块之间的图像块关系,包括:利用所述关系识别模型的关系识别器,基于所述第一多模态特征和所述第二多模态特征,确定所述第一图像块和所述第二图像块之间位置关系,基于所述位置关系,确定所述第一图像块和所述第二图像块之间的图像块关系。3.根据权利要求2所述的方法,其中,所述图像块信息包括图像信息和文本信息,所述关系识别模型的编码器包括图像编码层、文本位置编码层和特征融合层;所述利用关系识别模型的编码器,对第一图像块的图像块信息和位置信息进行多模态编码,得到所述第一图像块的第一多模态特征,对第二图像块的图像块信息和位置信息进行多模态编码,得到所述第二图像块的第二多模态特征,包括:将所述待识别图像输入所述图像编码层,对第一图像块的图像信息进行编码,得到所述第一图像块的第一图像特征,对第二图像块的图像信息进行编码,得到所述第二图像块的第二图像特征;将所述第一图像块的文本信息和位置信息输入所述文本位置编码层,对所述第一图像块的文本信息和位置信息进行编码,得到所述第一图像块的第一文本位置特征;将所述第二图像块的文本信息和位置信息输入所述文本位置编码层,对所述第二图像块的文本信息和位置信息进行编码,得到所述第二图像块的第二文本位置特征;将所述第一图像特征和所述第一文本位置特征输入所述特征融合层,对所述第一图像特征和所述第一文本位置特征进行特征融合,得到所述第一图像块的第一多模态特征;将所述第二图像特征和所述第二文本位置特征输入所述特征融合层,对所述第二图像特征和所述第二文本位置特征进行特征融合,得到所述第二图像块的第二多模态特征。4.根据权利要求3所述的方法,所述将所述待识别图像输入所述图像编码层,对第一图
像块的图像信息进行编码,得到所述第一图像块的第一图像特征,对第二图像块的图像信息进行编码,得到所述第二图像块的第二图像特征,包括:将所述待识别图像输入所述图像编码层,对所述待识别图像的图像信息进行编码,得到全局图像特征;根据第一图像块的位置信息,对所述全局图像特征进行划分,得到所述第一图像块的第一图像特征,根据第二图像块的位置信息,对所述全局图像特征进行划分,得到所述第二图像块的第二图像特征。5.根据权利要求3所述的方法,所述将所述第一图像块的文本信息和位置信息输入所述文本位置编码层,对所述第一图像块的文本信息和位置信息进行编码,得到所述第一图像块的第一文本位置特征,包括:将所述第一图像块的文本信息和位置信息输入所述文本位置编码层的嵌入层,对所述第一图像块的文本信息和位置信息进行特征嵌入,得到所述第一图像块的第一文本位置嵌入特征;将所述第一文本位置嵌入特征输入所述文本位置编码层的编码层,对第一文本位置嵌入特征进行编码,得到所述第一图像块的第一文本位置特征;所述将所述第二图像块的文本信息和位置信息输入所述文本位置编码层,对所述第二图像块的文本信息和位置信息进行编码,得到所述第二图像块的第二文本位置特征,包括:将所述第二图像块的文本信息和位置信息输入所述嵌入层,对所述第二图像块的文本信息和位置信息进行特征嵌入,得到所述第二图像块的第二文本位置嵌入特征;将所述第二文本位置嵌入特征输入所述编码层,对第二文本位置嵌入特征进行编码,得到所述第二图像块的第二文本位置特征。6.根据权利要求3所述的方法,所述将所述第一图像特征和所述第一文本位置特征输入所述特征融合层,对所述第一图像特征和所述第一文本位置特征进行特征融合,得到所述第一图像块的第一多模态特征,包括:将所述第一图像特征和所述第一文本位置特征输入所述特征融合层,对所述第一图像特征和所述第一文本位置特征进行交叉注意力计算,得到所述第一图像块的第一融合图像特征和第一融合文本位置特征,对所述第一融合图像特征和所述第一融合文本位置特征进行拼接,得到所述第一图像块的第一多模态特征;所述将所述第二图像特征和所述第二文本位置特征输入所述特征融合层,对所述第二图像特征和所述第二文本位置特征进行特征融合,得到所述第二图像块的第二多模态特征,包括:将所述第二图像特征和所述第二文本位置特征输入所述特征融合层,对所述第二图像特征和所述第二文本位置特征进行交叉注意力计算,得到所述第二图像块的第二融合图像特征和第二融合文本位置特征,对所述第二融合图像特征和所述第二融合文本位置特征进行拼接,得到所述第二图像块的第二多模态特征。7.根据权利要求2所述的方法,所述基于所述位置关系,确定所述第一图像块和所述第二图像块之间的图像块关系,包括:在所述位置关系为距离关系的情况下,若所述距离关系为相邻,确定所述第一图像块和所述第二图像块之间的图像块关系为相关图像块;
...
【专利技术属性】
技术研发人员:罗楚威,程昌旭,郑琪,姚聪,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。