多模态特征的融合方法、装置、设备、介质和产品制造方法及图纸

技术编号:34321356 阅读:13 留言:0更新日期:2022-07-31 00:15
本公开提供了一种多模态特征的融合方法、装置、设备、介质和产品,涉及人工智能技术领域,尤其涉及自然语言处理、光学字符识别等技术领域,可应用于智慧金融等场景。具体实现方案为:获取包括有文本的图像;对图像进行特征识别,得到文本的文本特征以及位置特征;将图像按照预设规则划分为多个区域,并提取多个区域中至少一个区域的图像特征;对文本特征进行编码,得到文本向量;以及,对至少一个区域的图像特征进行编码,得到至少一个区域的图像向量;以及,对位置特征进行编码,得到位置向量;将文本向量、至少一个区域的图像向量和位置向量进行融合,得到融合后的目标向量。本公开能够提高多模态特征的融合程度。够提高多模态特征的融合程度。够提高多模态特征的融合程度。

【技术实现步骤摘要】
多模态特征的融合方法、装置、设备、介质和产品


[0001]本公开涉及人工智能
,尤其涉及自然语言处理领域、光学字符识别等技术,可应用于智慧金融场景。

技术介绍

[0002]在一些场景中需要对文挡中的关键信息进行审核。例如报销单中需要审核报销人姓名,报销金额,消费日期等信息。而这些信息的审核常常需要大量的人力。为了提高审核效率,利用神经网络对文档的图像进行处理,以从文档中自动提取用户感兴趣的实体及实体关系。相关技术为特定版式的文档编写特定的规则,该方式存在很大的局限性。

技术实现思路

[0003]本公开提供了一种用于多模态特征的融合方法、装置、设备、介质和产品。
[0004]根据本公开的一方面,提供了一种多模态特征的融合方法,包括:获取包括有文本的图像;对所述图像进行特征识别,得到所述文本的文本特征以及位置特征;将所述图像按照预设规则划分为多个区域,并提取所述多个区域中至少一个区域的图像特征;对所述文本特征进行编码,得到文本向量;以及,对所述至少一个区域的图像特征进行编码,得到所述至少一个区域的图像向量;以及,对所述位置特征进行编码,得到位置向量;将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合,得到融合后的目标向量。
[0005]根据本公开的另一方面,提供了一种多模态特征的融合装置,包括:获取单元,用于获取包括有文本的图像;识别单元,用于对所述图像进行特征识别,得到所述文本的文本特征以及位置特征;划分并提取单元,用于将所述图像按照预设规则划分为多个区域,并提取所述多个区域中至少一个区域的图像特征;确定向量单元,用于对所述文本特征进行编码,得到文本向量;以及,对所述至少一个区域的图像特征进行编码,得到所述至少一个区域的图像向量;以及,对所述位置特征进行编码,得到位置向量;融合单元,用于将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合,得到融合后的目标向量。
[0006]根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的方法。
[0007]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述的方法。
[0008]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现所述的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开实施例提供的多模态特征的融合方法流程图;
[0012]图2是根据本公开实施例提供的得到文本向量的方法流程图;
[0013]图3是根据本公开实施例提供的得到图像向量的方法流程图;
[0014]图4是根据本公开实施例提供的得到二维位置向量的方法流程图;
[0015]图5是根据本公开实施例提供的方法得到输入特征的流程图;
[0016]图6是根据本公开实施例提供的方法得到融合后的目标向量的流程图;
[0017]图7是根据本公开实施例提供的填充表示意图;
[0018]图8是根据本公开实施例提供的申请表审核场景示意图;
[0019]图9是根据一示例性实施例示出的一种多模态特征的融合装置框图;
[0020]图10是用来实现本公开实施例的多模态特征的融合方法的电子设备的框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]本公开应用于在文档审核场景中提取待审核文档中的实体以及实体关系。相关技术中会利用光学字符识别(Optical Character Recognition,OCR)技术来识别文档图像中的文字。例如在金融审核场景下,通常会根据业务需求,编写特定的规则代码来提取相应的关键字段。编写特定规则提取关键字段的方法适用于文档版式固定或者文档版式没有太大变化的业务场景。但在文档版式不固定,或者业务上线后,文档版式调整或新增版式的场景中,原来编写的规则可能就无法应用在版式调整或者新增版式的文档中。另外,在文档版式比较复杂的情况下,预先编写的规则无法覆盖全部情况,导致不能达到预期的效果。
[0023]鉴于此,本公开提供了一种多模态特征的融合方法,对于待识别的文档图像,采用OCR识别文档图像,获取文档中的文本特征以及位置特征。按照预设规则将文档图像划分为多个区域,提取多个区域中至少一个区域的图像特征。将文本特征、位置特征以及图像特征进行编码后输入到BERT(Bidirectional Encoder Representation from Transformers)中进行深层特征融合,将输出的特征作为文档的整体特征。通过本公开在获取图像特征时,并没有采用将文档图像作为一个整体获取图像特征,也没有将文档图像中的每个字符作为一个区域获取图像特征,而是按照预设规则将文档图像划分为多个区域,提取多个区域中至少一个区域的图像特征。本公开采用上述获取图像特征的方法,在进行多模态特征融合的过程中,根据不同图像特征的位置特征,分配不同的注意力,能够使多模态特征融合的更加充分。
[0024]利用本公开提供的多模态特征的融合方法,得到文档图像的整体特征可以应用于进行实体关系提取。在应用时采用基于表序列Table Sequence的关系提取模型,从文档图像的整体特征中提取实体关系。
[0025]本公开下述实施例中,将结合附图对本公开提供的多模态特征的融合方法进行说
明。
[0026]图1是根据本公开实施例提供的多模态特征的融合方法流程图;如图1所示,本公开提供的多模态特征的融合方法,包括以下步骤S101

S105。
[0027]在步骤S101中,获取包括有文本的图像。
[0028]本公开中包括有文本的图像可以为文档图像。该图像可以是运行多模态特征融合方法的设备本地的图像。该图像也可以是与运行多模态特征融合方法的设备有通信连接的其他设备,发送给该设备的图像。该图像还可以是通过用户指令实时获取的图像。
[0029]在步骤S102中,对图像进行特征识别,得到文本的文本特征以及位置特征。
[0030]本公开中可以采用OCR技术对图像进行特征识别。通过OCR技术提取图像的文本特征和位置特征。本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态特征的融合方法,包括:获取包括有文本的图像;对所述图像进行特征识别,得到所述文本的文本特征以及位置特征;将所述图像按照预设规则划分为多个区域,并提取所述多个区域中至少一个区域的图像特征;对所述文本特征进行编码,得到文本向量;以及,对所述至少一个区域的图像特征进行编码,得到所述至少一个区域的图像向量;以及,对所述位置特征进行编码,得到位置向量;将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合,得到融合后的目标向量。2.根据权利要求1所述的方法,其中,所述对所述文本特征进行编码,得到文本向量,包括:对文本进行分词,并将分词结果进行序列化,得到多个序列;根据多个序列中各序列间的相对位置信息,确定各序列的一维位置编码;基于表征所述序列语义信息的词嵌入,所述序列的一维位置编码,以及区别于其他序列的段嵌入,确定所述序列的序列向量;基于所述文本中的各序列对应的序列向量,生成文本向量。3.根据权利要求1所述的方法,其中,所述对所述至少一个区域的图像特征进行编码,得到至少一个区域的图像向量,包括:对所述至少一个区域的图像特征进行池化处理,得到所述至少一个区域的初始图像向量;对所述至少一个区域的初始图像向量分别进行线性变换;根据至少一个区域的位置关系,确定所述至少一个区域对应初始图像向量的一维位置编码;基于至少一个区域线性变换后的初始图像向量、一维位置编码和区别于其他初始图像向量的段嵌入,确定至少一个区域的图像向量。4.根据权利要求1所述的方法,其中,所述位置特征为二维位置特征,所述位置向量为二维位置向量;所述对所述位置特征进行编码,得到位置向量,包括:对所述二维位置特征表征的文本框的第一坐标和第二坐标,以及所述文本框的高度和所述文本框的宽度进行编码,所述第一坐标和所述第二坐标分别为所述文本框对角线位置处的坐标;将编码后所述第一坐标中的x坐标和所述第二坐标中的x坐标,与编码后所述文本框的宽度进行拼接,得到x轴方向的位置向量;将编码后所述第一坐标中的y坐标和所述第二坐标中的y坐标,与编码后所述文本框的高度进行拼接,得到y轴方向的位置向量;将所述x轴方向的位置向量和所述y轴方向的位置向量,作为所述文本框的二维位置向量。5.根据权利要求1

4中任意一项所述的方法,其中,所述将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合,得到融合后的目标向量,包括:
将所述文本向量和所述至少一个区域的图像向量进行拼接;在拼接后的向量上叠加所述位置向量,得到输入向量;将所述输入向量输入Bert模型进行融合,得到融合后的目标向量。6.根据权利要求5所述的方法,其中,所述Bert模型中包括多个编码器;所述将所述输入向量输入Bert模型进行融合,得到融合后的目标向量,包括:将所述输入向量输入第一个编码器;在所述第一个编码器中基于所述输入向量中各文本向量以及图像向量之间的相似度,确定相似度注意力分数;基于所述相似度注意力分数,和所述各文本向量对应的位置向量以及所述图像向量对应的位置向量,确定空间注意力分数;基于所述空间注意力分数,得到所述第一个编码器的输出;将所述第一个编码器的输出作为第二个编码器的输入,直到通过所有编码器后,得到融合后的目标向量。7.根据权利要求1

6中任意一项所述的方法,还包括:在所述目标向量中提取实体及实体关系。8.一种多模态特征的融合装置,包括:获取单元,用于获取包括有文本的图像;识别单元,用于对所述图像进行特征识别,得到所述文本的文本特征以及位置特征;划分并提取单元,用于将所述图像按照预设规则划分为多个区域,并提取所述多个区域中至少...

【专利技术属性】
技术研发人员:章良杰岳洪达许海洋冯博豪
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1