多模态特征的融合方法、装置、设备、介质和产品制造方法及图纸

技术编号：34321356 阅读：13 留言：0更新日期：2022-07-31 00:15

本公开提供了一种多模态特征的融合方法、装置、设备、介质和产品，涉及人工智能技术领域，尤其涉及自然语言处理、光学字符识别等技术领域，可应用于智慧金融等场景。具体实现方案为：获取包括有文本的图像；对图像进行特征识别，得到文本的文本特征以及位置特征；将图像按照预设规则划分为多个区域，并提取多个区域中至少一个区域的图像特征；对文本特征进行编码，得到文本向量；以及，对至少一个区域的图像特征进行编码，得到至少一个区域的图像向量；以及，对位置特征进行编码，得到位置向量；将文本向量、至少一个区域的图像向量和位置向量进行融合，得到融合后的目标向量。本公开能够提高多模态特征的融合程度。够提高多模态特征的融合程度。够提高多模态特征的融合程度。

全部详细技术资料下载

【技术实现步骤摘要】
多模态特征的融合方法、装置、设备、介质和产品

[0001]本公开涉及人工智能
，尤其涉及自然语言处理领域、光学字符识别等技术，可应用于智慧金融场景。

技术介绍

[0002]在一些场景中需要对文挡中的关键信息进行审核。例如报销单中需要审核报销人姓名，报销金额，消费日期等信息。而这些信息的审核常常需要大量的人力。为了提高审核效率，利用神经网络对文档的图像进行处理，以从文档中自动提取用户感兴趣的实体及实体关系。相关技术为特定版式的文档编写特定的规则，该方式存在很大的局限性。

技术实现思路

[0003]本公开提供了一种用于多模态特征的融合方法、装置、设备、介质和产品。
[0004]根据本公开的一方面，提供了一种多模态特征的融合方法，包括：获取包括有文本的图像；对所述图像进行特征识别，得到所述文本的文本特征以及位置特征；将所述图像按照预设规则划分为多个区域，并提取所述多个区域中至少一个区域的图像特征；对所述文本特征进行编码，得到文本向量；以及，对所述至少一个区域的图像特征进行编码，得到所述至少一个区域的图像向量；以及，对所述位置特征进行编码，得到位置向量；将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合，得到融合后的目标向量。
[0005]根据本公开的另一方面，提供了一种多模态特征的融合装置，包括：获取单元，用于获取包括有文本的图像；识别单元，用于对所述图像进行特征识别，得到所述文本的文本特征以及位置特征；划分并提取单元，用于将所述图像按照预设规则划分为多个区域，并提取所述...

【技术保护点】

【技术特征摘要】
1.一种多模态特征的融合方法，包括：获取包括有文本的图像；对所述图像进行特征识别，得到所述文本的文本特征以及位置特征；将所述图像按照预设规则划分为多个区域，并提取所述多个区域中至少一个区域的图像特征；对所述文本特征进行编码，得到文本向量；以及，对所述至少一个区域的图像特征进行编码，得到所述至少一个区域的图像向量；以及，对所述位置特征进行编码，得到位置向量；将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合，得到融合后的目标向量。2.根据权利要求1所述的方法，其中，所述对所述文本特征进行编码，得到文本向量，包括：对文本进行分词，并将分词结果进行序列化，得到多个序列；根据多个序列中各序列间的相对位置信息，确定各序列的一维位置编码；基于表征所述序列语义信息的词嵌入，所述序列的一维位置编码，以及区别于其他序列的段嵌入，确定所述序列的序列向量；基于所述文本中的各序列对应的序列向量，生成文本向量。3.根据权利要求1所述的方法，其中，所述对所述至少一个区域的图像特征进行编码，得到至少一个区域的图像向量，包括：对所述至少一个区域的图像特征进行池化处理，得到所述至少一个区域的初始图像向量；对所述至少一个区域的初始图像向量分别进行线性变换；根据至少一个区域的位置关系，确定所述至少一个区域对应初始图像向量的一维位置编码；基于至少一个区域线性变换后的初始图像向量、一维位置编码和区别于其他初始图像向量的段嵌入，确定至少一个区域的图像向量。4.根据权利要求1所述的方法，其中，所述位置特征为二维位置特征，所述位置向量为二维位置向量；所述对所述位置特征进行编码，得到位置向量，包括：对所述二维位置特征表征的文本框的第一坐标和第二坐标，以及所述文本框的高度和所述文本框的宽度进行编码，所述第一坐标和所述第二坐标分别为所述文本框对角线位置处的坐标；将编码后所述第一坐标中的x坐标和所述第二坐标中的x坐标，与编码后所述文本框的宽度进行拼接，得到x轴方向的位置向量；将编码后所述第一坐标中的y坐标和所述第二坐标中的y坐标，与编码后所述文本框的高度进行拼接，得到y轴方向的位置向量；将所述x轴方向的位置向量和所述y轴方向的位置向量，作为所述文本框的二维位置向量。5.根据权利要求1
‑
4中任意一项所述的方法，其中，所述将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合，得到融合后的目标向量，包括：
将所述文本向量和所述至少一个区域的图像向量进行拼接；在拼接后的向量上叠加所述位置向量，得到输入向量；将所述输入向量输入Bert模型进行融合，得到融合后的目标向量。6.根据权利要求5所述的方法，其中，所述Bert模型中包括多个编码器；所述将所述输入向量输入Bert模型进行融合，得到融合后的目标向量，包括：将所述输入向量输入第一个编码器；在所述第一个编码器中基于所述输入向量中各文本向量以及图像向量之间的相似度，确定相似度注意力分数；基于所述相似度注意力分数，和所述各文本向量对应的位置向量以及所述图像向量对应的位置向量，确定空间注意力分数；基于所述空间注意力分数，得到所述第一个编码器的输出；将所述第一个编码器的输出作为第二个编码器的输入，直到通过所有编码器后，得到融合后的目标向量。7.根据权利要求1
‑
6中任意一项所述的方法，还包括：在所述目标向量中提取实体及实体关系。8.一种多模态特征的融合装置，包括：获取单元，用于获取包括有文本的图像；识别单元，用于对所述图像进行特征识别，得到所述文本的文本特征以及位置特征；划分并提取单元，用于将所述图像按照预设规则划分为多个区域，并提取所述多个区域中至少...

【专利技术属性】
技术研发人员：章良杰，岳洪达，许海洋，冯博豪，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人