视觉问答数据处理方法、装置、计算机设备制造方法及图纸

技术编号：38669984 阅读：8 留言：0更新日期：2023-09-02 22:48

本申请涉及一种视觉问答数据处理方法、装置、计算机设备。涉及金融科技领域或其他相关领域。所述方法包括：获取待预测的视觉问答图像和针对视觉问答图像的询问信息，输入至预训练的视觉问答预测模型；通过融合网络中的文本特征提取网络处理询问信息，得到文本特征信息，以及通过融合网络中的图像特征提取网络处理视觉问答图像，得到图像特征信息；文本特征提取网络为基于层级结构注意力机制调整得到的；基于文本特征信息，通过多层感知网络对图像特征信息进行像素级分类处理，得到模型输出预测结果，作为询问信息对应的预测问答信息。采用本方法能够丰富视觉表示，为输入图像提供全面视觉语言视图，提升了生成预测问答信息的多样性和准确性。多样性和准确性。多样性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
视觉问答数据处理方法、装置、计算机设备

[0001]本申请涉及金融科技领域，特别是涉及一种视觉问答数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]视觉问题回答是一项具有挑战性的任务，其需要针对给定的图像和关于图像的自然语言问题提供自然语言答案。
[0003]目前，相关技术中视觉问答模型涉及到不同模态的表征学习和跨模态融合，具有较大困难性，难以从给定的图像中探索视觉信息，导致失败率较高，且针对金融业务场景下的复杂金融信息，也存在无法有效得到准确的答案预测结果的问题，视觉问答效果不佳。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够解决上述问题的视觉问答数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
[0005]第一方面，本申请提供了一种视觉问答数据处理方法，所述方法包括：
[0006]获取待预测的视觉问答图像和针对所述视觉问答图像的询问信息，输入至预训练的视觉问答预测模型；所述预训练的视觉问答预测模型包括具有双分支结构的融合网络，以及多层感知网络，所述视觉问答图像与所述询问信息均为金融业务场景下生成的；
[0007]通过所述融合网络中的文本特征提取网络处理所述询问信息，得到文本特征信息，以及通过所述融合网络中的图像特征提取网络处理所述视觉问答图像，得到图像特征信息；所述文本特征提取网络为基于层级结构注意力机制调整得到的；
[0008]基于所述文本特征信息，通过所述多层感知网络对所述图像特征信息进...

【技术保护点】

【技术特征摘要】
1.一种视觉问答数据处理方法，其特征在于，所述方法包括：获取待预测的视觉问答图像和针对所述视觉问答图像的询问信息，输入至预训练的视觉问答预测模型；所述预训练的视觉问答预测模型包括具有双分支结构的融合网络，以及多层感知网络，所述视觉问答图像与所述询问信息均为金融业务场景下生成的；通过所述融合网络中的文本特征提取网络处理所述询问信息，得到文本特征信息，以及通过所述融合网络中的图像特征提取网络处理所述视觉问答图像，得到图像特征信息；所述文本特征提取网络为基于层级结构注意力机制调整得到的；基于所述文本特征信息，通过所述多层感知网络对所述图像特征信息进行像素级分类处理，得到模型输出预测结果，作为所述询问信息对应的预测问答信息。2.根据权利要求1所述的方法，其特征在于，所述通过所述融合网络中的图像特征提取网络处理所述视觉问答图像，得到图像特征信息，包括：通过所述融合网络中的图像特征提取网络，提取得到所述视觉问答图像的图像信息；结合所述视觉问答图像对应的文本关联区域特征和文本识别特征，以及所述图像信息，得到视觉表示信息；所述文本关联区域特征和所述文本识别特征用于调整图像理解以提供全面的视觉语言视图；根据所述视觉表示信息和所述视觉问答图像，得到目标特征图像，作为所述图像特征信息。3.根据权利要求2所述的方法，其特征在于，所述基于所述文本特征信息，通过所述多层感知网络对所述图像特征信息进行像素级分类处理，得到模型输出预测结果，包括：通过所述多层感知网络对所述目标特征图像进行图像还原处理，得到处理后特征图像；采用所述多层感知网络的解码器，根据所述文本特征信息对所述处理后特征图像进行像素级分类处理，得到所述模型输出预测结果。4.根据权利要求1所述的方法，其特征在于，所述预训练的视觉问答预测模型通过下述方法训练得到：获取训练样本集合；所述训练样本集合中每个训练样本由样本图像和所述样本图像包含的多个问答信息对组成；所述样本图像与所述多个问答信息对均为基于金融业务场景采集得到的；根据所述具有双分支结构的融合模型和所述多层感知网络，构建得到待训练的视觉问答预测模型；所述融合模型中第一分支为基于层级结构注意力机制调整得到的所述文本特征提取网络，所述融合模型中第二分支为所述图像特征提取网络；采用所述训练样本集合，对所述待训练的视觉问答预测模型进行模型训练，得到所述预训练的视觉问答预测模型。5.根据权利要求4所述的方法，其特征在于，在所述获取训练样本集合的步骤之前，所述方法还包括：获取在所述金融业务场景下采集得到的初始样本集合；所述初始样本集合的每个初始样本中的不同问答信息对具有不同的询问对象类型；按照预设处理信息对所述初始样本集合进行数据处理，根据处理后的初始样本集合，得到所述训练样本集合和测试样本集合...

【专利技术属性】
技术研发人员：张海轩，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人