视觉问答数据处理方法、装置、计算机设备制造方法及图纸

技术编号:38669984 阅读:8 留言:0更新日期:2023-09-02 22:48
本申请涉及一种视觉问答数据处理方法、装置、计算机设备。涉及金融科技领域或其他相关领域。所述方法包括:获取待预测的视觉问答图像和针对视觉问答图像的询问信息,输入至预训练的视觉问答预测模型;通过融合网络中的文本特征提取网络处理询问信息,得到文本特征信息,以及通过融合网络中的图像特征提取网络处理视觉问答图像,得到图像特征信息;文本特征提取网络为基于层级结构注意力机制调整得到的;基于文本特征信息,通过多层感知网络对图像特征信息进行像素级分类处理,得到模型输出预测结果,作为询问信息对应的预测问答信息。采用本方法能够丰富视觉表示,为输入图像提供全面视觉语言视图,提升了生成预测问答信息的多样性和准确性。多样性和准确性。多样性和准确性。

【技术实现步骤摘要】
视觉问答数据处理方法、装置、计算机设备


[0001]本申请涉及金融科技领域,特别是涉及一种视觉问答数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]视觉问题回答是一项具有挑战性的任务,其需要针对给定的图像和关于图像的自然语言问题提供自然语言答案。
[0003]目前,相关技术中视觉问答模型涉及到不同模态的表征学习和跨模态融合,具有较大困难性,难以从给定的图像中探索视觉信息,导致失败率较高,且针对金融业务场景下的复杂金融信息,也存在无法有效得到准确的答案预测结果的问题,视觉问答效果不佳。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够解决上述问题的视觉问答数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种视觉问答数据处理方法,所述方法包括:
[0006]获取待预测的视觉问答图像和针对所述视觉问答图像的询问信息,输入至预训练的视觉问答预测模型;所述预训练的视觉问答预测模型包括具有双分支结构的融合网络,以及多层感知网络,所述视觉问答图像与所述询问信息均为金融业务场景下生成的;
[0007]通过所述融合网络中的文本特征提取网络处理所述询问信息,得到文本特征信息,以及通过所述融合网络中的图像特征提取网络处理所述视觉问答图像,得到图像特征信息;所述文本特征提取网络为基于层级结构注意力机制调整得到的;
[0008]基于所述文本特征信息,通过所述多层感知网络对所述图像特征信息进行像素级分类处理,得到模型输出预测结果,作为所述询问信息对应的预测问答信息。
[0009]在其中一个实施例中,所述通过所述融合网络中的图像特征提取网络处理所述视觉问答图像,得到图像特征信息,包括:
[0010]通过所述融合网络中的图像特征提取网络,提取得到所述视觉问答图像的图像信息;
[0011]结合所述视觉问答图像对应的文本关联区域特征和文本识别特征,以及所述图像信息,得到视觉表示信息;所述文本关联区域特征和所述文本识别特征用于调整图像理解以提供全面的视觉语言视图;
[0012]根据所述视觉表示信息和所述视觉问答图像,得到目标特征图像,作为所述图像特征信息。
[0013]在其中一个实施例中,所述基于所述文本特征信息,通过所述多层感知网络对所述图像特征信息进行像素级分类处理,得到模型输出预测结果,包括:
[0014]通过所述多层感知网络对所述目标特征图像进行图像还原处理,得到处理后特征图像;
[0015]采用所述多层感知网络的解码器,根据所述文本特征信息对所述处理后特征图像进行像素级分类处理,得到所述模型输出预测结果。
[0016]在其中一个实施例中,所述预训练的视觉问答预测模型通过下述方法训练得到:
[0017]获取训练样本集合;所述训练样本集合中每个训练样本由样本图像和所述样本图像包含的多个问答信息对组成;所述样本图像与所述多个问答信息对均为基于金融业务场景采集得到的;
[0018]根据所述具有双分支结构的融合模型和所述多层感知网络,构建得到待训练的视觉问答预测模型;所述融合模型中第一分支为基于层级结构注意力机制调整得到的所述文本特征提取网络,所述融合模型中第二分支为所述图像特征提取网络;
[0019]采用所述训练样本集合,对所述待训练的视觉问答预测模型进行模型训练,得到所述预训练的视觉问答预测模型。
[0020]在其中一个实施例中,在所述获取训练样本集合的步骤之前,所述方法还包括:
[0021]获取在所述金融业务场景下采集得到的初始样本集合;所述初始样本集合的每个初始样本中的不同问答信息对具有不同的询问对象类型;
[0022]按照预设处理信息对所述初始样本集合进行数据处理,根据处理后的初始样本集合,得到所述训练样本集合和测试样本集合;所述预设处理信息用于指示对所述初始样本集合进行数据筛选操作和图像尺寸调整操作。
[0023]在其中一个实施例中,在所述得到所述预训练的视觉问答预测模型的步骤之后,所述方法还包括:
[0024]获取预设评价信息;所述预设评价信息用于在模型测试时统计预测问答结果的准确程度;
[0025]采用所述测试样本集合,对所述预训练的视觉问答预测模型进行测试,结合所述预设评价信息和所述预训练的视觉问答预测模型输出的预测问答结果,得到所述预训练的视觉问答预测模型的模型测试结果。
[0026]在其中一个实施例中,在所述根据所述具有双分支结构的融合模型和所述多层感知网络,构建得到待训练的视觉问答预测模型的步骤之前,所述方法还包括:
[0027]分别构建用于处理文本特征提取任务的文本特征提取网络,作为第一分支,以及用于处理图像特征提取任务的图像特征提取网络,作为第二分支;
[0028]融合所述第一分支和所述第二分支,得到所述具有双分支结构的融合模型。
[0029]在其中一个实施例中,所述构建用于处理文本特征提取任务的文本特征提取网络,包括:
[0030]获取初始文本特征提取网络,结合加权累加方式和层级结构注意力机制,调整所述初始文本特征提取网络,得到所述文本特征提取网络;
[0031]其中,所述层级结构注意力机制用于将问答信息中不同文本层级的特征与自注意力机制相结合,以利用不同层级结构间的关联程度强化网络获取结构信息的能力。
[0032]第二方面,本申请还提供了一种视觉问答数据处理装置,所述装置包括:
[0033]待预测数据获取模块,用于获取待预测的视觉问答图像和针对所述视觉问答图像的询问信息,输入至预训练的视觉问答预测模型;所述预训练的视觉问答预测模型包括具有双分支结构的融合网络,以及多层感知网络,所述视觉问答图像与所述询问信息均为金
融业务场景下生成的;
[0034]视觉问答预测模型处理模块,用于通过所述融合网络中的文本特征提取网络处理所述询问信息,得到文本特征信息,以及通过所述融合网络中的图像特征提取网络处理所述视觉问答图像,得到图像特征信息;所述文本特征提取网络为基于层级结构注意力机制调整得到的;
[0035]预测问答信息得到模块,用于基于所述文本特征信息,通过所述多层感知网络对所述图像特征信息进行像素级分类处理,得到模型输出预测结果,作为所述询问信息对应的预测问答信息。
[0036]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的视觉问答数据处理方法的步骤。
[0037]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的视觉问答数据处理方法的步骤。
[0038]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的视觉问答数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉问答数据处理方法,其特征在于,所述方法包括:获取待预测的视觉问答图像和针对所述视觉问答图像的询问信息,输入至预训练的视觉问答预测模型;所述预训练的视觉问答预测模型包括具有双分支结构的融合网络,以及多层感知网络,所述视觉问答图像与所述询问信息均为金融业务场景下生成的;通过所述融合网络中的文本特征提取网络处理所述询问信息,得到文本特征信息,以及通过所述融合网络中的图像特征提取网络处理所述视觉问答图像,得到图像特征信息;所述文本特征提取网络为基于层级结构注意力机制调整得到的;基于所述文本特征信息,通过所述多层感知网络对所述图像特征信息进行像素级分类处理,得到模型输出预测结果,作为所述询问信息对应的预测问答信息。2.根据权利要求1所述的方法,其特征在于,所述通过所述融合网络中的图像特征提取网络处理所述视觉问答图像,得到图像特征信息,包括:通过所述融合网络中的图像特征提取网络,提取得到所述视觉问答图像的图像信息;结合所述视觉问答图像对应的文本关联区域特征和文本识别特征,以及所述图像信息,得到视觉表示信息;所述文本关联区域特征和所述文本识别特征用于调整图像理解以提供全面的视觉语言视图;根据所述视觉表示信息和所述视觉问答图像,得到目标特征图像,作为所述图像特征信息。3.根据权利要求2所述的方法,其特征在于,所述基于所述文本特征信息,通过所述多层感知网络对所述图像特征信息进行像素级分类处理,得到模型输出预测结果,包括:通过所述多层感知网络对所述目标特征图像进行图像还原处理,得到处理后特征图像;采用所述多层感知网络的解码器,根据所述文本特征信息对所述处理后特征图像进行像素级分类处理,得到所述模型输出预测结果。4.根据权利要求1所述的方法,其特征在于,所述预训练的视觉问答预测模型通过下述方法训练得到:获取训练样本集合;所述训练样本集合中每个训练样本由样本图像和所述样本图像包含的多个问答信息对组成;所述样本图像与所述多个问答信息对均为基于金融业务场景采集得到的;根据所述具有双分支结构的融合模型和所述多层感知网络,构建得到待训练的视觉问答预测模型;所述融合模型中第一分支为基于层级结构注意力机制调整得到的所述文本特征提取网络,所述融合模型中第二分支为所述图像特征提取网络;采用所述训练样本集合,对所述待训练的视觉问答预测模型进行模型训练,得到所述预训练的视觉问答预测模型。5.根据权利要求4所述的方法,其特征在于,在所述获取训练样本集合的步骤之前,所述方法还包括:获取在所述金融业务场景下采集得到的初始样本集合;所述初始样本集合的每个初始样本中的不同问答信息对具有不同的询问对象类型;按照预设处理信息对所述初始样本集合进行数据处理,根据处理后的初始样本集合,得到所述训练样本集合和测试样本集合...

【专利技术属性】
技术研发人员:张海轩
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1