一种答案确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号：42229509 阅读：16 留言：0更新日期：2024-08-02 13:45

本申请实施例提供了一种答案确定方法、装置、电子设备及存储介质。方法包括：得到目标图像中存在的各原始文本、各原始文本的多模态特征；从多个原始文本中确定属于目标问题的答案的文本作为备选文本；在各原始文本中确定目标文本对应的上下文文本；根据目标文本对应的各上下文文本的多模态特征、目标文本的语义特征，预测得到目标文本的目标概率，并预测得到目标图像中目标文本的位置处的文本，作为目标文本对应的预测文本；确定目标概率满足预设低概率条件的目标文本，并将其替换为对应的预测文本，将替换后的备选文本作为目标问题的答案。可以提高了视觉问答预测出的目标问题的答案的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视觉问答，特别是涉及一种答案确定方法、装置、电子设备及存储介质。

技术介绍

1、vqa（visual question answering，视觉问答）任务能够根据图像以及某一与图像相关的问题，预测出该问题对应的答案。vqa任务过程中，通常是根据ocr（opticalcharacter recognition，光学字符识别）方法识别得到图像中的文本信息，并直接根据ocr识别得到的文本信息，确定该问题对应的答案。但是，由于ocr识别存在一定的误差，可能会出现将图像中的文本识别错误的情况，因此，若直接将ocr识别得到的文本作为该问题对应的答案，则会导致视觉问答预测出的答案的准确性降低。

技术实现思路

1、本申请实施例的目的在于提供一种答案确定方法、装置、电子设备及存储介质，以实现提高视觉问答预测出的答案的准确性。具体技术方案如下：

2、本申请实施例提供了一种答案确定方法，所述方法包括：

3、通过ocr识别得到目标图像中存在的各原始文本，并获取各所述原始文本的多模态特征，其中，所述多模态特征中包括所述原始文本的语义特征、用于表示所述原始文本在所述目标图像中所处位置的位置特征；

4、根据各所述原始文本的多模态特征，从所述多个原始文本中确定属于目标问题的答案的文本，作为备选文本；

5、针对所述备选文本中的各目标文本，在各所述原始文本中确定位置与所述目标文本的位置存在关联关系的文本，作为所述目标文本对应的上下文文本，所述目标文本为任意的所述备选文本；

6、针对各所述目标文本，根据所述目标文本对应的各上下文文本的多模态特征、所述目标文本的语义特征，预测得到所述目标文本为准确识别得到的文本的概率，作为所述目标文本的目标概率；

7、针对各所述目标文本，根据所述目标文本对应的各上下文文本的多模态特征，预测得到所述目标图像中所述目标文本的位置处的文本，作为所述目标文本对应的预测文本；

8、在所述备选文本中，确定所述目标概率满足预设低概率条件的目标文本，并将确定出的目标文本替换为对应的预测文本，得到替换后的备选文本，作为所述目标问题的答案。

9、在一种可能的实施例中，所述针对各所述目标文本，根据所述目标文本对应的各上下文文本的多模态特征，预测得到所述目标图像中所述目标文本的位置处的文本，作为所述目标文本对应的预测文本，包括：

10、根据非备选文本对应的上下文文本的多模态特征，确定初始的当前上下文特征，并根据所述非备选文本的语义特征、所述非备选文本对应的上下文文本的多模态特征以及所述非备选文本的隐状态，确定初始的当前隐状态；

11、根据当前目标文本的语义特征、当前上下文特征、当前隐状态，确定新的当前隐状态，其中，所述当前目标文本初始时为位置位于所述备选文本第一位的目标文本；

12、根据所述当前目标文本对应的各上下文文本的多模态特征，确定所述当前目标文本的上下文特征，作为新的当前上下文特征；

13、根据所述新的当前上下文特征、所述新的当前隐状态，预测得到所述目标图像中当前目标文本的位置处的文本，作为所述当前目标文本对应的预测文本；

14、以位置位于所述当前目标文本后一位的目标文本作为新的当前目标文本，返回执行所述根据当前目标文本的语义特征、当前上下文特征、当前隐状态，确定新的当前隐状态的步骤。

15、在一种可能的实施例中，所述针对各所述目标文本，根据所述目标文本对应的各上下文文本的多模态特征、所述目标文本的语义特征，预测得到所述目标文本为准确识别得到的文本的概率，作为所述目标文本的目标概率，包括：

16、根据非备选文本对应的上下文文本的多模态特征，确定初始的当前上下文特征，并根据所述非备选文本的语义特征、所述非备选文本对应的上下文文本的多模态特征以及所述非备选文本的隐状态，确定初始的当前隐状态；

17、根据当前目标文本的语义特征、当前上下文特征、当前隐状态，确定新的当前隐状态，其中，所述当前目标文本初始时为位置位于所述备选文本第一位的目标文本；

18、根据所述当前目标文本对应的各上下文文本的多模态特征，确定所述当前目标文本的上下文特征，作为新的当前上下文特征；

19、根据所述新的当前上下文特征、所述新的当前隐状态、所述当前目标文本的语义特征，预测得到所述当前目标文本为准确识别得到的文本的概率，作为所述当前目标文本的目标概率；

20、以位置位于所述当前目标文本后一位的目标文本作为新的当前目标文本，返回执行所述根据当前目标文本的语义特征、当前上下文特征、当前隐状态，确定新的当前隐状态的步骤。

21、在一种可能的实施例中，所述根据所述当前目标文本对应的各上下文文本的多模态特征，确定所述当前目标文本的上下文特征，作为新的当前上下文特征，包括：

22、对所述当前目标文本对应的各上下文文本的多模态特征进行加权，得到所述当前目标文本的上下文特征，作为新的当前上下文特征，其中，属于所述备选文本的上下文文本的多模态特征对应的权重大于不属于所述备选文本的上下文文本的多模态特征对应的权重。

23、在一种可能的实施例中，所述原始文本的多模态特征还包括：所述原始文本的视觉特征；

24、所述获取各所述原始文本的多模态特征，包括：

25、获取各所述原始文本的语义特征以及各所述原始文本的位置特征；

26、将所述目标图像划分为多个图块，确定各所述图块的视觉特征；

27、将各所述原始文本的语义特征、各所述原始文本的位置特征、各所述图块的视觉特征以及所述目标问题输入至多模态预训练模型中，得到各所述原始文本的多模态特征；所述多模态预训练模型为预先基于样本图像对原始训练模型进行训练得到的。

28、在一种可能的实施例中，所述多模态预训练模型为预先基于样本图像通过下述方式一、方式二以及方式三中任意一种或多种方式对原始训练模型训练得到的；

29、方式一包括：

30、针对各所述样本图像，获取所述样本图像中存在的各样本文本、各所述样本文本的语义特征以及各所述样本文本的位置特征；

31、针对各所述样本图像，将所述样本图像中的遮盖文本进行遮盖，得到遮盖后的样本图像；所述遮盖文本为所述样本图像中任意的样本文本；

32、针对各所述样本图像，将所述遮盖后的样本图像、属于非遮盖文本的样本文本、所述属于非遮盖文本的样本文本的语义特征以及所述属于非遮盖文本的样本文本的位置特征输入至所述原始训练模型中，得到所述原始训练模型输出的所述样本图像中所述遮盖文本位置处的文本，作为所述样本图像中的遮盖文本对应的预测遮盖文本；

33、基于各所述样本图像中的遮盖文本与各所述样本图像中的遮盖文本对应的预测遮盖文本之间的差异，对所述原始训练模型的参数进行调整，并以参数调整后的原始训练模型作为新的原始训练模型，返回执行所述针对各所述样本图像本文档来自技高网...

【技术保护点】

1.一种答案确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述针对各所述目标文本，根据所述目标文本对应的各上下文文本的多模态特征，预测得到所述目标图像中所述目标文本的位置处的文本，作为所述目标文本对应的预测文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述针对各所述目标文本，根据所述目标文本对应的各上下文文本的多模态特征、所述目标文本的语义特征，预测得到所述目标文本为准确识别得到的文本的概率，作为所述目标文本的目标概率，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述当前目标文本对应的各上下文文本的多模态特征，确定所述当前目标文本的上下文特征，作为新的当前上下文特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述原始文本的多模态特征还包括：所述原始文本的视觉特征；

6.根据权利要求5所述的方法，其特征在于，所述多模态预训练模型为预先基于样本图像通过下述方式一、方式二以及方式三中任意一种或多种方式对原始训练模型训练得到的；

7.根据权利要求1

8.一种答案确定装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。

...

【技术特征摘要】

1.一种答案确定方法，其特征在于，所述方法包括：

5...

【专利技术属性】
技术研发人员：吴慧妍，李灿，乔梁，
申请(专利权)人：杭州海康威视数字技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人