System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于提示指导和自监督对比学习的视觉问答方法技术_技高网
当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于提示指导和自监督对比学习的视觉问答方法技术

技术编号:41321636 阅读:10 留言:0更新日期:2024-05-13 15:00
本发明专利技术涉及人工智能的视觉问答技术领域,特别是涉及一种基于提示指导和自监督对比学习的视觉问答方法,包括:获取目标问题,将目标问题输入预设的视觉问答模型中,输出预测的答案,其中视觉问答模型包括:提示样本生成模块,用于构建提示模板,并基于提示模板结合图像‑问题对的信息生成提示样本;嵌入提取模块,用于基于提示样本指导图像‑问题对中文本信息和图像信息的挖掘,获取文本嵌入和视觉嵌入;嵌入融合模块,用于对文本嵌入和视觉嵌入进行注意力机制增强,并将增强后的文本嵌入和视觉嵌入进行融合,获取融合嵌入;答案预测模块,用于基于融合嵌入预测视觉问答任务的答案。本发明专利技术能够准确进行视觉问答。

【技术实现步骤摘要】

本专利技术涉及人工智能的视觉问答,特别是涉及一种基于提示指导和自监督对比学习的视觉问答方法


技术介绍

1、视觉问答任务是一个典型的视觉-语言任务,其对图像输入、问题输入和外部补充知识进行学习、挖掘和交互以进行回答。现有的大多数视觉问答工作所需要的信息来源于图像和文本输入,另外还有一些视觉问答模型需要对外部知识进行学习才能作答。且上述现有视觉问答技术忽略了与图像-问题对相关的思维链,大多存在预测准确率不高、推理能力不强、提取特征单一等技术缺陷,以及模型复杂、计算量大等问题。

2、面向科学问题的视觉问答任务,所有图像-问题对涉及主题、话题、类别、技能、年级、难易程度等多种属性。主题属性包括自然科学、社会科学和语言科学。相似地,还有其他丰富的属性:26种话题,127种类别,379种技能和12个年级。如果两个图像-问题对的属性信息不同,则他们所需的文本信息、视觉信息和逻辑推理能力也不同。因此,为了更好地挖掘图像-问题对的属性信息,并利用其增强文本和视觉的学习过程,一种基于提示指导和自监督对比学习的视觉问答方法被提出。


技术实现思路

1、本专利技术的目的是提供一种基于提示指导和自监督对比学习的视觉问答方法,根据属性信息、干扰信息和提示模板生成提示样本,再基于提示指导策略和监督对比学习得到预测答案。

2、为实现上述目的,本专利技术提供了如下方案:

3、一种基于提示指导和自监督对比学习的视觉问答方法,包括:

4、获取目标问题,将所述目标问题输入预设的视觉问答模型中,输出预测的答案,其中,所述视觉问答模型包括:提示样本生成模块、嵌入提取模块、嵌入融合模块、答案预测模块;

5、所述提示样本生成模块,用于构建提示模板,并基于所述提示模板结合图像-问题对的信息生成提示样本;

6、所述嵌入提取模块,用于基于所述提示样本指导所述图像-问题对中文本信息和图像信息的挖掘,获取文本嵌入和视觉嵌入;

7、所述嵌入融合模块,用于对所述文本嵌入和视觉嵌入进行注意力机制增强,并将增强后的文本嵌入和视觉嵌入进行融合,获取融合嵌入;

8、所述答案预测模块,用于基于所述融合嵌入预测视觉问答任务的答案。

9、可选地,所述提示样本生成模块基于所述提示模板结合图像-问题对的信息生成提示样本包括:

10、将所述提示模板与所述图像-问题对的属性信息、干扰信息结合并输入分类器,生成所述提示样本,所述提示样本包括提示正例样本和提示反例样本。

11、可选地,所述嵌入提取模块获取所述文本嵌入包括:

12、将所述提示正例样本和提示反例样本分别与文本输入思维链和进行整合,获取输入和输入;

13、对所述输入和输入分别添加标记后输入预训练的bert模型中,获取文本嵌入和文本嵌入。

14、可选地,所述嵌入提取模块获取所述视觉嵌入包括:

15、将图像和所述提示正例样本成对输入预训练的vilt模型中,获取第一视觉输入,并对所述第一视觉输入进行拼接整合,获取第一视觉嵌入;

16、对所述图像进行视觉增强后和所述提示正例样本成对输入预训练的vilt模型中,获取第二视觉输入,并对所述第二视觉输入进行拼接整合,获取第二视觉嵌入。

17、可选地,所述嵌入融合模块对所述文本嵌入和视觉嵌入进行注意力机制增强包括:

18、将所述文本嵌入视为查询集合、所述视觉嵌入视为键值集合进行交叉注意力机制增强,获取增强后的视觉嵌入;

19、将所述视觉嵌入视为查询集合、所述文本嵌入视为键值集合进行交叉注意力机制增强,获取增强后的文本嵌入。

20、可选地,将增强后的文本嵌入和视觉嵌入进行融合包括:

21、将增强后的文本嵌入和视觉嵌入分别进行拼接后输入全连接神经网络中,获取所述融合嵌入,所述融合嵌入为:

22、,

23、

24、其中,为第一融合嵌入,为第二融合嵌入,fcn为全连接神经网络,为前后连接,为交叉注意力机制增强后的文本嵌入,为交叉注意力机制增强后的第一视觉嵌入,为交叉注意力机制增强后的第二视觉嵌入。

25、可选地,所述答案预测模块基于所述融合嵌入预测视觉问答任务的答案的方法为:

26、

27、其中,为预测结果,为激活函数。

28、可选地,所述视觉问答模型中还包括模型优化模块,所述模型优化模块用于通过计算损失进行模型优化,计算所述损失的方法为:

29、,

30、,

31、,

32、,

33、

34、其中,为视觉问答对比损失;、、和为损失参数;为面向qcm输入的对比损失;为面向cot输入的对比损失;为面向融合嵌入的对比损失;为预测结果和标签之间的损失;exp为以自然常数e为底的指数函数;为经过全连接神经网络学习的第i个提示正例样本的文本嵌入;为经过全连接神经网络学习的第r个提示正例样本的文本嵌入;且、,为提示正例样本的总数;为经过全连接神经网络学习的第j个提示反例样本的文本嵌入,为提示反例样本的总数;为温度参数,为经过全连接神经网络学习的第i个提示正例样本的文本嵌入;为经过全连接神经网络学习的第r个提示正例样本的文本嵌入;为经过全连接神经网络学习的第j个提示反例样本的文本嵌入;为第i个图像的第一融合嵌入,为第i个图像的第二融合嵌入;为第j个图像的第一融合嵌入;且、,为图像总数;,为第个图像-问题对属于第个类别的预测结果;,为第个图像-问题对属于第个类别的标签,若第个图像-问题对属于第类别,则,否则;为类别总数,为图像-问题对总数。

35、本专利技术的有益效果为:

36、本专利技术构建了多类提示模板,这些模板与图像-问题对的属性信息、干扰信息和一个分类器相结合,生成相应的提示正例和提示反例,再通过提示正例和提示反例指导文本信息和图像信息的挖掘,进而学得提示引导的文本表示和视觉表示,能够通过自监督对比学习,进行多模态嵌入的融合和答案的预测,且预测结果准确度高。

本文档来自技高网...

【技术保护点】

1.一种基于提示指导和自监督对比学习的视觉问答方法,其特征在于,包括:

2.根据权利要求1所述的基于提示指导和自监督对比学习的视觉问答方法,其特征在于,所述嵌入提取模块获取所述文本嵌入包括:

3.根据权利要求1所述的基于提示指导和自监督对比学习的视觉问答方法,其特征在于,所述嵌入提取模块获取所述视觉嵌入包括:

4.根据权利要求1所述的基于提示指导和自监督对比学习的视觉问答方法,其特征在于,所述嵌入融合模块对所述文本嵌入和视觉嵌入进行注意力机制增强包括:

5.根据权利要求4所述的基于提示指导和自监督对比学习的视觉问答方法,其特征在于,将增强后的文本嵌入和视觉嵌入进行融合包括:

6.根据权利要求5所述的基于提示指导和自监督对比学习的视觉问答方法,其特征在于,所述答案预测模块基于所述融合嵌入预测视觉问答任务的答案的方法为:

7.根据权利要求1-6任一项所述的基于提示指导和自监督对比学习的视觉问答方法,其特征在于,所述视觉问答模型中还包括模型优化模块,所述模型优化模块用于通过计算损失进行模型优化,计算所述损失的方法为

...

【技术特征摘要】

1.一种基于提示指导和自监督对比学习的视觉问答方法,其特征在于,包括:

2.根据权利要求1所述的基于提示指导和自监督对比学习的视觉问答方法,其特征在于,所述嵌入提取模块获取所述文本嵌入包括:

3.根据权利要求1所述的基于提示指导和自监督对比学习的视觉问答方法,其特征在于,所述嵌入提取模块获取所述视觉嵌入包括:

4.根据权利要求1所述的基于提示指导和自监督对比学习的视觉问答方法,其特征在于,所述嵌入融合模块对所述文本嵌入和视觉嵌入进行注意力机制增强包括:

【专利技术属性】
技术研发人员:徐昊高玲冯昊天盛楠刘一鸣张洪达
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1