基于多视图关系一致性的弱监督跨模态目标检索方法技术

技术编号：41999993 阅读：20 留言：0更新日期：2024-07-12 12:23

本发明专利技术涉及计算机视觉和模式识别技术领域，尤其涉及一种基于多视图关系一致性的弱监督跨模态目标检索方法。本发明专利技术通过构建多视图超图，并根据多视图超图进行基于标签传播算法的关系一致性推理，能够有效融合来自多个视图的样本关系，使多个视图的信息互补，能够挖掘出多视角样本关系中的一致性，实现基于多视角训练弱监督跨模态模型，提高模型的鲁棒性，从而根据弱监督跨模态模型对于多样、异构和复杂的多模态数据可以获得更好的跨模态目标检索性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉和模式识别，尤其涉及一种基于多视图关系一致性的弱监督跨模态目标检索方法。

技术介绍

1、跨模态目标检索，旨在将人、车等目标图像与相应的查询文本描述关联起来，在智慧城市、智慧安防中有着广泛应用。然而，由于多模态数据通常具有多样性、异构性和复杂性，获取大量的标注数据并不容易。因此弱监督跨模态目标检索任务被提出，它只包括没有身份注释的文本-图像对。这个任务面临着复杂的模态内部变化和跨模态匹配歧义等难点。

2、现有技术的基于文本的无监督行人目标检索方法，通常采用自训练和聚类生成伪标签，然而，由于图像、文本数据中存在大量的噪声，现有的跨模态目标检索模型在跨模态目标检索任务中的表现不理想，且因为基于聚类的伪标签只能利用有限视图的样本关系，可靠性较差，进一步使得训练得到的跨模态目标检索模型性能变差。因此，如何获得具有更好性能的跨模态目标检索模型，取得更好的目标检索效果，是目前亟需解决的重要问题。

技术实现思路

1、本专利技术提供一种基于多视图关系一致性的弱监督跨模态目标检索方法，用以解决现有技术中多模态数据具有的多样性、异构性和复杂性的缺陷，实现具有高鲁棒性的跨模态目标检索。

2、本专利技术提供一种基于多视图关系一致性的弱监督跨模态目标检索方法，包括以下步骤：

3、基于多模态数据训练跨模态目标检索模型；

4、使用跨模态目标检索模型获取跨模态目标检索结果；

5、其中，基于多模态数据训练跨模态目标检索模型，包括以下步骤：

6、根据多模态数据的目标域样本图片，提取视觉嵌入特征；根据多模态数据的目标域文本图片，提取文本嵌入特征；

7、根据视觉嵌入特征和文本嵌入特征，通过聚类方法构建多视图超图；

8、根据多视图超图进行基于标签传播算法的关系一致性推理，得到可靠伪标签；

9、基于可靠伪标签进行训练，得到目标检索模型。

10、根据本专利技术提供的基于多视图关系一致性的弱监督跨模态目标检索方法，所述根据多视图超图进行基于标签传播算法的关系一致性推理，得到可靠伪标签，包括以下步骤：

11、根据多视图超图确定初始聚类和初始可靠伪标签；

12、根据初始聚类和初始伪标签，计算误差矩阵；

13、根据误差矩阵进行标签传播，得到所有数据实例的可靠伪标签。

14、根据本专利技术提供的基于多视图关系一致性的弱监督跨模态目标检索方法，根据初始聚类和初始伪标签，计算误差矩阵，其表达式为：

15、

16、其中，εr为可靠实例的误差矩阵，εu为不可靠实例的误差矩阵，为初始预测矩阵，为可靠的one-hot向量和其他位置的零组成的特征矩阵；

17、根据误差矩阵进行标签传播，得到所有数据实例的可靠伪标签，其表达式为：

18、εu(t+1)＝a1[-1/2ad-1/2εt]u

19、其中，u下标表示在误差矩阵中选择除可靠实例以外的项，t为迭代次数，ε为误差矩阵，a为多视图超图的邻接矩阵，a1为第一预设系数，d为度矩阵；

20、根据误差矩阵得到校正后的标签预测其表达式为：

21、

22、其中，s为尺度系数。

23、根据本专利技术提供的基于多视图关系一致性的弱监督跨模态目标检索方法，基于可靠伪标签进行训练，得到目标检索模型，具体为：基于视觉或文本嵌入与id原型之间的模态内匹配目标函数和跨模态匹配目标函数进行训练，得到目标检索模型；

24、总损失函数的表达式为：

25、

26、其中，为模态内匹配目标函数，为跨模态匹配目标函数。

27、根据本专利技术提供的基于多视图关系一致性的弱监督跨模态目标检索方法，所述模态内匹配目标函数，其表达式为：

28、

29、

30、

31、其中，fiv是第i个视觉编码，fit是第i个视觉编码对应的第i个文本编码，cv表示视觉原型，cv的下标为视觉原型的标识，ct表示文本原型，ct的下标为文本原型的标识，τ为双重对比损失，nt为文本id数量，nv为视觉id数量。

32、根据本专利技术提供的基于多视图关系一致性的弱监督跨模态目标检索方法，所述跨模态匹配目标函数，其表达式为：

33、

34、

35、

36、其中，fiv是第i个视觉编码，fit是第i个视觉编码对应的第i个文本编码，cv表示视觉原型，cv的下标为视觉原型的标识，ct表示文本原型，ct的下标为文本原型的标识，τ为双重对比损失，nt为文本id数量，nv为视觉id数量。

37、本专利技术还提供一种基于多视图关系一致性的弱监督跨模态目标检索装置，包括：

38、模型训练模块，用于基于多模态数据训练跨模态目标检索模型；

39、跨模态检索模块，用于使用跨模态目标检索模型获取跨模态目标检索结果；

40、其中，基于多模态数据训练跨模态目标检索模型，包括以下步骤：

41、根据多模态数据的目标域样本图片，提取视觉嵌入特征；根据多模态数据的目标域文本图片，提取文本嵌入特征；

42、根据视觉嵌入特征和文本嵌入特征，通过聚类方法构建多视图超图；

43、根据多视图超图进行基于标签传播算法的关系一致性推理，得到可靠伪标签；

44、基于可靠伪标签进行训练，得到目标检索模型。

45、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于多视图关系一致性的弱监督跨模态目标检索方法。

46、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于多视图关系一致性的弱监督跨模态目标检索方法。

47、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于多视图关系一致性的弱监督跨模态目标检索方法。

48、本专利技术提供的基于多视图关系一致性的弱监督跨模态目标检索方法，通过构建多视图超图，并根据多视图超图进行基于标签传播算法的关系一致性推理，能够有效融合来自多个视图的样本关系，使多个视图的信息互补，能够挖掘出多视角样本关系中的一致性，实现基于多视角训练弱监督跨模态模型，提高模型的鲁棒性，从而根据弱监督跨模态模型对于多样、异构和复杂的多模态数据可以获得更好的跨模态目标检索性能。

本文档来自技高网...

【技术保护点】

1.一种基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，所述根据多视图超图进行基于标签传播算法的关系一致性推理，得到可靠伪标签，包括以下步骤：

3.根据权利要求2所述的基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，根据初始聚类和初始伪标签，计算误差矩阵，其表达式为：

4.根据权利要求1所述的基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，基于可靠伪标签进行训练，得到目标检索模型，具体为：基于视觉或文本嵌入与ID原型之间的模态内匹配目标函数和跨模态匹配目标函数进行训练，得到目标检索模型；

5.根据权利要求4所述的基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，所述模态内匹配目标函数，其表达式为：

6.根据权利要求4所述的基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，所述跨模态匹配目标函数，其表达式为：

7.一种基于多视图关系一致性的弱监督跨模态目标检索装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于多视图关系一致性的弱监督跨模态目标检索方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于多视图关系一致性的弱监督跨模态目标检索方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于多视图关系一致性的弱监督跨模态目标检索方法。

...

【技术特征摘要】

1.一种基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，根据初始聚类和初始伪标签，计算误差矩阵，其表达式为：

4.根据权利要求1所述的基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，基于可靠伪标签进行训练，得到目标检索模型，具体为：基于视觉或文本嵌入与id原型之间的模态内匹配目标函数和跨模态匹配目标函数进行训练，得到目标检索模型；

5.根据权利要求4所述的基于多视图关系一致性的弱监督跨模态目标检索方法，其特征在于，所述模态内匹配目标函数，其表达式为：

【专利技术属性】
技术研发人员：王金桥，曲美至，郭海云，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人