用于多模态融合的数据对齐处理方法及装置制造方法及图纸

技术编号：42969550 阅读：15 留言：0更新日期：2024-10-15 13:12

本说明书实施例提供用于多模态融合的数据对齐处理方法及装置，其中方法包括：采集图像数据，确定图像数据对应的文本数据；将图像数据通过图像编码器确定图像高维特征，以及将文本数据通过文本编码器确定文本高维特征；将文本高维特征和图像高维特征输入特征对齐模块，确定文本对齐特征和图像对齐特征；将图像对齐特征输入文本解码器，以及将文本对齐特征输入图像编码器，对解码器进行特征修正，生成目标图像和目标文本，可以实现在图像文本相互生成中，生成相似度高的样本也能促进两个模态的数据对齐，提高多模态特征融合的充分程度。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例涉及机器学习，特别涉及用于多模态融合的数据对齐处理方法。

技术介绍

1、随着人工智能技术的高速发展，其应用场景不断扩展，面临的问题也越来越复杂。在之前的研究中，文本处理和图像处理是两个相对独立的领域，但是随着对人工智能需求的不断增强以及神经网络技术的不断发展，利用多模态技术融合技术处理更为复杂的任务已经成为一种趋势，而在多模态融合中数据特征对齐是需要解决的关键问题。文本模态和视觉模态作为最常见和最重要的两个模态，实现文本数据与视觉数据的数据特征对齐，对于实现文本-视觉模态融合十分重要。当前文本-视觉数据特征对齐方法是通过采用两个编码器对文本数据和图像数据分别进行编码，然后对提取的特征进行对齐。

2、当前采用的两个编码器的方法只考虑了编码过程中的特征相似性，不能很好的将不同模态的数据投影到同一高维空间。然而在图像文本相互生成中，生成相似度高的样本也能促进两个模态的数据对齐，在生成过程中解码器特征对于数据对齐也会产生积极影响。

3、由此，亟须一种更好的方案。

技术实现思路

1、有鉴于此，本说明书实施例提供了用于多模态融合的数据对齐处理方法。本说明书一个或者多个实施例同时涉及用于多模态融合的数据对齐处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种用于多模态融合的数据对齐处理方法，包括：

3、采集图像数据，确定图像数据对应的文本数据；

4、将图像数据通过图像编码器确定图像高维特征，以及将文本数据通过文本编码器确定文本高维特征；

5、将文本高维特征和图像高维特征输入特征对齐模块，确定文本对齐特征和图像对齐特征；

6、将图像对齐特征输入文本解码器，以及将文本对齐特征输入图像编码器，对解码器进行特征修正，生成目标图像和目标文本。

7、在一种可能的实现方式中，将高维特征输入特征对齐模块，确定对齐特征，包括：

8、基于对比学习方法对图像高维特征和文本高维特征进行相似度计算，确定相似度结果；

9、基于相似度结果将图像高维特征和文本高维特征进行关联，确定对齐特征。

10、在一种可能的实现方式中，基于对比学习方法对图像高维特征和文本高维特征进行相似度计算，确定相似度结果，包括：

11、基于余弦相似度计算规则确定图像高维特征和文本高维特征的相似度；

12、基于多个相似度确定相似度结果。

13、在一种可能的实现方式中，基于相似度结果将图像高维特征和文本高维特征进行关联，确定对齐特征，包括：

14、基于相似度结果确定对比学习损失；

15、基于对比学习损失将图像高维特征和文本高维特征进行关联，确定对齐特征。

16、在一种可能的实现方式中，还包括：

17、通过目标图像与图像数据计算图像生成损失，通过生成的目标文本与原始文本计算文本生成损失；

18、通过图像生成损失、文本生成损失和对比学习损失，计算总体损失；

19、对总体损失进行最小化实现文本与图像特征的对齐。

20、在一种可能的实现方式中，将对齐特征输入解码器，编码器对解码器进行特征修正，包括：

21、将图像编码器对应的对齐特征通过文本解码器解码，将文本编码器中与文本解码器中对应的特征进行融合，以进行文本解码器的特征修正；

22、将文本编码器对应的对齐特征通过图像解码器解码，将图像编码器中与图像解码器中对应的特征进行融合，以进行图像解码器的特征修正。

23、在一种可能的实现方式中，余弦相似度计算规则，包括：

24、

25、其中，ti为batch中每个文本数据的特征，ii为batch中每个图像数据的特征。

26、根据本说明书实施例的第二方面，提供了一种用于多模态融合的数据对齐处理装置，包括：

27、数据采集模块，被配置为采集图像数据，确定图像数据对应的文本数据；

28、特征确定模块，被配置为将图像数据通过图像编码器确定图像高维特征，以及将文本数据通过文本编码器确定文本高维特征；

29、特征对齐模块，被配置为将文本高维特征和图像高维特征输入特征对齐模块，确定文本对齐特征和图像对齐特征；

30、数据生成模块，被配置为将图像对齐特征输入文本解码器，以及将文本对齐特征输入图像编码器，对解码器进行特征修正，生成目标图像和目标文本。

31、根据本说明书实施例的第三方面，提供了一种计算设备，包括：

32、存储器和处理器；

33、所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述用于多模态融合的数据对齐处理方法的步骤。

34、根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述用于多模态融合的数据对齐处理方法的步骤。

35、根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述用于多模态融合的数据对齐处理方法的步骤。

36、本说明书实施例提供用于多模态融合的数据对齐处理方法及装置，其中方法包括：采集图像数据，确定图像数据对应的文本数据；将图像数据通过图像编码器确定图像高维特征，以及将文本数据通过文本编码器确定文本高维特征；将文本高维特征和图像高维特征输入特征对齐模块，确定文本对齐特征和图像对齐特征；将图像对齐特征输入文本解码器，以及将文本对齐特征输入图像编码器，对解码器进行特征修正，生成目标图像和目标文本，可以实现在图像文本相互生成中，生成相似度高的样本也能促进两个模态的数据对齐，提高多模态特征融合的充分程度。

本文档来自技高网...

【技术保护点】

1.一种用于多模态融合的数据对齐处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述高维特征输入特征对齐模块，确定对齐特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于对比学习方法对所述图像高维特征和所述文本高维特征进行相似度计算，确定相似度结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述相似度结果将所述图像高维特征和所述文本高维特征进行关联，确定对齐特征，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述对齐特征输入所述解码器，所述编码器对所述解码器进行特征修正，包括：

7.根据权利要求3所述的方法，其特征在于，所述余弦相似度计算规则，包括：

8.一种用于多模态融合的数据对齐处理装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括：

10.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任

...

【技术特征摘要】

1.一种用于多模态融合的数据对齐处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述高维特征输入特征对齐模块，确定对齐特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于对比学习方法对所述图像高维特征和所述文本高维特征进行相似度计算，确定相似度结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述相似度结果将所述图像高维特征和所述文本高维特征进行关联，确定对齐特征，包括：

5.根据权利要求4所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：李立江，赵雪，胡敏，宁欣，唐小江，卢宝莉，李爽，
申请(专利权)人：北京中科睿途科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人