System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多模态数据处理方法、装置、设备、介质和程序产品制造方法及图纸_技高网

多模态数据处理方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:43184184 阅读:2 留言:0更新日期:2024-11-01 20:09
本公开涉及人工智能技术领域,公开了多模态数据处理方法、装置、设备、介质和程序产品,方法包括获取多模态任务对应的非文本数据,并对非文本数据进行编码,得到非文本数据的特征向量;对非文本数据的特征向量进行全局信息的特征空间映射以及局部信息的特征空间映射,得到非文本数据的特征向量在文本特征空间下的全局特征向量以及局部特征向量;将全局特征向量以及局部特征向量输入语言模型中,以得到多模态任务的处理结果。可以提高模型精度。

【技术实现步骤摘要】

本公开涉及人工智能,具体涉及多模态数据处理方法、装置、设备、介质和程序产品


技术介绍

1、多模态语言模型(multimodal language model,mlm)是一种结合了自然语言处理、计算机视觉、语音识别等多种技术的人工智能系统,其可以处理并融合不同模态的输入数据(比如文本、图像、音频等),并得到处理结果。目前,在多模态语言模型技术中,不同模态之间存在语义鸿沟,降低了模型精度。

2、因此,亟需一种可以提高模型精度的方法。


技术实现思路

1、有鉴于此,本公开提供了一种多模态数据处理方法、多模态数据处理装置、电子设备、计算机可读存储介质和计算机程序产品,可以提高模型精度。

2、第一方面,本公开提供了一种多模态数据处理方法,所述方法包括:

3、获取多模态任务对应的非文本数据,并对所述非文本数据进行编码,得到所述非文本数据的特征向量;

4、对所述非文本数据的特征向量进行全局信息的特征空间映射以及局部信息的特征空间映射,得到所述非文本数据的特征向量在文本特征空间下的全局特征向量以及局部特征向量;

5、将所述全局特征向量以及所述局部特征向量输入语言模型中,以得到所述多模态任务的处理结果。

6、第二方面,本公开提供了一种多模态数据处理装置,所述装置包括:

7、数据获取模块,用于获取多模态任务对应的非文本数据,并对所述非文本数据进行编码,得到所述非文本数据的特征向量;

8、映射模块,用于对所述非文本数据的特征向量进行全局信息的特征空间映射以及局部信息的特征空间映射,得到所述非文本数据的特征向量在文本特征空间下的全局特征向量以及局部特征向量;

9、任务处理模块,用于将所述全局特征向量以及所述局部特征向量输入语言模型中,以得到所述多模态任务的处理结果。

10、第三方面,本公开提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如上方法。

11、第四方面,本公开提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述方法。

12、第五方面,本公开提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述方法。

13、在本公开一些实施例的技术方案中,对多模态任务对应的非文本数据进行编码后,可以得到非文本数据在非文本特征空间的特征向量。对非文本数据的特征向量进行全局信息的特征空间映射后所得到的全局特征向量,可以反映非文本数据的全局特征,以及对非文本数据的特征向量进行局部信息的特征空间映射后所得到的局部特征向量,可以反映非文本数据的局部特征。将全局特征向量以及局部特征向量输入语言模型,可以减少非文本数据的信息丢失,使得语言模型可以获得非文本数据的比较丰富的信息。基于这些比较丰富的信息,语言模型便可以生成比较准确的处理结果。如此,达到了提高模型精度的目的。

本文档来自技高网...

【技术保护点】

1.一种多模态数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述非文本数据的特征向量进行全局信息的特征空间映射以及局部信息的特征空间映射,得到所述非文本数据的特征向量在文本特征空间下的全局特征向量以及局部特征向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述连接模型包括全局注意力模型和局部注意力模型;

4.根据权利要求3所述的方法,其特征在于,所述局部注意力模型包括多个具有层级关系的网络层,且不同的网络层对应不同的特征映射尺度;

5.根据权利要求3所述的方法,其特征在于,所述连接模型包括第一超参数;

6.根据权利要求3所述的方法,其特征在于,所述连接模型包括第二超参数;

7.一种多模态数据处理装置,其特征在于,所述装置包括:

8.一种电子设备,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至6中任一项所述的多模态数据处理方法。

>10.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行权利要求1至6中任一项所述的多模态数据处理方法。

...

【技术特征摘要】

1.一种多模态数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述非文本数据的特征向量进行全局信息的特征空间映射以及局部信息的特征空间映射,得到所述非文本数据的特征向量在文本特征空间下的全局特征向量以及局部特征向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述连接模型包括全局注意力模型和局部注意力模型;

4.根据权利要求3所述的方法,其特征在于,所述局部注意力模型包括多个具有层级关系的网络层,且不同的网络层对应不同的特征映射尺度;

5.根据权利要求3所述的方法...

【专利技术属性】
技术研发人员:王安澜单斌黄灿
申请(专利权)人:抖音视界有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1