System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于模态融合与空间位置编码的多模态情感分析方法技术_技高网

一种基于模态融合与空间位置编码的多模态情感分析方法技术

技术编号:42910116 阅读:6 留言:0更新日期:2024-10-11 15:41
本发明专利技术涉及一种基于模态融合与空间位置编码的多模态情感分析方法,属于自然语言处理领域。该方法为:1)对原始的数据样本进行处理,提取出文本模态、语音模态、视频模态;2)构建空间位置编码模块降低位置特征信息损失;3)设计融合嵌入模块,以文本作为基本模态同语音和视频模态进行融合;4)设计情感分类器和损失函数,损失函数用于模型训练参数更新;5)通过与多种不同方法进行对比,验证所提方法的有效性。本发明专利技术专利能够解决现有融合方法缺乏保留模态关键特征的能力以及忽略位置特征信息的问题,增加多模态情感分析模型的泛化能力。

【技术实现步骤摘要】

本专利技术属于多模态情感分析领域,涉及一种基于模态融合与空间位置编码的多模态情感分析方法


技术介绍

1、随着通信技术的进步和facebook、youtube等社交平台的普及,人们越来越习惯于通过各种数据在这些社交平台上表达自己的情感观点。早期的情感分析只能从文本这种单一模态数据中提取和分析人们对某一主体、行为的情绪、态度以及立场,没有考虑到语音和视频等其他模态数据中所包含的情感信息,在大多数的环境下并不能够有效地提取和分析人们发表内容的真实情感观点。因此多模态情感分析侧重于将基于文本的情感分析推广到包含文本、视觉、语音或者其他形式的多模态信息。多模态情感分析在处理复杂的多模态数据时取得了显著的改善,并受到越来越多的关注。由于可以从这些多模态数据中提取出人们最真实的情感和观点,因此情感分析可以应用于社会推荐、舆情预警、信任管理、心理健康等实际应用领域。

2、除了个体层面的应用,情感分析在国家层面也具有重要影响。在政府决策和治理方面,情感分析可为政府提供准确的民意反馈,有助于制定更有针对性和可行性的政策。此外,对于国家形象的管理和危机应对,情感分析能够监测社交媒体等渠道中的情感反馈,帮助国家及时回应公众关切,有效避免负面情绪对国家形象的损害。在国际关系中,情感分析通过分析国际社交媒体和新闻报道中的情感色彩,为国家提供更好地理解国际社会对其政策和行为的反应,有助于提升国家形象,加强国际的沟通与合作,从而促进国家在全球舞台上的声誉和影响力。

3、然而,早期的情感分析只能从文本这种单一模态数据中提取和分析人们对某一主体、行为的情绪、态度以及立场,没有考虑到语音和视频等其他模态数据中所包含的情感信息,在大多数的环境下并不能够有效地提取和分析人们发表内容的真实情感观点。于是针对多模态数据的情感分析开始逐渐受到更多学者的青睐。

4、事实上,现在的多模态情感分析包含了许多不同的分支任务,很大一部分原因是随着传感器技术的发展,数据类型变得多种多样,而根据对“多模态”的定义,多模态数据已经是一个非常庞大的数据集合。在目前众多的多模态情感分析任务中,文本、语音和视频数据结合的视频多模态数据相比其他多模态数据在众多社交平台中出现得更为频繁。因此,能够结合多个模态数据的视频多模态情感分析的研究具有重要意义。

5、不同于传统的单模态情感分析,视频多模态情感分析需要从更复杂的视频多模态数据中提取融合的情感信息,判断情感倾向。在最初,许多研究者都只是简单地从各个模态中分别提取情感信息并直接进行融合来实现多模态情感分析。虽然可以通过改进从不同模态提取情感信息的方式来提高模型的情感分析能力,但是这类方法忽略了模态内和模态之间的关联,难以有效地联合不同模态中的情感信息,不能够完全体现出视频多模态情感分析的优势。

6、针对上述问题,在目前的多模态情感分析中,基于模态融合方法比其他基于单一模态的方法能更有效保留关键特征。但是现有方法并没有充分考虑到模态数据在传播过程中会有空间位置信息损失,因此有必要对模态数据进行空间位置编码以降低其空间位置信息的损失。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种基于模态融合与空间位置编码的多模态情感分析方法。

2、为达到上述目的,本专利技术提供如下技术方案:

3、一种基于模态融合与空间位置编码的多模态情感分析方法,包括以下步骤:

4、步骤一:对原始的数据样本进行处理,提取出文本模态、语音模态、视频模态;

5、步骤二:构建空间位置编码模块降低位置特征信息损失;

6、步骤三:设计融合嵌入模块,以文本作为基本模态同语音和视频模态进行融合;

7、步骤四:设计情感分类器和损失函数;

8、步骤五:通过与多种不同方法进行对比,验证所提方法的有效性。

9、可选的,所述步骤一具体过程包括:考虑到原始数据中含有与模态信息无关的噪声,所以我们对原始数据进行预处理,从原始数据样本中提取出文本模态、语音模态、视频模态信息。xt、xa和xv分别代表的是文本模态、语音模态以及视频模态。对模态对的定义如下:t=(xt),v'=(xt,fv),a'=(xt,fa)。

10、可选的,所述步骤二具体过程包括:空间位置编码模块:对输入模态数据构建一个l×n的矩阵,其中l代表行,n代表列,分别对行位置信息和列位置信息进行编码。为了确保位置信息的完整性,我们遵循一种特定的对应规则:奇数位置对应着奇数位置信息,而偶数位置则对应着偶数位置信息。其中per代表行位置编码,pec代表列位置编码;k和j代表token在序列中的位置;q表示奇数维,2q表示偶数维;dmodel表示token的维度为512维。

11、

12、经过空间位置编码后我们分别得到了行位置向量以及列位置向量:

13、r=[r0,r1,r2,...,rk]t,c=[c0,c1,c2,...,cj]t

14、此时我们能够得到编码后的矩阵o':

15、o'=r⊙ct

16、经过空间位置编码处理后,获得的模态信息还需要与原始信息进行相加操作。这一步目的是尽可能减小模态特征信息的损失,确保编码后的数据与原始数据在关键特征上保持一致。由于经过空间位置编码的信息与原始信息在内容和结构上可能存在一定的差异,直接相加可能无法完全达到预期效果。因此,我们引入了一个权重参数,用来调节这两者在最终融合信息中的权重占比。这样可以实现编码信息和原始信息的有效融合,既保留了原始数据的特征,又充分利用了空间位置编码带来的优势。最后的输出为:

17、f=(1-α)·o+αo',f∈{a,v}

18、其中o代表原始信息,o'代表经过编码后的信息,α代表二者融合信息中的权重参数。

19、可选的,所述步骤三具体过程包括:融合嵌入模块:融合嵌入集成了文本信息嵌入和融合门机制。在文本嵌入部分包含了标记嵌入和位置嵌入,它们分别将文本xt的单词标记转换为真实的数字信息,为文本提供位置信息。文本嵌入使用普通bert标记嵌入和位置嵌入,文本嵌入和空间位置编码的输出结果作为融合门的输入。

20、bert使用t、v'和a'这三对处理好的数据作为输入。经过空间位置编码后生成的f与完成文本嵌入的数据经过融合后生成了v'和a',其中文本模态作为基本模态与另外两个模态进行融合,如图4所示。这种融合过程首先通过一个线性层,对文本和其他模态的数据进行维度匹配,确保它们在同一维度空间内。接着,将这两种模态的数据进行连接,形成一个统一的表示,这个表示同时包含了文本和其他模态的信息。最后,对连接好的模态数据进行层归一化处理,以消除不同模态之间的尺度差异,进一步促进信息的融合。对应公式如下:

21、

22、其中被定义为将t和f进行融合,其中t代表的是文本模态,而f表示的是语音模态或视频模态。

23、由于这些模态的处理方式各异,它们具有不同的维度。我们将文本本文档来自技高网...

【技术保护点】

1.一种基于模态融合与空间位置编码的多模态情感分析方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的一种基于模态融合与空间位置编码的多模态情感分析方法,其特征在于:所述步骤一中,考虑到原始数据中含有与模态信息无关的噪声,所以我们对原始数据进行预处理,从原始数据样本中提取出文本模态、语音模态、视频模态信息。XT、XA和XV分别代表的是文本模态、语音模态以及视频模态。对模态对的定义如下:T=(XT),V'=(XT,FV),A'=(XT,FA)。

3.根据权利要求2所述的一种基于模态融合与空间位置编码的多模态情感分析方法,其特征在于:所述步骤二中,空间位置编码模块:对输入模态数据构建一个L×N的矩阵,其中L代表行,N代表列,分别对行位置信息和列位置信息进行编码。为了确保位置信息的完整性,我们遵循一种特定的对应规则:奇数位置对应着奇数位置信息,而偶数位置则对应着偶数位置信息。其中PER代表行位置编码,PEC代表列位置编码;k和j代表token在序列中的位置;q表示奇数维,2q表示偶数维;dmodel表示token的维度为512维。

4.根据权利要求3所述的一种基于模态融合与空间位置编码的多模态情感分析方法,其特征在于:在所述步骤三中,融合嵌入模块:融合嵌入集成了文本信息嵌入和融合门机制。文本嵌入使用普通Bert标记嵌入和位置嵌入,文本嵌入和空间位置编码的输出结果作为融合门的输入。Bert使用三对处理好的数据作为输入。其中文本模态作为基本模态与另外两个模态进行融合。这种融合过程首先通过一个线性层,对文本和其他模态的数据进行维度匹配,确保它们在同一维度空间内。接着,将这两种模态的数据连接进行统一表示,这个表示同时包含了文本和其他模态的信息。最后,对连接好的模态数据进行层归一化处理。对应公式如下:

5.根据权利要求4所述的一种基于模态融合与空间位置编码的多模态情感分析方法,其特征在于:所述步骤四中,情感分类器和损失函数:我们引入了自注意力层对WT、WV和WA进行处理,我们将每组多模态的融合表示进行连接操作,并送入全连接层中进行结果的预测。

6.根据权利要求5所述的一种基于模态融合与空间位置编码的多模态情感分析方法,其特征在于:所述步骤五中,通过与多种不同方法进行对比,验证所提方法的有效性。我们在CMU-MOSI和CMU-MOSEI数据集上进行所提方法的实验,通过与目前最先进方法对比验证其有效性。

...

【技术特征摘要】

1.一种基于模态融合与空间位置编码的多模态情感分析方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的一种基于模态融合与空间位置编码的多模态情感分析方法,其特征在于:所述步骤一中,考虑到原始数据中含有与模态信息无关的噪声,所以我们对原始数据进行预处理,从原始数据样本中提取出文本模态、语音模态、视频模态信息。xt、xa和xv分别代表的是文本模态、语音模态以及视频模态。对模态对的定义如下:t=(xt),v'=(xt,fv),a'=(xt,fa)。

3.根据权利要求2所述的一种基于模态融合与空间位置编码的多模态情感分析方法,其特征在于:所述步骤二中,空间位置编码模块:对输入模态数据构建一个l×n的矩阵,其中l代表行,n代表列,分别对行位置信息和列位置信息进行编码。为了确保位置信息的完整性,我们遵循一种特定的对应规则:奇数位置对应着奇数位置信息,而偶数位置则对应着偶数位置信息。其中per代表行位置编码,pec代表列位置编码;k和j代表token在序列中的位置;q表示奇数维,2q表示偶数维;dmodel表示token的维度为512维。

4.根据权利要求3所述的一种基于模态融合与空间位置编码的多...

【专利技术属性】
技术研发人员:甘臣权唐宇张一叶祝清意李显勇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1