多模态多分支融合的宽时间范畴情感识别系统构建方法技术方案

技术编号：41436150 阅读：5 留言：0更新日期：2024-05-28 20:31

本公开涉及一种多模态多分支融合的宽时间范畴情感识别系统构建方法；基于注意力机制的思想设计了鲁棒性较强的多模态多分支融合网络，该网络实现决策级的多模态融合，根据不同分支的识别结果对最终预测的贡献，动态的分配每个分支的权重。为多模态情感识别系统设计了一个基于注意力机制的多模态多分支融合网络。此外，将宽时间范畴的情境信息融入了多模态情感识别系统中，实现了宽时间范畴下的多模态情感识别。实验证明该网络能够有效的实现多模态多分支融合，且在多模态融合过程中，输入的分支越多，情感识别的效果越好，情境描述使实验结果实现了大幅提升，实验证明了多模态融合网络能够提升模型在复杂环境下的识别效果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及面部捕捉，具体为一种多模态多分支融合的宽时间范畴情感识别系统构建方法。

技术介绍

1、多模态情感分析方法可以通过多个模态信息之间的互补，从不同的角度学习情感特征，实现比单模态更好的识别效果。然而，在真实环境中，不同的情感表达方式所展现出的情感强度会存在差异，人类的情感表达有时还会受到其主观的抑制，导致某些模态的情感特征对情感分析的贡献度较低，需要从其他模态的角度去分析其情感状态，因此多模态的情感识别面临着跨模态不平衡的问题。此外，当某个模态出现数据缺失情况，模型的识别效果也会受到影响。基于以上的原因，需要研究如何将不同模态的信息以一种有效的方式进行融合。

技术实现思路

1、为了解决以上的问题，本申请提供一种多模态多分支融合的宽时间范畴情感识别系统构建方法，基于注意力机制的思想设计了鲁棒性较强的多模态多分支融合网络，该网络实现决策级的多模态融合，提升模型在复杂环境下的识别效果。

2、为了达到上述目的，本申请实施例采用的技术方案如下：

3、提供多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于包括如下步骤：

4、1)将模态信息包括面部表情、视频全局情景信息、音频和文本信息，分别通过resnet18+eca+fsfm特征提取模型、resnext+ca+多尺度特征融合特征提取模型、vggish特征提取模型、bert特征提取模型单独训练，得到各自的分类结果；

5、2)使用全局平均池化将每个分支的特征表示转变为一个一维实数，得

6、

7、其中，sj表示第j个通道上的分类结果对应的一维实数，表示第j个通道上特征的第i个元素，经过加和求均值得到结果；

8、3)根据输入的c的数值动态的计算一维卷积核k的尺寸，计算公式如下：

9、

10、

11、其中，k为卷积核尺寸，c为模块的输入通道数，γ和b是为非线性映射定义的参数，分别设置为2和1，公式中|todd的意义是取距离t的绝对值最近的奇数；

12、4)使用k×1的卷积核对上一步得到的向量做卷积操作，得到一个尺寸同样为1×c的向量，通过卷积核的操作实现局部通道之间关系的建模，使用sigmoid函数将该向量的值转化为0～1之间，就得到每个通道对应的注意力权重，计算过程如下：

13、z＝σ(f1d,k(s))

14、其中σ表示sigmoid函数，f1d,k(·)表示卷积核尺寸为k×1的一维卷积操；

15、5)将得到的注意力权重与先前的输入逐通道相乘，就得到重新分配权重的分类结果表示，计算公式如下：

16、

17、将其转变为一维向量后送入分类器，得到最后的情感识别结果。

18、进一步地，面部表情分类结果为pf和情景信息的分类结果分别为pf和pg，音频模态为pv，文本模态的事实描述和情境上下文描述的结果分别为pt和pc。在得到个各模态的分类结果之后，将其沿着特征维度拼接，得到h＝d×c维的特征，作为多模态融合模块的输入，其中c表示输入的分类结果数量，d表示输入特征的维度，值为28。

19、进一步地，损失函数为multilabelsoftmarginloss，其操作与bcewithlogitsloss基本相同，只是没有针对每个类别的权重参数，依然是将sigmoid激活函数与bceloss的操作集成到一起，使数据更加稳定，其计算表达式如下：

20、

21、其中c为情感类别数，x为样本的预测分数，n为预测分数的第n各元素，y为真实标签。

22、进一步地，多模态融合过程中，使用全部的数据和标注，若出现数据缺失的情况，使用零向量代替。

23、进一步地，初始学习率设置为0.001，batch size为16，共训练50个epoch。

24、本申请实施例提供的技术方案中，基于注意力机制的思想设计了鲁棒性较强的多模态多分支融合网络，该网络实现决策级的多模态融合，根据不同分支的识别结果对最终预测的贡献，动态的分配每个分支的权重。为多模态情感识别系统设计了一个基于注意力机制的多模态多分支融合网络。此外，将宽时间范畴的情境信息融入了多模态情感识别系统中，实现了宽时间范畴下的多模态情感识别。实验证明该网络能够有效的实现多模态多分支融合，且在多模态融合过程中，输入的分支越多，情感识别的效果越好，情境描述使实验结果实现了大幅提升，证明了多模态融合网络能够提升模型在复杂环境下的识别效果。

本文档来自技高网...

【技术保护点】

1.多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于包括如下步骤：

2.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：音频输入VGGish特征提取模型训练，包括调用FFmpeg工具将视频中的音频提取出来，将其重采样为16kHz的单声道音频；使用窗长为25ms的Hann窗截取音频片段，以10ms的帧移对音频片段实现短时傅里叶变换得到频谱图，使用梅尔尺度滤波器组，计算log(mel-spectrum+0.01)，将频谱转化为梅尔声谱，每帧时长为10ms，包含64个梅尔频带，将每帧的梅尔声谱进行无重叠的组合，每0.96s的时长为一组，得到每组输入尺寸为96×64的梅尔声谱图；经过转换的梅尔声谱图作为VGGish预训练模型的输入，每组输入经过特征提取得到128维的特征表示，在训练过程中，每次随机选取音频样本的维一组特征表示送入两层全连接层，得到28维的分类表示Hv；在验证过程中，取每个样本的全部特征表示的均值作为视频级别的特征表示，并送入分类器得到识别结果。

3.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：所述Bert特征提取模型采用BERTbase模型作为文本情感分类的特征提取网络，文本信息包含每段视频的事实描述和情境描述两部分，为验证宽时间范畴内的情境信息对情感识别的辅助作用，将每个样本的两种文本描述进行拼接作为第三种文本描述。

4.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：面部表情分类结果为Pf和情景信息的分类结果分别为Pf和Pg，音频模态为Pv，文本模态的事实描述和情境上下文描述的结果分别为Pt和Pc。在得到个各模态的分类结果之后，将其沿着特征维度拼接，得到H＝D×C维的特征，作为多模态融合模块的输入，其中C表示输入的分类结果数量，D表示输入特征的维度，值为28。

5.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：损失函数为MultiLabelSoftMarginLoss，其操作是将Sigmoid激活函数与BCELoss的操作集成到一起，计算表达式如下：

6.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：多模态融合过程中，使用全部的数据和标注，若出现数据缺失的情况，使用零向量代替。

7.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：初始学习率设置为0.001，Batch size设置为16，共训练50个epoch。

...

【技术特征摘要】

1.多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于包括如下步骤：

2.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：音频输入vggish特征提取模型训练，包括调用ffmpeg工具将视频中的音频提取出来，将其重采样为16khz的单声道音频；使用窗长为25ms的hann窗截取音频片段，以10ms的帧移对音频片段实现短时傅里叶变换得到频谱图，使用梅尔尺度滤波器组，计算log(mel-spectrum+0.01)，将频谱转化为梅尔声谱，每帧时长为10ms，包含64个梅尔频带，将每帧的梅尔声谱进行无重叠的组合，每0.96s的时长为一组，得到每组输入尺寸为96×64的梅尔声谱图；经过转换的梅尔声谱图作为vggish预训练模型的输入，每组输入经过特征提取得到128维的特征表示，在训练过程中，每次随机选取音频样本的维一组特征表示送入两层全连接层，得到28维的分类表示hv；在验证过程中，取每个样本的全部特征表示的均值作为视频级别的特征表示，并送入分类器得到识别结果。

3.根据权利要求1所述的多模态多分支融合的宽时间范畴情感识别系统构建方法，其特征在于：所述bert特征提取模型采用bertbase模型作为文本情感分类...

【专利技术属性】
技术研发人员：卢桂萍，王科俊，张小凤，杨涛，司炜，
申请(专利权)人：北京理工大学珠海学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人