基于注意力机制和3D残差网络的双模态情感识别方法技术

技术编号：43155758 阅读：15 留言：0更新日期：2024-11-01 19:51

本发明专利技术公开了基于注意力机制和3D残差网络的双模态情感识别方法，本发明专利技术提出了基于注意力机制和3D卷积的双模态情感分析模型，以突破二维卷积神经网络时序方向特征提取不足的限制；同时采用决策融合的方式整合视觉、音频双模态特征信息的进行情感分析，并在此基础上加入注意力神经网络，以提高模型对关键视觉及音频关键信息的敏感性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器视觉，尤其涉及基于注意力机制和3d残差网络的双模态情感识别方法。

技术介绍

1、情感计算研究的一个重要分支是视觉情感分析，涵盖了静态图像(单帧)表情识别和动态图像序列(视频)表情识别。

2、传统的图像情感识别主要基于底层视觉特征提取图像的颜色、形状、线条和纹理等进行组合，直接提取图像的底层特征进行分析的效果受限。

3、深度学习中的卷积神经网络和循环神经网络等模型能形成高层次特征表达，提升了图像分类效果，对于视频研究，直接基于人类面部表情识别的情感分析具有直观性，但视频信息的多元性可能导致混淆，而且，基于单模态的情感分析缺乏对全局的考虑，使得其在情感分析上有一定的局限性。

技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊，而这种简化或省略不能用于限制本专利技术的范围。

2、因此，为解决上述技术问题，本专利技术提供如下技术方案：基于注意力机制和3d残差网络的双模态情感识别方法，包括以下具体的步骤：

3、1、使用ffmpeg对短视频进行处理，分别提取出图像帧和音频文件；

4、1.1、逐个针对视频执行ffmpeg命令，将单个视频提取出的图像帧由序列号方式命名，保存为一个文件，根据视频情感类型将文件分类打包；

5、1.2、遍历保存图像帧的文件夹

6、1.3、逐个针对视频执行ffmpeg命令，将单个视频提取出的音频文件保存为mp3格式，根据视频情感类型将文件分类打包；

7、2、对短视频样本进行预处理，提取目标数量的图像帧，并对图像数据进行图像增强操作，并将其转为可张量；

8、2.1、读取保存视频帧数的文本文件获取视频总帧数，将帧序列分成12段，从12段中随机选取16张图像；

9、2.1.1、针对视频帧数不足12*16的情况，将循环引用序列号直到达到目标数值；

10、2.1.2、针对每个视频，将其分为均匀的12个片段；在每个片段内随机选取一个起始序列号，并从该起始序列号开始取16张图片；将这16个序列号压入列表中，最终列表保存了所有选取的帧序列号；

11、2.2、根据指定路径找到图片，针对以上图像数据，设置30％的概率选取图像进行数据增强操作后数据，以此来提高模型的泛化能力和样本质量，减少过拟合；

12、2.2.1、设定图像水平翻转概率为50％，随机选择角度进行水平翻转，随机角度旋转范围为(-20，+20)之间，针对处理后的图像，以50％的概率对其进行亮度增强操作；

13、2.2.2、设定五种裁剪方式：左上、左下、中心、右上、右下；根据裁剪方式和目标图像大小计算裁剪后的图像坐标；根据计算得到的坐标截取图像，保证统一大小的输出图像；

14、2.3、将图片转为可供模型进行训练的tensor(张量)；

15、3、将预处理后的图像数据输入设计的3d resnet101模型，提取时序特征得到目标特征图，并将特征图输入到空间注意力神经网络及时间注意力神经网络中，为序列特征分配合适的权重，最终得到视觉深度情感特征向量；

16、3.1、通过人为特征输入的统一，将张量维度大小为192×112×112的特征输入视觉3d resnet101模型；

17、3.1.1、特征输入首先通过一个卷积核大小为1×7×7，步长为1×2×2的卷积层进行处理；

18、3.1.2、将第一步处理后的特征输出连接到四个不同的残差块中；

19、最终模型得到的特征向量为：fv∈rt×h×w×n

20、其中，h和w分别是最终处理后的图像高和宽，统一设为：m＝h×w

21、t是选择输入网络的所有帧通过卷积池化后留下的片段数；

22、n是通道数目；

23、3.2、在3d resnet101模型后引入视觉注意力神经网络，其中包含空间注意力模块、通道注意力模块和时间注意力模块，提高关键特征对模型结果导向影响的比重；

24、3.2.1、空间注意力模块的运用是为了提高预测准确率，针对单一图像并非整体区域对模型的分析都有相同的贡献，有些关键区域需要额外关注，比如人脸相比背景应该有更高的权重；

25、具体优化后的步骤如下：

26、首先，使用一个1×1的一维卷积核对通道特征进行压缩，将输入通道数为n的特征映射成输出通道数为1的特征图；然后，将压缩后的特征输入到一个与空间特征维度相同的全连接层中；再结合softmax函数，计算训练图像区域的空间权重参数，以突出关键区域的特征表达，提高预测准确率；

27、其中，特征张量为：fi∈rm×n(1,2,…,t)

28、其中，空间注意力权重具体定义如下：

29、

30、

31、其中，ws1∈rm×m和ws2∈r1×n均为可学习的特征矩阵；

32、t为转置；

33、再将空间注意力权重与原有特征进行点乘运算，即加权操作；

34、具体公式如下：

35、

36、通过上述公式计算，最终得到通过空间注意力神经网络的特征。

37、3.2.2、通道注意力模块的应用是基于特征图经过卷积神经网络时被多种卷积核进行卷积，从而生成不同的特征图，即通道；在卷积神经网络中，特征图的每个通道对应卷积层的响应激活；

38、因此，通道注意力即为选择语义属性的过程，具体步骤如下：

39、通过3d残差网络后，输出的通道数为2048；为了降低计算成本，利用一维卷积将特征维度减少至512；为此，我们需使用1×1卷积核的一维卷积来减少特征维度；同时，我们需要使用1×1的一维卷积来去除空间特征，空间特征具体为：输入通道数为m，输出通道数为1；接下来，我们将输入一个与通道数n相同维度的全连接层，结合softmax函数计算训练通道权重参数；

40、其中，特征张量为：gi＝rn×m(1,2,…t)

41、通道注意力权重具体定义为：

42、

43、此处wc1∈rn×n和wc2∈r1×m均为可学习的特征矩阵，后续需要将通道注意力权重与经过空间注意力网络的特征进行点乘，使得模型对关键通道关注度提升，公式如下：

44、

45、接着需要做空间张量的平均池化，以减少参数和后续的计算量；

46、3.2.3、时间注意力模块包括时间注意力机制；时间注意力机制的引入是由于对于一个视频而言，只有关键帧包含着关键特征，其余多为场景和背景信息，因此，通过时间注意力模块来提高关键帧的权重具有必要性；

47、提高关键帧的权重的具体步骤如下：

4本文档来自技高网...

【技术保护点】

1.基于注意力机制和3D残差网络的双模态情感识别方法，其特征在于：包括以下具体的步骤：

2.如权利要求1所述的基于注意力机制和3D残差网络的双模态情感识别方法，其特征在于：在步骤2.1中，具体步骤如下：

3.如权利要求1所述的基于注意力机制和3D残差网络的双模态情感识别方法，其特征在于：在步骤2.2中，具体步骤如下：

4.如权利要求1所述的基于注意力机制和3D残差网络的双模态情感识别方法，其特征在于：在步骤3.1中，具体步骤如下：

5.如权利要求1所述的基于注意力机制和3D残差网络的双模态情感识别方法，其特征在于：空间注意力模块用于提高预测准确率，针对单一图像并非整体区域对模型的分析都有相同的贡献，有些关键区域需要额外关注，比如人脸相比背景应该有更高的权重；

6.如权利要求1所述的基于注意力机制和3D残差网络的双模态情感识别方法，其特征在于：在步骤3.1中，通道注意力模块的应用是基于特征图经过卷积神经网络时被多种卷积核进行卷积，从而生成不同的特征图，即通道；在卷积神经网络中，特征图的每个通道对应卷积层的响应激活；

...

【技术特征摘要】

1.基于注意力机制和3d残差网络的双模态情感识别方法，其特征在于：包括以下具体的步骤：

2.如权利要求1所述的基于注意力机制和3d残差网络的双模态情感识别方法，其特征在于：在步骤2.1中，具体步骤如下：

3.如权利要求1所述的基于注意力机制和3d残差网络的双模态情感识别方法，其特征在于：在步骤2.2中，具体步骤如下：

4.如权利要求1所述的基于注意力机制和3d残差网络的双模态情感识别方法，其特征在于：在步骤3.1中，具体步骤如下：

5.如权利要求1所述的基于注意力机制和3d残差网络的双模态情感识别方法，其特征在于：空间注意力模块用于提高预测准确率，针对单一图像并非整体区域对模型的分析都有相同的贡献，有些关键区域需要额外关注，比如人脸相比背景应该有更高的权重；

6.如权利要求1所述的基于注意力机制和3d残差网络的双模态情感识别方法，其特征在于：在步骤3.1中，通道注意力模块的应...

【专利技术属性】
技术研发人员：杨晓朵，魏慧斌，刘舒君，池进文，郑雪婷，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人