System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于频域F比分析的语音情感识别方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于频域F比分析的语音情感识别方法及系统技术方案

技术编号:43296833 阅读:0 留言:0更新日期:2024-11-12 16:14
本发明专利技术公开了一种基于频域F比分析的语音情感识别方法及系统,涉及情感识别技术领域,包括:获取不同情感语音并分类,利用F‑ratio分析分类后的不同情感语音间的频谱差异,并根据分析的结果构建F‑ratio曲线;按照F‑ratio曲线显示的情感鉴别能力的高低将语音频谱划分为不同的频率子带,包括高鉴别频段、中鉴别频段以及低鉴别频段;针对不同的鉴别频段分别部署不同复杂度的神经网络模型进行情感特征的分析;将分析的情感特征进行拼接后输入通道注意力模块进行处理以获取最终的语音情感识别结果。本发明专利技术基于情感语音的频谱特性分析,提高特征提取的细腻度,进而提高语音情感识别的准确性,还具有良好的适应性和扩展性,适用于各种需要高精度情感识别的应用场景。

【技术实现步骤摘要】

本专利技术涉及情感识别,具体为一种基于频域f比分析的语音情感识别方法及系统。


技术介绍

1、语音情感识别是人机交互领域的一个重要研究方向,其核心目标是通过分析语音信号来识别和理解人类的情感状态。传统的语音情感识别技术主要基于基本的声学特征,如音高、强度和语速,以及通过这些特征训练的机器学习模型。而语音的频谱图特征,作为一种在语音情感识别中广泛应用的技术,已经显示出其在捕捉情感细节方面的能力。在机器学习领域,深度学习方法尤其是卷积神经网络(cnn)和循环神经网络(rnn),已经被广泛用于分析这些复杂的频谱图数据。这些网络能够学习到从基本频谱图中不容易直接提取的抽象情感特征,从而提高情感识别的准确率。

2、常见的使用语音谱图作为特征送入模型进行情感识别任务的方法中,通常不对频谱图进行分割,而是将整个频谱图作为模型的输入。情感的分析对于特征要求有更高的细腻度,例如愤怒、悲伤等在高频区域含有丰富的情感信息。而目前常用的特征如梅尔频率倒谱系数(mfcc)和倒置梅尔频率倒谱系数(imfcc)特征在频谱的分辨上往往采用由小及大和由大及小的方式,对于情感分析任务而言相对粗糙。

3、在说话人识别和语音仿冒攻击等领域已经出现使用f-ratio分析不同类别语音之间的频谱差异。linlin wang在他的研究中不光研究了两类语音间的f-ratio模式曲线,还研究了多类语音间的f-ratio模式曲线,这提示我们可以使用f-ratio分析多类情感间的频谱区别。因此,需要利用f-ratio对不同情感语音间的频谱分析思想,建立了一种对频谱进行分析后根据情感在不同频段的鉴别性不同部署不同复杂度模型的语音情感识别模型。


技术实现思路

1、鉴于上述现有存在的问题,提出了本专利技术。

2、因此,本专利技术提供了一种基于频域f比分析的语音情感识别方法及系统解决如何通过基于情感语音的频谱特性分析,提高特征提取的细腻度,进而提高语音情感识别的准确性。

3、为解决上述技术问题,本专利技术提供如下技术方案:

4、第一方面,本专利技术提供了一种基于频域f比分析的语音情感识别方法,包括:从语料库中获取不同情感语音并分类,利用f-ratio分析所述分类后的不同情感语音之间的频谱差异,并根据所述分析的结果构建f-ratio曲线;按照所述f-ratio曲线显示的情感鉴别能力的高低将语音频谱划分为不同的频率子带,包括高鉴别频段、中鉴别频段以及低鉴别频段;针对所述高鉴别频段、中鉴别频段以及低鉴别频段,分别部署不同复杂度的神经网络模型进行情感特征的分析;将所述不同复杂度的神经网络模型分析的情感特征进行拼接后输入通道注意力模块进行处理,以获取最终的语音情感识别结果。

5、作为本专利技术所述的基于频域f比分析的语音情感识别方法的一种优选方案,其中:所述利用f-ratio分析所述分类后的不同情感语音之间的频谱差异包括:

6、对所述分类后的不同情感语音进行信号分帧处理,将所述信号分帧处理的不同情感语音经过快速傅里叶变换转换到频域,并对结果的模值取平方,以得到对应帧的情感语音信号在频域中各频点的能量值;

7、对每一类情感语音选取足够长的语料在频域上进行拼接得到不同情感语音信号能量谱,再对所述不同情感语音信号能量谱进行f-ratio计算分析不同情感语音之间的频谱差异;

8、对于多类情感间的f-ratio计算分析,公式表示为:

9、,

10、其中,表示第类情感语音总样本向量的平均向量,表示对类情感语音各自的平均向量再取平均,表示第类情感语音中的第个样本向量,表示第类情感语音的样本总数。

11、作为本专利技术所述的基于频域f比分析的语音情感识别方法的一种优选方案,其中:针对高鉴别频段部署深度残差收缩网络模型进行情感特征的分析包括:

12、所述深度残差收缩网络是在深度残差网络的基础上增加注意力机制,并将软阈值化作为非线性层引入,对所有输入特征取平均值后,经过全局平均池化层将每个通道的特征图转换为一个标量;

13、将所述全局平均池化层中每个通道转换的标量输入到两个串行的全连接层中产生对应的缩放参数,再通过缩放操作和平均操作得到第个通道的阈值 ,对所有通道的阈值进行加权求和得到第一情感输出特征。

14、作为本专利技术所述的基于频域f比分析的语音情感识别方法的一种优选方案,其中:针对中鉴别频段部署卷积神经网络模型进行情感特征的分析包括:

15、采取卷积核大小为的卷积神经网络模型,通过滑动窗口的方式在输入特征图上进行逐像素扫描,捕捉所述中鉴别频段的局部变化形成低层次的特征表达;

16、通过递进的特征学习过程将所述低层次的特征表达构建为高层次的情感特征表达,所述高层次的情感特征表达即为第二情感输出特征。

17、作为本专利技术所述的基于频域f比分析的语音情感识别方法的一种优选方案,其中:针对低鉴别频段部署多尺度特征模型进行情感特征的分析包括:

18、将输入特征图通过一个大小的卷积层进行批量归一化处理,使用mish激活函数引入非线性层实现所述批量归一化处理后的输入特征图学习和模拟更复杂的函数和数据关系;

19、将所述非线性层的输出特征图作为输入的特征表达z在特征通道维度进行分组,对每组数据分别用不同尺寸的卷积核进行卷积,再将卷积后的不同结果进行通道拼接后输出,所述通道拼接后输出的特征即为第三情感输出特征。

20、作为本专利技术所述的基于频域f比分析的语音情感识别方法的一种优选方案,其中:所述获取最终的语音情感识别结果包括:

21、所述第一情感输出特征、第二情感输出特征、第三情感输出特征在通道维度上进行拼接,并将所述拼接后的情感输出特征经过一个卷积运算后输入通道注意力模块;

22、所述通道注意力模块的输入特征图先经过全局平均池化层得到全局特征,再将所述全局特征转换为一个维特征向量,所述转换的过程表示为:

23、,

24、其中,表示维特征向量的第个元素,表示输入特征图的第个通道特征,和分别表示特征向量的高度和宽度的索引;

25、将全局池化后得到的通道描述子经过两个串行的全连接层来捕捉通道之间的非线性关系,其中,第一个全连接层将维度缩小到较低的维度,第二个全连接层再将所述第一个全连接层缩小的维度恢复到原始通道数维度;

26、使用通过所述两个串行的全连接层计算出的权重  对输入特征的每个通道进行加权后,得到所述通道注意力模块加强后的输出特征。

27、作为本专利技术所述的基于频域f比分析的语音情感识别方法的一种优选方案,其中:所述获取最终的语音情感识别结果还包括:

28、将所述通道注意力模块加强后的输出特征输入双向长短时记忆网络层进行情感动态信息的加强;

29、再将所述双向长短时记忆网络层的输出特征向量经过一个dropout层进行处理,所述dropout层通过在训练过程中随机将部分神经元的激活值设为零,使本文档来自技高网...

【技术保护点】

1.一种基于频域F比分析的语音情感识别方法,其特征在于,包括:

2.如权利要求1所述的基于频域F比分析的语音情感识别方法,其特征在于,所述利用F-ratio分析所述分类后的不同情感语音之间的频谱差异包括:

3.如权利要求2所述的基于频域F比分析的语音情感识别方法,其特征在于,针对高鉴别频段部署深度残差收缩网络模型进行情感特征的分析包括:

4.如权利要求2所述的基于频域F比分析的语音情感识别方法,其特征在于,针对中鉴别频段部署卷积神经网络模型进行情感特征的分析包括:

5.如权利要求2所述的基于频域F比分析的语音情感识别方法,其特征在于,针对低鉴别频段部署多尺度特征模型进行情感特征的分析包括:

6.如权利要求3~5任一所述的基于频域F比分析的语音情感识别方法,其特征在于,所述获取最终的语音情感识别结果包括:

7.如权利要求6所述的基于频域F比分析的语音情感识别方法,其特征在于,所述获取最终的语音情感识别结果还包括:

8.一种应用如权利要求1~7任一所述的基于频域F比分析的语音情感识别方法的系统,其特征在于,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有计算机程序指令,该计算机可执行指令被处理器执行时实现权利要求1~7任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于频域f比分析的语音情感识别方法,其特征在于,包括:

2.如权利要求1所述的基于频域f比分析的语音情感识别方法,其特征在于,所述利用f-ratio分析所述分类后的不同情感语音之间的频谱差异包括:

3.如权利要求2所述的基于频域f比分析的语音情感识别方法,其特征在于,针对高鉴别频段部署深度残差收缩网络模型进行情感特征的分析包括:

4.如权利要求2所述的基于频域f比分析的语音情感识别方法,其特征在于,针对中鉴别频段部署卷积神经网络模型进行情感特征的分析包括:

5.如权利要求2所述的基于频域f比分析的语音情感识别方法,其特征在于,针对低...

【专利技术属性】
技术研发人员:陈雪勤赵玉琪
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1