System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音情绪识别方法和装置制造方法及图纸_技高网

语音情绪识别方法和装置制造方法及图纸

技术编号:43443262 阅读:4 留言:0更新日期:2024-11-27 12:48
本公开涉及语音识别技术领域,公开了语音情绪识别方法,方法包括:获取当前语音信号;利用语音编码器处理当前语音信号,以生成当前语音信号的当前语音向量序列;利用韵律信息瓶颈处理当前语音向量序列,以生成当前语音向量序列的当前韵律向量序列;利用其他声学信息瓶颈处理当前语音向量序列,以生成当前语音向量序列的当前其他声学向量序列;利用情绪识别模块处理当前韵律向量序列和当前其他声学向量序列,以生成当前语音信号的情绪标签。本公开提升了情绪识别的准确性和可靠性。

【技术实现步骤摘要】

本公开涉及语音识别,具体涉及语音情绪识别方法和装置


技术介绍

1、语音情绪识别(speech emotion recognition)是一种生物特征属性的识别方法,可通过一段语音的声学特征(与语音内容和语种无关)来识别说话人的情绪状态。

2、目前的语音情绪识别方法,原始语音信号首先通过语音处理系统进行静音消除、背景噪音等技术处理,得到有效语音片段,然后对其进行特征提取,最后将这些特征输入到分类器中进行判别,输出情绪状态的结果。

3、然而,当前的语音情绪识别方法,较为依赖于训练过程中所采用的语音片段的标注数据,在将其应用至不同领域(例如不同语言、不同话题等)时,方法的表现下滑严重,泛化能力较差,从而导致语音情绪识别的准确性较差。


技术实现思路

1、有鉴于此,本公开提供了一种语音情绪识别方法,以解决语音情绪识别的准确性较差的问题。

2、第一方面,本公开提供了一种语音情绪识别方法,方法包括:获取当前语音信号;利用语音编码器处理当前语音信号,以生成当前语音信号的当前语音向量序列;利用韵律信息瓶颈处理当前语音向量序列,以生成当前语音向量序列的当前韵律向量序列;利用其他声学信息瓶颈处理当前语音向量序列,以生成当前语音向量序列的当前其他声学向量序列;利用情绪识别模块处理当前韵律向量序列和当前其他声学向量序列,以生成当前语音信号的情绪标签。

3、本实施例提供的语音情绪识别方法,通过采用语音编码器处理当前语音信号以生成当前语音向量序列,进而采用韵律信息瓶颈处理当前语音向量序列以生成当前韵律向量序列、采用其他声学信息瓶颈处理当前语音向量序列以生成当前其他声学向量序列,之后利用情绪识别模块处理当前韵律向量序列和当前其他声学向量序列的结果,输出当前语音信号的情绪标签,由于对语音信号的内容进行了解耦,捕捉了语音信号中包括的韵律信息和其他声学信息,从而更全面的捕捉与情绪表达相关的多维度特征,提升了情绪识别的准确性和可靠性,并且有效降低了个体差异对情绪识别的影响,增强了系统的鲁棒性。

4、第二方面,本公开提供了一种语音情绪识别装置,装置包括:语音信号获取单元,用于获取当前语音信号;语音序列生成单元,用于利用语音编码器处理当前语音信号,以生成当前语音信号的当前语音向量序列;韵律序列生成单元,用于利用韵律信息瓶颈处理当前语音向量序列,以生成当前语音向量序列的当前韵律向量序列;声学序列生成单元,用于利用其他声学信息瓶颈处理当前语音向量序列,以生成当前语音向量序列的当前其他声学向量序列;情绪标签生成单元,用于利用情绪识别模块处理当前韵律向量序列和当前其他声学向量序列,以生成当前语音信号的情绪标签。

5、第三方面,本公开提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的语音情绪识别方法。

6、第四方面,本公开提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的语音情绪识别方法。

7、第五方面,本公开提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的语音情绪识别方法。

本文档来自技高网...

【技术保护点】

1.一种语音情绪识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述情绪识别模块、所述韵律信息瓶颈、所述其他声学信息瓶颈和所述语音编码器,进一步基于以下步骤训练得到:

3.根据权利要求2所述的方法,其特征在于,所述语音情绪识别训练样本还包括:对应语音信号样本的样本帧基频标签值;

4.根据权利要求3所述的方法,其特征在于,所述利用基频预测模块,基于所述样本韵律向量序列,得到所述语音信号样本对应的样本帧基频预测值包括:

5.根据权利要求3-4任意一项所述的方法,其特征在于,所述语音情绪识别训练样本还包括:对应语音信号样本的样本说话人标签;

6.根据权利要求5所述的方法,其特征在于,所述语音情绪识别训练样本还包括:对应语音信号样本的样本帧发音标签;

7.根据权利要求6所述的方法,其特征在于,所述方法还包括以下至少一项:

8.一种语音情绪识别装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的语音情绪识别方法。

...

【技术特征摘要】

1.一种语音情绪识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述情绪识别模块、所述韵律信息瓶颈、所述其他声学信息瓶颈和所述语音编码器,进一步基于以下步骤训练得到:

3.根据权利要求2所述的方法,其特征在于,所述语音情绪识别训练样本还包括:对应语音信号样本的样本帧基频标签值;

4.根据权利要求3所述的方法,其特征在于,所述利用基频预测模块,基于所述样本韵律向量序列,得到所述语音信号样本对应的样本帧基频预测值包括:

5.根据权利要求3-4任意一项所述的方法,其特征在于,所述语...

【专利技术属性】
技术研发人员:李蒙
申请(专利权)人:镁佳北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1