当前位置: 首页 > 专利查询>东南大学专利>正文

基于PDAN的跨库语音情感识别方法及装置制造方法及图纸

技术编号:36073450 阅读:23 留言:0更新日期:2022-12-24 10:44
本发明专利技术公开了一种基于渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks,PDAN)的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提样本的语谱图特征;(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;(5)提取待识别语音语谱图特征,输入训练好的模型,识别出情感类别。本发明专利技术识别准确率更高。发明专利技术识别准确率更高。发明专利技术识别准确率更高。

【技术实现步骤摘要】
基于PDAN的跨库语音情感识别方法及装置


[0001]本专利技术涉及语音情感识别技术,尤其涉及一种基于渐进式分布适配神经网络的跨库 语音情感识别方法及装置

技术介绍

[0002]语音是人类日常生活中的一种主要交流方式,其中包含着丰富的情感信息。想象一 下,如果计算机能够从人类的语音信号中理解情绪状态,那么人机交互无疑会更加自然。 因此,从语音信号中自动识别情绪状态的研究,例如,语音情感识别(SER)在情感计 算、人机交互和语音信号处理领域引起了广泛关注。在过去的几十年中,已经提出了许 多性能良好的SER方法,并在广泛使用的公开可用的语音情感数据库上取得了可喜的 性能。然而,值得注意的是,他们中的大多数没有考虑训练和测试语音信号可能由不同 相同的麦克风或在不同的环境下记录的现实场景。在这种情况下,训练和测试语音样本 之间可能存在特征分布不匹配,因此这些原本表现良好的SER方法的性能可能会急剧 下降,这就带来了SER中一项有意义且更具挑战性的任务,即跨库SER。与传统的 SER不同,跨库SER中的标记训练和未标记测试样本来自不同的语音数据库库。遵循 跨库SER中的命名约定,将在本文件中将训练和测试样本/数据库/特征集称为源集和 目标集。

技术实现思路

[0003]专利技术目的:本专利技术针对现有技术存在的问题,提供一种识别准确度更高的基于渐进 式分布适配神经网络的跨库语音情感识别方法。
[0004]技术方案:本专利技术所述的基于渐进式分布适配神经网络的跨库语音情感识别方法包 括:
[0005](1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;
[0006](2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源 域样本和目标域样本,并提取源域样本和目标域样本的语谱图特征;
[0007](3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积 神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网 络训练,从而消除不同领域间的分布差异;
[0008](4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;
[0009](5)对于待识别语音,提取语谱图特征,输入训练好的模型,得到待识别语音的 情感类别。
[0010]进一步的,步骤(2)具体包括:
[0011](2

1)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源 域样本和目标域样本;
[0012](2

2)对源域样本和目标域样本依次进行分帧、加窗预处理;
[0013](2

3)对预处理后的样本进行短时离散傅里叶变换,得到语谱图特征。
[0014]进一步的,所述基于渐进式分布适配神经网络的跨库语音情感识别模型具体包括:
[0015]卷积神经网络,包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第 三全连接层;
[0016]损失计算模块,分别包括用于计算情感辨别损失的第一损失计算单元、用于计算源 域特征和目标域特征之间的边缘分布差异损失的第二损失计算单元、用于计算细粒度的 情感标签信息引导的条件分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感 知条件分布适应正则化项的第四损失计算单元以及用于计算四项损失之和的总损失计 算单元。
[0017]进一步的,所述第一损失计算单元连接第三全连接层,具体用于基于下式计算情感 辨别损失:
[0018][0019]式中,是情感辨别损失,是连接源域样本语谱图特征及其相应情感标签的交 叉熵损失,N
s
表示源域样本数目,g1、g2和g3分别表示第一全连接层、第二全连接层、 第三全连接层的参数,表示第i个源域样本的语谱图特征,f表示卷积神经网络的参 数,表示第i个源域样本的情感标签。
[0020]进一步的,所述第二损失计算单元连接所述第一全连接层,用于基于下式计算边缘 分布差异损失:
[0021][0022]式中,是边缘分布损失,N
s
表示源域样本数目,N
t
表示目标域样本数目,g1表 示第一全连接层参数,表示第i个源域样本的语谱图特征,表示第i个目标域样本 的语谱图特征,f表示卷积神经网络的参数,Φ(
·
)是核映射算子,代表再生核希尔 伯特空间。
[0023]进一步的,所述第三损失计算单元连接所述第三全连接层,用于基于下式计算条件 分布适配损失:
[0024][0025]式中,表示条件分布适配损失,和分别表示源域和目标域属于第j类情 感的第i个样本,C表示情感类别数,和分别表示源域和目标域中属于第j类情 感样本数,且满足和N
s
表示源域样本数目,N
t
表 示目标域样本数目,f表示卷积神经网络的参数,g1、g2和g3分别表示第一全连接层、 第二全连接层、第三全连接层的参数,代表再生核希尔伯特空间。
[0026]进一步的,所述第四损失计算单元连接所述第二全连接层,用于基于下式计算情
绪 类感知条件分布适应正则化项:
[0027][0028]式中,C
r
是粗糙情感类别数,C
r
小于情感类别数C,和分别表示源域和目 标域属于第j类情感的第i个样本,Φ(
·
)是核映射算子,和分别表示源域和目标 域中属于第j类情感样本数,且满足和N
s
表示 源域样本数目,N
t
表示目标域样本数目,f表示卷积神经网络的参数,g1、g2分别表示 第一全连接层、第二全连接层的参数,代表再生核希尔伯特空间。
[0029]进一步的,所述总损失计算单元用于按照下式计算总损失:
[0030][0031]式中,为总损失,λ1、λ2、和λ3是使得最小的权衡系数。
[0032]进一步的,步骤(4)具体包括:
[0033](4

1)对跨库语音情感识别模型的参数进行随机初始化;
[0034](4

2)预测目标域样本的伪情感标签
[0035](4

3)根据计算总损失
[0036](4

4)根据总损失使用经典的随机梯度下降优化算法更新跨库语音情感识别 模型的参数;
[0037](4

5)判断总损失是否收敛,若不收敛,则根据当前跨库语音情感识别模型的参数, 更新伪情感标签并返回步骤(4

3),若收敛则网络训练完成。
[0038]本专利技术所述的基于渐进式分布适配神经网络的跨库语音情感识别装置,包括处理器 及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现 上述方法。
[0039]有益效果:本专利技术与现有技术相比,其显著优点是:
[0040]1、本专利技术提出了一种新的端到端深度迁移本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的语谱图特征;(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;(5)对于待识别语音,提取语谱图特征,输入训练好的模型,得到待识别语音的情感类别。2.根据权利要求1所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:步骤(2)具体包括:(2

1)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本;(2

2)对源域样本和目标域样本依次进行分帧、加窗预处理;(2

3)对预处理后的样本进行短时离散傅里叶变换,得到语谱图特征。3.根据权利要求1所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述基于渐进式分布适配神经网络的跨库语音情感识别模型具体包括:卷积神经网络,包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层;损失计算模块,分别包括用于计算情感辨别损失的第一损失计算单元、用于计算源域特征和目标域特征之间的边缘分布差异损失的第二损失计算单元、用于计算细粒度的情感标签信息引导的条件分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感知条件分布适应正则化项的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。4.根据权利要求3所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述第一损失计算单元连接第三全连接层,具体用于基于下式计算情感辨别损失:式中,是情感辨别损失,是连接源域样本语谱图特征及其相应情感标签的交叉熵损失,N
s
表示源域样本数目,g1、g2和g3分别表示第一全连接层、第二全连接层、第三全连接层的参数,表示第i个源域样本的语谱图特征,f表示卷积神经网络的参数,表示第i个源域样本的情感标签。5.根据权利要求3所述的基于渐进式分布适配神经网络的跨库语音情感识别方法,其特征在于:所述第二损失计算单元连接所述第一全连接层,用于基于下式计算边缘分布差异损失:
式中,是边缘分布损失,N
s
表示源域样本数目,N
t
表示目标域样本数目,g1表示第一全连接层参数,表示第i个源域样本的语谱图特征...

【专利技术属性】
技术研发人员:宗源连海伦郑文明常洪丽张佳成路成唐传高
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1