基于个体感知的语音情感识别方法、系统、装置及介质制造方法及图纸

技术编号:38207827 阅读:11 留言:0更新日期:2023-07-21 16:56
本发明专利技术公开了一种基于个体感知的语音情感识别方法、系统、装置及介质,其中方法包括:获取原始通用语音特征;构建语音情感识别模型;根据原始通用语音特征对语音情感识别模型进行训练;其中,在个体感知模块中,将原始通用语音特征输入个体情感知识学习层提取个体情感知识嵌入,将个体情感知识嵌入输入到调制参数生成层生成调制参数;在情感特征提取模块中,使用个体感知模块输出的调制参数对情感特征提取模块的参数进行调整,将原始通用语音特征输入调整后的情感特征提取模块进行特征的进一步学习;将训练后的模型用于语音情感识别。本发明专利技术通过增加个体情感特征,提升模型面对个体的情感识别效果,可广泛应用于语音信号处理技术领域。处理技术领域。处理技术领域。

【技术实现步骤摘要】
基于个体感知的语音情感识别方法、系统、装置及介质


[0001]本专利技术涉及语音信号处理
,尤其涉及一种基于个体感知的语音情感识别方法、系统、装置及介质。

技术介绍

[0002]情感计算旨在通过赋予计算机识别、理解和表达人的情感的能力,使得计算机具有更高的智能,为机器赋予感情是人工智能从“感知智能”逐渐向具有理解和表达能力的“认知智能”转变必经之路。语音作为人类最自然的表达方式,人类总是能够通过他人的语音轻易地判断他人的情感状态。在过去几十年中,语音情感识别的相关研究取得了巨大的进步,已经发展成为人机交互的重要组成部分,并在许多不同的研究领域都有着广阔的前景。随着计算机语音识别等技术的成熟,以及相关研究不断涌现,语音情感识别开始更多的应用到教育业,娱乐业,通讯业当中。加强对语音情感、情绪的识别成为了下一代人工智能发展的重点。鉴于此,开展针对语音情感识别的研究具有较强的理论价值和实用意义。
[0003]语音大模型提升了智能体基本认知能力,然而由于语音中包含说话人身份,语音内容,说话风格等丰富的信息,而情感信息交织在不同类型的语音上游表征的域空间中。说话人身份,语音内容,说话风格的差异都会影响情感表达的呈现,从而直接影响了语音在情感识别任务上的表现。实现低层或上游通用表征到情感任务表征的迁移是一个必要过程。人类在语音交互过程中,具有很好的情感感知能力,此外对新的个体时也有快速适应到新的对象的能力。目前大多数语音情感识别方法有着明显的局限性,对个体的适应能力有待提高,个人的情感表达方式不同,对于不同的说话人的情感语音,应该使用不同的情感特征提取模块去处理。

技术实现思路

[0004]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种基于个体感知的语音情感识别方法、系统、装置及介质。
[0005]本专利技术所采用的技术方案是:
[0006]一种基于个体感知的语音情感识别方法,包括以下步骤:
[0007]获取带有标签的语音数据,根据语音数据获取原始通用语音特征;
[0008]构建语音情感识别模型,所述语音情感识别模型包括个体感知模块和情感特征提取模块,所述个体感知模块包括个体情感知识学习层和调制参数生成层;
[0009]根据原始通用语音特征对所述语音情感识别模型进行训练;其中,在所述个体感知模块中,将原始通用语音特征输入个体情感知识学习层提取个体情感知识嵌入,将所述个体情感知识嵌入输入到调制参数生成层生成调制参数;在情感特征提取模块中,使用个体感知模块输出的调制参数对情感特征提取模块的参数进行调整,将原始通用语音特征输入调整后的情感特征提取模块进行特征的进一步学习;
[0010]获取待进行语音情感识别的语音数据,将获得的语音数据输入训练后的所述语音
情感识别模型,输出识别结果。
[0011]进一步地,所述根据原始通用语音特征对所述语音情感识别模型进行训练,包括:
[0012]所述情感特征提取模块输出的特征通过softmax分类器得到预测情感状态,损失函数和优化器通过拟合预测情感状态和真实情感状态,以元学习的方式进行模型的训练。
[0013]进一步地,所述以元学习的方式进行模型的训练,包括:
[0014]A1、读取模型的参数,从训练集中分别从每个说话人的样本池中随机选取n个样本;n为正整数;
[0015]A2、选取一个说话人i中的所选取的样本x
i
,通过个体情感知识学习层h得到嵌入v
i
,v
i
通过调制参数生成层得到调制参数A
i
、B
i
、C
i
,利用调制参数调整情感特征提取模块的参数,得到针对该说话人调制后的情感特征提取模块,由情感特征提取模块的输出和该说话人对应n个样本的真实标签计算损失L
i

[0016]A3、更新模型在该说话人下的参数;
[0017]A4、重复步骤A2~A3,直到所有说话人被选中;
[0018]A5、根据每个说话人的模型计算出损失,并将所有损失求和取平均,根据平均损失更新原始模型的参数;
[0019]A6、重复步骤A1~A5,直到训练结束。
[0020]进一步地,所述获取带有标签的语音数据,根据语音数据获取原始通用语音特征,包括:
[0021]将录制好的语音数据,按情感类别标记上数字标签;
[0022]删除语音数据中音质较低的部分,并将语音数据剪切成预设时长的语音片段,作为语音样本;
[0023]将语音样本输入预训练模型,获得每条语音样本的原始通用语音特征,并划分训练样本和测试样本。
[0024]进一步地,所述将原始通用语音特征输入个体情感知识学习层提取个体情感知识嵌入,包括:
[0025]个体情感知识学习层的主体为两层前馈神经网络,其中第一层前馈神经网络后接非线性激活函数,第一层前馈神经网络神经元个数为512,第二层神经元个数为1024,前馈神经网络之后会经过时间维度和样本维度上的平均池化操作,最终个体情感知识学习层的输出为1024维的嵌入。
[0026]进一步地,所述将所述个体情感知识嵌入输入到调制参数生成层生成调制参数,包括:
[0027]将个体情感知识学习层的输出作为调制参数生成层的输入,调制参数生成层由3个全连接层构成,3个全连接层的个数分别为1024,512,512,通过3个全连接层分别得到维数为1024,512,512的3组调制参数A、B、C。
[0028]进一步地,所述使用个体感知模块输出的调制参数对情感特征提取模块的参数进行调整,包括:
[0029]情感特征提取模块由两层前馈神经网络构成,其中第一层前馈神经网络后接非线性激活函数,第一层前馈神经网络神经元个数为512,第二层神经元个数为1024;
[0030]对调制参数生成层输出的调制参数A和B进行内积,得到调制矩阵M,矩阵M的维度
与情感特征提取模块第一层前馈神经网络的权重矩阵W的维度一致,都为(1024,512);
[0031]矩阵M与W相乘得到调制后的权重矩阵Wm,情感特征提取模块的第一层前馈神经网络的原始偏差参数维度为1024,与制参数生成层输出的调制参数C相加,得到调制后的偏差参数Bias,则经过调制参数调整后的第一层前馈神经网络的输出O为:
[0032]O=W
m
(x)+Bias
[0033]其中,x为输入的原始通用语音特征。
[0034]本专利技术所采用的另一技术方案是:
[0035]一种基于个体感知的语音情感识别系统,包括:
[0036]数据获取模块,用于获取带有标签的语音数据,根据语音数据获取原始通用语音特征;
[0037]模型构建模块,用于构建语音情感识别模型,所述语音情感识别模型包括个体感知模块和情感特征提取模块,所述个体感知模块包括个体情感知识学习层和调制参数生成层;
[0038本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于个体感知的语音情感识别方法,其特征在于,包括以下步骤:获取带有标签的语音数据,根据语音数据获取原始通用语音特征;构建语音情感识别模型,所述语音情感识别模型包括个体感知模块和情感特征提取模块,所述个体感知模块包括个体情感知识学习层和调制参数生成层;根据原始通用语音特征对所述语音情感识别模型进行训练;其中,在所述个体感知模块中,将原始通用语音特征输入个体情感知识学习层提取个体情感知识嵌入,将所述个体情感知识嵌入输入到调制参数生成层生成调制参数;在情感特征提取模块中,使用个体感知模块输出的调制参数对情感特征提取模块的参数进行调整,将原始通用语音特征输入调整后的情感特征提取模块进行特征的进一步学习;获取待进行语音情感识别的语音数据,将获得的语音数据输入训练后的所述语音情感识别模型,输出识别结果。2.根据权利要求1所述的一种基于个体感知的语音情感识别方法,其特征在于,所述根据原始通用语音特征对所述语音情感识别模型进行训练,包括:所述情感特征提取模块输出的特征通过softmax分类器得到预测情感状态,损失函数和优化器通过拟合预测情感状态和真实情感状态,以元学习的方式进行模型的训练。3.根据权利要求2所述的一种基于个体感知的语音情感识别方法,其特征在于,所述以元学习的方式进行模型的训练,包括:A1、读取模型的参数,从训练集中分别从每个说话人的样本池中随机选取n个样本;n为正整数;A2、选取一个说话人i中的所选取的样本x
i
,通过个体情感知识学习层h得到嵌入v
i
,v
i
通过调制参数生成层得到调制参数,利用调制参数调整情感特征提取模块的参数,得到针对该说话人调制后的情感特征提取模块,由情感特征提取模块的输出和该说话人对应n个样本的真实标签计算损失L
i
;A3、更新模型在该说话人下的参数;A4、重复步骤A2~A3,直到所有说话人被选中;A5、根据每个说话人的模型计算出损失,并将所有损失求和取平均,根据平均损失更新原始模型的参数;A6、重复步骤A1~A5,直到训练结束。4.根据权利要求1所述的一种基于个体感知的语音情感识别方法,其特征在于,所述获取带有标签的语音数据,根据语音数据获取原始通用语音特征,包括:将录制好的语音数据,按情感类别标记上数字标签;删除语音数据中音质较低的部分,并将语音数据剪切成预设时长的语音片段,作为语音样本;将语音样本输入预训练模型,获得每条语音样本的原始通用语音特征,并划分训练样本和测试样本。5.根据权利要求1所述的一种基于个体感知的语音情感识别方法,其特征在于,所述将原始通用语音特征输入个体情感知识学习层提取个体情感知识嵌入,包括:个体情感知识学习层的主体为两层前馈神经网络,其中第一层前馈神经网络后接非线性激活函数,第一层前馈神经网络神经元个数为512,第二层神经元个数为1024...

【专利技术属性】
技术研发人员:徐向民方元博范为铨邢晓芬
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1