一种基于神经网络的情感识别方法、设备及介质技术

技术编号：27659112 阅读：35 留言：0更新日期：2021-03-12 14:25

本申请公开了一种基于神经网络的情感识别方法、设备及介质，方法包括：确定用户对应的待识别语音；通过预先训练的声音识别模型，对待识别语音进行情感识别，得到声音识别结果；将待识别语音转换为文本，并对文本进行情感识别，得到文本识别结果；将声音识别结果与文本识别结果进行融合，得到待识别语音对应的最终结果。在通过用户的语音识别情感时，不只采用声音或者文本，而是通过双模态判断用户的情感，识别效果远好于单模态的识别效果，保证了双模态融合情感识别的有效性。双模态信息融合相对比单模态信息，更广泛的包含了语音当中的声音变化信息和语义信息，从而在模型训练和决策判断中可以更有利于交叉判断，得到最优的情感识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络的情感识别方法、设备及介质
本申请涉及情感识别领域，具体涉及一种基于神经网络的情感识别方法、设备及介质。
技术介绍
随着多媒体技术的发展，为如今大数据环境下的情感计算提供了重要的数据来源。通常情况下，情感计算主要针对采集到的不同数据，例如图像数据、语音数据和文字数据，来进行相应的识别处理。其中，对于语音数据的情感识别主要利用语音的声学特征和韵律学特征，对语音信号建模。但是这种传统的语音情感识别，仅仅对语音的声音信号进行分析，而忽略了语音当中包含的丰富的内容信息表达，并不能很好的描述情感表达结果。这也就使得现有的针对语音的情感识别结果不够准确。
技术实现思路
为了解决上述问题，本申请提出了一种基于神经网络的情感识别方法，包括：确定用户对应的待识别语音；通过预先训练的声音识别模型，对所述待识别语音进行情感识别，得到声音识别结果；将所述待识别语音转换为文本，并对所述文本进行情感识别，得到文本识别结果；将所述声音识别结果与所述文本识别结果进行融合，得到所述待识别语音对应的最终结果。在一个示例中，通过预先训练的声音识别模型，对所述待识别语音进行情感识别，得到声音识别结果，包括：对所述待识别语音进行降噪预处理；提取所述待识别语音的谱特征以及韵律学特征；将所述谱特征以及所述韵律学特征进行耦合，得到所述待识别语音的声音特征；通过预先训练的声音识别模型，对所述声音特征进行情感识别，得到声音识别结果。在一个示例中，对所述待识别语音进行降噪预处理，包括：将所述待识别语音进行归一化...

【技术保护点】
1.一种基于神经网络的情感识别方法，其特征在于，包括：/n确定用户对应的待识别语音；/n通过预先训练的声音识别模型，对所述待识别语音进行情感识别，得到声音识别结果；/n将所述待识别语音转换为文本，并对所述文本进行情感识别，得到文本识别结果；/n将所述声音识别结果与所述文本识别结果进行融合，得到所述待识别语音对应的最终结果。/n

【技术特征摘要】
1.一种基于神经网络的情感识别方法，其特征在于，包括：
确定用户对应的待识别语音；
通过预先训练的声音识别模型，对所述待识别语音进行情感识别，得到声音识别结果；
将所述待识别语音转换为文本，并对所述文本进行情感识别，得到文本识别结果；
将所述声音识别结果与所述文本识别结果进行融合，得到所述待识别语音对应的最终结果。

2.根据权利要求1所述的方法，其特征在于，通过预先训练的声音识别模型，对所述待识别语音进行情感识别，得到声音识别结果，包括：
对所述待识别语音进行降噪预处理；
提取所述待识别语音的谱特征以及韵律学特征；
将所述谱特征以及所述韵律学特征进行耦合，得到所述待识别语音的声音特征；
通过预先训练的声音识别模型，对所述声音特征进行情感识别，得到声音识别结果。

3.根据权利要求2所述的方法，其特征在于，对所述待识别语音进行降噪预处理，包括：
将所述待识别语音进行归一化处理；
对所述待识别语音进行逐帧检测，计算每帧语音的过零率和短时能量；
通过端点检测，将所述待识别语音划分成若干个语音段，以对所述待识别语音进行降噪预处理。

4.根据权利要求3所述的方法，其特征在于，通过端点检测，将所述待识别语音划分成若干个语音段，包括：
若存在相应帧的所述过零率高于预设的过零率门限阈值、所述短时能量高于预设的短时能量门限阈值，则将该相应帧作为起始帧；
若在所述起始帧后，存在若干连续的语音帧的所述过零率都不高于所述过零率门限阈值、所述短时能量不高于预设的短时能量门限阈值，则将所述若干连续的语音帧的最后一帧作为结束帧；
将所述起始帧与所述结束帧之间的部分作为一个...

【专利技术属性】
技术研发人员：周文铠，
申请(专利权)人：浪潮通用软件有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人