一种基于神经网络的情感识别方法、设备及介质技术

技术编号:27659112 阅读:35 留言:0更新日期:2021-03-12 14:25
本申请公开了一种基于神经网络的情感识别方法、设备及介质,方法包括:确定用户对应的待识别语音;通过预先训练的声音识别模型,对待识别语音进行情感识别,得到声音识别结果;将待识别语音转换为文本,并对文本进行情感识别,得到文本识别结果;将声音识别结果与文本识别结果进行融合,得到待识别语音对应的最终结果。在通过用户的语音识别情感时,不只采用声音或者文本,而是通过双模态判断用户的情感,识别效果远好于单模态的识别效果,保证了双模态融合情感识别的有效性。双模态信息融合相对比单模态信息,更广泛的包含了语音当中的声音变化信息和语义信息,从而在模型训练和决策判断中可以更有利于交叉判断,得到最优的情感识别结果。

【技术实现步骤摘要】
一种基于神经网络的情感识别方法、设备及介质
本申请涉及情感识别领域,具体涉及一种基于神经网络的情感识别方法、设备及介质。
技术介绍
随着多媒体技术的发展,为如今大数据环境下的情感计算提供了重要的数据来源。通常情况下,情感计算主要针对采集到的不同数据,例如图像数据、语音数据和文字数据,来进行相应的识别处理。其中,对于语音数据的情感识别主要利用语音的声学特征和韵律学特征,对语音信号建模。但是这种传统的语音情感识别,仅仅对语音的声音信号进行分析,而忽略了语音当中包含的丰富的内容信息表达,并不能很好的描述情感表达结果。这也就使得现有的针对语音的情感识别结果不够准确。
技术实现思路
为了解决上述问题,本申请提出了一种基于神经网络的情感识别方法,包括:确定用户对应的待识别语音;通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果;将所述待识别语音转换为文本,并对所述文本进行情感识别,得到文本识别结果;将所述声音识别结果与所述文本识别结果进行融合,得到所述待识别语音对应的最终结果。在一个示例中,通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果,包括:对所述待识别语音进行降噪预处理;提取所述待识别语音的谱特征以及韵律学特征;将所述谱特征以及所述韵律学特征进行耦合,得到所述待识别语音的声音特征;通过预先训练的声音识别模型,对所述声音特征进行情感识别,得到声音识别结果。在一个示例中,对所述待识别语音进行降噪预处理,包括:将所述待识别语音进行归一化处理;对所述待识别语音进行逐帧检测,计算每帧语音的过零率和短时能量;通过端点检测,将所述待识别语音划分成若干个语音段,以对所述待识别语音进行降噪预处理。在一个示例中,通过端点检测,将所述待识别语音划分成若干个语音段,包括:若存在相应帧的所述过零率高于预设的过零率门限阈值、所述短时能量高于预设的短时能量门限阈值,则将该相应帧作为起始帧;若在所述起始帧后,存在若干连续的语音帧的所述过零率都不高于所述过零率门限阈值、所述短时能量不高于预设的短时能量门限阈值,则将所述若干连续的语音帧的最后一帧作为结束帧;将所述起始帧与所述结束帧之间的部分作为一个语音段。在一个示例中,所述谱特征包括:梅尔频率倒谱系数MFCC;所述韵律学特征包括:语速、振幅特征、基因周期、共振峰中的至少一种。在一个示例中,对所述文本进行情感识别,得到文本识别结果,包括:将所述文本进行分词,得到若干个词汇;提取所述若干个词汇的文本特征,并通过预先训练的文本识别模型,对所述文本特征进行情感识别,得到第一文本识别结果;通过预设的情感词典,对所述若干个词汇进行情感识别,得到第二文本识别结果。在一个示例中,提取所述若干个词汇的文本特征,包括:基于文档频率DF、互信息MI、卡方统计CHI中的至少一种,提取所述若干个词汇的文本特征。在一个示例中,通过预设的情感词典,对所述若干个词汇进行情感识别,得到第二文本识别结果,包括:通过预设的情感词典,以及预设的不同情感所对应的权重,对所述若干个词汇进行情感识别,得到第二文本识别结果。另一方面,本申请还提出了一种基于神经网络的情感识别设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任意一个示例所述的方法。另一方面,本申请还提出了一种基于神经网络的情感识别的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:如上述任意一个示例所述的方法。通过本申请提出基于神经网络的情感识别方法能够带来如下有益效果:在通过用户的语音识别情感时,不只采用声音或者文本,而是将两者融合,通过双模态判断用户的情感,识别效果远好于单一模态的识别效果,保证了双模态融合情感识别的有效性。双模态信息融合相对比单一模态信息,更广泛的包含了语音当中的声音变化信息和语义信息,从而在模型训练和决策判断中可以更有利于交叉判断,并得到最优的情感识别结果。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例中基于神经网络的情感识别方法的流程示意图;图2为本申请实施例中基于神经网络的情感识别方法的流程框图;图3为本申请实施例中声音识别结果对应的流程框图;图4为本申请实施例中文本识别结果对应的流程框图;图5为本申请实施例中声音特征提取的流程图;图6为本申请实施例中声音识别模型的训练以及识别过程示意图;图7为本申请实施例中实验效果图;图8为本申请实施例中基于神经网络的情感识别设备的示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。首先需要说明的是,现有的情感数据并没有统一的录制标准和标注格式,其中比较常用的有DMO-DB情感数据库、中科院语音情感数据库(CASIA)等。CASIA汉语情感语料库由中国科学院自动化所录制,共包含9600条语音,分为四个不同说话人表述,其中包含了愤怒、高兴、惊讶、恐惧、悲伤和平静共六种基本情感类别,在本申请实施例中可以将这种六种情感作为情感的分类。如图1以及图2所示,本申请实施例提供一种基于神经网络的情感识别方法,包括:S101、确定用户对应的待识别语音。为了能够通过语音对用户的情感进行识别,首先需要获取用户的语音,在此可以将该语音称作待识别语音。待识别语音可以是一段或者多段,通过相应的软件、设备来获取,在此对如何获取待识别语音进行限制。S102、通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果。如图3所示,为了能够有效的对待识别语音的情感进行识别,可以预先训练相应的声音识别模型,然后通过声音识别模型对待识别语音进行情感识别,得到声音相关的情感识别结果(在此称作声音识别结果)。在训练声音识别模型时,可以对语音数据进行预处理和特征提取工作,用得到的语音数据的单模态特征进行模型训练,利用浅层学习模型和深度学习模型进行分类学习,得到最优的识别结果来作为声音识别模型。具体地,在训练完成后的预处理降噪的过程中,为了保持语音数据的有用性,查找出有识别文本结果的语音,可以利用门限端点检测算法,标记出语音中所有语音片段的起点和终点。实现过程可以为:预先设置过零率门限阈值、短时能量门限阈值。将语音数据输入并进行归一化处理,然后进本文档来自技高网...

【技术保护点】
1.一种基于神经网络的情感识别方法,其特征在于,包括:/n确定用户对应的待识别语音;/n通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果;/n将所述待识别语音转换为文本,并对所述文本进行情感识别,得到文本识别结果;/n将所述声音识别结果与所述文本识别结果进行融合,得到所述待识别语音对应的最终结果。/n

【技术特征摘要】
1.一种基于神经网络的情感识别方法,其特征在于,包括:
确定用户对应的待识别语音;
通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果;
将所述待识别语音转换为文本,并对所述文本进行情感识别,得到文本识别结果;
将所述声音识别结果与所述文本识别结果进行融合,得到所述待识别语音对应的最终结果。


2.根据权利要求1所述的方法,其特征在于,通过预先训练的声音识别模型,对所述待识别语音进行情感识别,得到声音识别结果,包括:
对所述待识别语音进行降噪预处理;
提取所述待识别语音的谱特征以及韵律学特征;
将所述谱特征以及所述韵律学特征进行耦合,得到所述待识别语音的声音特征;
通过预先训练的声音识别模型,对所述声音特征进行情感识别,得到声音识别结果。


3.根据权利要求2所述的方法,其特征在于,对所述待识别语音进行降噪预处理,包括:
将所述待识别语音进行归一化处理;
对所述待识别语音进行逐帧检测,计算每帧语音的过零率和短时能量;
通过端点检测,将所述待识别语音划分成若干个语音段,以对所述待识别语音进行降噪预处理。


4.根据权利要求3所述的方法,其特征在于,通过端点检测,将所述待识别语音划分成若干个语音段,包括:
若存在相应帧的所述过零率高于预设的过零率门限阈值、所述短时能量高于预设的短时能量门限阈值,则将该相应帧作为起始帧;
若在所述起始帧后,存在若干连续的语音帧的所述过零率都不高于所述过零率门限阈值、所述短时能量不高于预设的短时能量门限阈值,则将所述若干连续的语音帧的最后一帧作为结束帧;
将所述起始帧与所述结束帧之间的部分作为一个...

【专利技术属性】
技术研发人员:周文铠
申请(专利权)人:浪潮通用软件有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1