System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及情绪识别方法、电子设备、存储介质和程序产品等。
技术介绍
1、目前,智能眼镜适用场合越来越多,其基本都有音频采集功能,其中部分智能眼镜带有摄像头功能,可以把对面交流的人的面部拍下来。因此期望能在交流中实时识别出对面人的情绪,这可以为进行更多有趣的交互提供了可能性,例如根据不同的情绪选择不同的交谈题材、更准确地与交谈者共情等。
技术实现思路
1、本公开实施例提供了情绪识别方法以及相应的执行这些方法的电子设备、非暂时性机器可读存储介质和计算机程序产品。
2、根据本公开实施例的第一个方面,提供了一种情绪识别方法,包括:获得目标说话人的从第一时刻到在所述第一时刻之后的第二时刻的说话音频、以及所述说话音频划分而成的每帧的特征;从所述每帧的特征中提取音频情绪特征;将所述音频情绪特征与面部表情差异特征融合得到融合情绪特征,其中所述面部表情差异特征是根据从所述目标说话人的第一面部图片中提取的第一面部表情特征与从所述目标说话人的第二面部图片中提取的第二面部表情特征之间的差别而确定的,并且所述第一面部图片和所述第二面部图片是分别在所述第一时刻和所述第二时刻采集得到的;以及根据所述融合情绪特征获得所述目标说话人的情绪类别。
3、可选地,所述面部表情差异特征是根据第一面部表情特征与第二面部表情特征之间的差别而确定的,包括:将所述第二面部表情特征与所述第一面部表情特征按位相减得到差值特征;在所述差值特征的全部元素的绝对值中的最大值小于预设的门限值的情况下,将预设的固定数值的
4、可选地,从所述目标说话人的第一面部图片中提取第一面部表情特征以及从所述目标说话人的第二面部图片中提取第二面部表情特征,包括:利用人脸目标检测模型,分别确定所述第一面部图片和所述第二面部图片中的人脸区域;以及利用人脸情绪识别神经网络模型,分别根据所述第一面部图片和所述第二面部图片中的人脸区域内的图片信息,获得所述第一面部表情特征和所述第二面部表情特征;或者,利用基于人脸特征点的面部特征提取模型,分别从所述第一面部图片和所述第二面部图片中的人脸区域内的图片信息中提取所述第一面部表情特征和所述第二面部表情特征。
5、可选地,将所述音频情绪特征与面部表情差异特征融合得到融合情绪特征,包括:在所述音频情绪特征与所述面部表情差异特征中的至少一个为非一维向量的情况下,将所述非一维向量展平为一维向量;以及在展平后将所述音频情绪特征与所述面部表情差异特征拼接成为所述融合情绪特征。
6、可选地,从所述每帧的特征中提取音频情绪特征,包括:利用第一神经网络模块,从所述每帧的特征中提取音频情绪特征,其中所述第一神经网络模块包括一个或串联的多个具有保存历史信息功能的神经网络单元。
7、可选地,根据所述融合情绪特征获得所述目标说话人的情绪类别,包括:将所述融合情绪特征输入第二神经网络模块,其中所述第二神经网络模块包括一个或串联的多个处理单元以及连接在所述处理单元之后的输出层,所述处理单元包括卷积单元和/或全连接单元,所述卷积单元包括卷积层、归一化层和激活层,所述全连接单元包括全连接层、归一化层和激活层;以及从所述第二神经网络模块的输出层输出全部情绪类别的置信度分数,根据所述置信度分数确定所述目标说话人的情绪类别。
8、可选地,所述第一神经网络模块和所述第二神经网络模块作为同一个神经网络模型中的模块被一起进行训练。
9、可选地,在训练时在所述第二神经网络模块中的一个所述处理单元之后还连接有丢弃层。
10、可选地,所述方法是采用流式推理方式执行的,并且所述方法还包括:对所获得的所述目标说话人的情绪类别进行后处理,其中所述后处理包括:对预定多个顺序获得的情绪类别进行低通滤波;或者在所述目标说话人的情绪类别是通过选取全部情绪类别的置信度分数中的最高值对应的情绪类别而确定的情况下,针对全部情绪类别中的每个情绪类别计算预定时间内获得的多个置信度分数的平均值,并且选取所述平均值最高的情绪类别作为所述目标说话人的情绪类别。
11、根据本公开实施例的第二个方面,提供了一种电子设备,包括:麦克风,被配置为采集目标说话人的说话音频;摄像头,被配置为采集所述目标说话人的面部图片;处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上述第一个方面中的任一方案所述的方法。
12、根据本公开实施例的第三个方面,提供了一种电子设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一个方面中的任一方案所述的方法。
13、根据本公开实施例的第四个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一个方面中的任一方案所述的方法。
14、根据本公开实施例的第五个方面,提供了一种计算机程序产品,包括可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上述第一个方面中的任一方案所述的方法。
本文档来自技高网...【技术保护点】
1.一种情绪识别方法,包括:
2.根据权利要求1所述的方法,其中,所述面部表情差异特征是根据第一面部表情特征与第二面部表情特征之间的差别而确定的,包括:
3.根据权利要求1所述的方法,其中,从所述目标说话人的第一面部图片中提取第一面部表情特征以及从所述目标说话人的第二面部图片中提取第二面部表情特征,包括:
4.根据权利要求1所述的方法,其中,将所述音频情绪特征与面部表情差异特征融合得到融合情绪特征,包括:
5.根据权利要求1所述的方法,其中,从所述每帧的特征中提取音频情绪特征,包括:
6.根据权利要求5所述的方法,其中,根据所述融合情绪特征获得所述目标说话人的情绪类别,包括:
7.根据权利要求6所述的方法,其中,
8.根据权利要求1所述的方法,其中,所述方法是采用流式推理方式执行的,并且所述方法还包括:
9.一种电子设备,包括:
10.一种计算机程序产品,包括可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-8中任一项所述的方法。
【技术特征摘要】
1.一种情绪识别方法,包括:
2.根据权利要求1所述的方法,其中,所述面部表情差异特征是根据第一面部表情特征与第二面部表情特征之间的差别而确定的,包括:
3.根据权利要求1所述的方法,其中,从所述目标说话人的第一面部图片中提取第一面部表情特征以及从所述目标说话人的第二面部图片中提取第二面部表情特征,包括:
4.根据权利要求1所述的方法,其中,将所述音频情绪特征与面部表情差异特征融合得到融合情绪特征,包括:
5.根据权利要求1所述的方法,其中...
【专利技术属性】
技术研发人员:李林峰,黄海荣,宋丹峰,王亚楠,
申请(专利权)人:湖北星纪魅族集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。