基于线索神经网络的语音-视觉融合情感识别方法技术

技术编号:9356949 阅读:200 留言:0更新日期:2013-11-21 00:08
本发明专利技术提出的一种基于线索神经网络的语音-视觉融合情感识别方法,属于自动情感识别领域。其基本思想是:首先,分别使用人的正面脸部表情、侧面脸部表情和语音三个通道的特征数据,独立地训练一个神经网络来执行离散的情感类别的识别,训练过程中神经网络模型中的输出层加入4个线索(hint)节点,分别承载活跃度-评价度(activation-evaluation)空间中的4个粗粒度类别的线索(hint)信息。在线索信息的帮助下,神经网络权重的学习会产生更优的特征选择。然后,使用多模态融合模型对三个神经网络的输出结果进行融合,多模态融合模型也采用基于线索信息训练的神经网络。该方法具有较低的计算量,识别率高且鲁棒性好。对于训练数据较少的情况,效果更加明显。

【技术实现步骤摘要】

【技术保护点】
一种基于线索神经网络的语音?视觉融合情感识别方法,用于识别情感视频中人的情感,其特征在于:其识别过程包括2部分:训练过程和识别过程;所述训练过程的具体实施步骤包括步骤一至步骤四,具体为:步骤一、建立神经网络分类器;所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络;其输入层的节点数用符号nI表示,当所述神经网络分类器的输入为人的正面视角特征数据和侧面脸部表情特征数据时,nI=nS,10≤nS≤80;当所述神经网络分类器的输入为语音特征数据时,nI=nY,20≤nY≤200;所述神经网络分类器隐含层的节点数用符号nH表示,4≤nH≤10;所述神经网络分类器输出层包含2种节点,分别称为情感类别输出节点和线索节点;输出层的节点数用符号nO表示,nO=nL+nX;其中,nL表示情感类别输出节点的数量,每个情感类别输出节点对应一种情感类别,2≤nL≤15;nX表示线索节点的数量,在训练阶段,nX的取值为4,并且4个线索节点分别对应活跃度?评价度空间上的4种粗粒度情感类别,即活跃度?评价度空间上的四个象限,分别为:积极?正、消极?正、积极?负、消极?负;其中,积极和消极是活跃度?评价度空间中活跃度维度上的两个取值,正和负是活跃度?评价度空间中评价度维度上的两个取值;所述神经网络分类器为nI?nH?nO完全连接的拓扑结构;步骤二、在步骤一的基础上,使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面脸部表情特征数据和语音特征数据分别训练一个神经网络分类器;第一训练样本集里包含nL种情感的训练数据,nL种情感中包含中性情感;每种情感的训练数据由多个训练样本对组成,每种情感的训练样本对的数量不小于20个;每个训练样本对由2条情感视频组成,分别为同步拍摄的正面视频和侧面视频;正面视频是包含人的正面脸部表情和语音的视频数据,侧面视频是包含人的侧面脸部表情的视频数据;每条情感视频都开始于中性表情;第一训练样本集里的每个正面视频和侧面视频均作了2种情感类别标注,一种是离散的情感类别标注,另一种是在活跃度?评价度空间的4种粗粒度情感类别标注;并且,每个训练样本对中的正面视频和侧面视频在离散的情感类别上的标注结果是一致的,在活跃度?评价度空间的粗粒度情感类别上的标注结果也是一致的;所述使用第一训练样本集里的训练样本中人的正面视角特征数据、侧面脸部表情特征数据和语音特征数据分别训练一个神经网络分类器的过程为:步骤2.1:依次对第一训练样本集里的每个训练样本对中的正面视频做预处理,得到正面视角特征数据和语音特征数据;对第一训练样本集里的每个训练样本对中的侧面视频做预处理,得到侧面视角特征数据;所述对第一训练样本集里的一个训练样本对中的正面视频做预处理,得到正面视角特征数据的操作步骤为:步骤a.1:从所述训练样本对中的正面视频中以均等的时间间隔提取nS帧图像,构成一个正面视角图像序列;步骤a.2:在步骤a.1中得到的正面视角图像序列中的第一帧图像中标识出20个正面脸部特征点;其中,第1、2正面脸部特征点分别位于右边眉毛和左边眉毛的眉头位置,分别用(x1,y1)、(x2,y2)表示;第3、4正面脸部特征点分别位于右边眉毛和左边眉毛的眉尾位置,分别用(x3,y3)、(x4,y4)表示;第5、6正面脸部特征点分别位于右边眼睛和左边眼睛的内眼角位置,分别用(x5,y5)、(x6,y6)表示;第7、8正面脸部特征点分别位于右边眼睛和左边眼睛的最低点,分别用(x7,y7)、(x8,y8)表示;第9、10正面脸部特征点分别位于右边眼睛和左边眼睛的外眼角位置,分别用(x9,y9)、(x10,y10)表示;第11、12正面脸部特征点分别位于右边眼睛和左边眼睛的最高点,分别用(x11,y11)、(x12,y12)表示;第13、14正面脸部特征点分别位于鼻翼的最右侧位置和鼻翼的最左侧位置,分别用(x13,y13)、(x14,y14)表示;第15正面脸部特征点位于鼻尖位置,用(x15,y15)表示;第16、17正面脸部特征点分别位于嘴角的最右侧位置和嘴角的最左侧位置,分别用(x16,y16)、(x17,y17)表示;第18、19正面脸部特征点分别位于唇部中心线与唇部轮廓线相交的最高点和最低点,分别用(x18,y18)、(x19,y19)表示;第20正面脸部特征点位于脸部中心线与脸部轮廓线相交的最低点,用(x20,y20)表示;步骤a.3:根据步骤a.2中得到的正面视角图像序列中的第一帧图像中的20个正面脸部特征点的位置,定位出该正面视角图像序列中除第一帧图像以外的后续帧...

【技术特征摘要】

【专利技术属性】
技术研发人员:吕坤张欣
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1