基于线索神经网络的语音-视觉融合情感识别方法技术

技术编号：9356949 阅读：207 留言：0更新日期：2013-11-21 00:08

本发明专利技术提出的一种基于线索神经网络的语音-视觉融合情感识别方法，属于自动情感识别领域。其基本思想是：首先，分别使用人的正面脸部表情、侧面脸部表情和语音三个通道的特征数据，独立地训练一个神经网络来执行离散的情感类别的识别，训练过程中神经网络模型中的输出层加入4个线索(hint)节点，分别承载活跃度-评价度（activation-evaluation）空间中的4个粗粒度类别的线索(hint)信息。在线索信息的帮助下，神经网络权重的学习会产生更优的特征选择。然后，使用多模态融合模型对三个神经网络的输出结果进行融合，多模态融合模型也采用基于线索信息训练的神经网络。该方法具有较低的计算量，识别率高且鲁棒性好。对于训练数据较少的情况，效果更加明显。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种基于线索神经网络的语音?视觉融合情感识别方法，用于识别情感视频中人的情感，其特征在于：其识别过程包括2部分：训练过程和识别过程；所述训练过程的具体实施步骤包括步骤一至步骤四，具体为：步骤一、建立神经网络分类器；所述神经网络分类器为包含输入层、隐含层和输出层的三层结构神经网络；其输入层的节点数用符号nI表示，当所述神经网络分类器的输入为人的正面视角特征数据和侧面脸部表情特征数据时，nI＝nS，10≤nS≤80；当所述神经网络分类器的输入为语音特征数据时，nI＝nY，20≤nY≤200；所述神经网络分类器隐含层的节点数用符号nH表示，4≤nH≤10；所述神经网络分类器输出层包含2种节点，分别称为情感类别输出节点和线索节点；输出层的节点数用符号nO表示，nO＝nL+nX；其中，nL表示情感类别输出节点的数量，每个情感类别输出节点对应一种情感类别，2≤nL≤15；nX表示线索节点的数量，在训练阶段，nX的取值为4，并且4个线索节点分别对应活跃度?评价度空间上的4种粗粒度情感类别，即活跃度?评价度空间上的四个象限，分别为：积极?正、消极?正、积极?负、消极?负；其中，积极和消极是活跃度?评价...

【技术特征摘要】

【专利技术属性】
技术研发人员：吕坤，张欣，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人