一种融合脸部表情和语音的驾驶员情感实时识别方法技术

技术编号：13342990 阅读：117 留言：0更新日期：2016-07-13 20:47

本发明专利技术公开了一种融合脸部表情和语音的驾驶员情感实时识别方法，首先，通过kinect SDK实时跟踪人脸，获取驾驶员的脸部图像和语音信号，之后对驾驶员的脸部图像、声学信号进行预处理，根据给出的目标函数来训练基于无监督特征学习和稀疏编码的特征提取模型，得到模型之后将预处理得到的信息输入该模型得到基于脸部图像和声音信号的情感特征；并根据说话内容提取单词，通过Apriori算法得到的频繁单词并创建词典，通过词典得到基于文本的情感特征，最后将基于脸部图像和声音信号的情感特征和基于文本的情感特征串连在一起得到特征向量，将特征向量输入到支持向量机SVM，训练SVM分类器，得到SVM模型。利用最终得到SVM模型识别出驾驶员的情感，具有很高的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合脸部表情和语音的驾驶员情感实时识别方法
本专利技术涉及一种实时识别驾驶员情感的方法，特指一种融合脸部表情和语音的驾驶员情感实时识别方法。
技术介绍
近些年，随着私家车数量的飞快增加，每年的交通事故的数量也在急剧上升，给人们的生命和财产造成了巨大的损失。而造成交通事故的原因有很多，主要包括两大方面因素：主动因素和被动因素。被动因素主要是指车自身零件发生异常、外界的一些人为不可控制的因素；主动因素是指驾驶员由于疲劳、行为异常、情绪异常等。目前，对于车自身的异常已经有了检测设备，而对于驾驶员疲劳驾驶和驾驶员异常行为已经有很多学者进行了研究，并且有了很大的进展，而对驾驶员情绪异常识别方面的研究未见报道。虽然很多学者针对日常生活中的情感信息进行分析和识别，取得了一定的突破，但是这些模型复杂，实时性很难达到，在图像光照不好的情况下，识别精度不高，不适合驾驶员情感的识别。
技术实现思路
针对以上所述的问题和不足，驾驶员情感识别有很大的研究意义。本专利技术为了解决驾驶员情感高精度、实时识别的问题，引入Kinect这一高速3D摄像设备提取RGB图像信息、Depth图像信息和语音信息，并针对这些特征提出了一整套切实可行的驾驶员情感识别方法，大大提高了识别精度与速度。实现本专利技术的技术方案如下：一种融合脸部表情和语音的驾驶员情感实时识别方法，包括如下步骤：步骤1，获取驾驶员脸部图像和语音信号；所述的脸部图像包括RGB图像和Depth图像；所述的语音信号包括声学信号和说话内容；步骤2，对驾驶员脸部图像和语音信号进行预处理；步骤3，基于无监督特征学习和稀疏编码进行特征提取模型...

【技术保护点】
一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，包括如下步骤：步骤1，获取驾驶员脸部图像和语音信号；所述的脸部图像包括RGB图像和Depth图像；所述的语音信号包括声学信号和说话内容；步骤2，对驾驶员脸部图像和语音信号进行预处理；步骤3，基于无监督特征学习和稀疏编码进行特征提取模型的训练；基于说话内容创建单词词典；步骤4，将步骤2预处理得到的图像、声学信号串接，串接后输入到步骤3训练好的特征提取模型中，得到基于脸部图像和声音信号的情感特征V1；通过查找步骤3中创建的词典得到基于文本的情感特征D；将V1和D串联在一起构建基于驾驶员情感的特征向量F，进行SVM训练，得到SVM模形；步骤5，驾驶员情感实时识别，包括：获取驾驶员脸部图像和语音信号，利用步骤2预处理的方法进行预处理，然后按照步骤3的方法将脸部图像、声学信号和说话内容进行特征提取，将提取的特征串联后输入到步骤4得到的SVM模型，输出待识别的驾驶员的情感类别。

【技术特征摘要】
1.一种融合脸部表情和语音的驾驶员情感实时识别方法，其特征在于，包括如下步骤：步骤1，获取驾驶员脸部图像和语音信号；所述的脸部图像包括RGB图像和Depth图像；所述的语音信号包括声学信号和说话内容；步骤2，对驾驶员脸部图像和语音信号进行预处理；步骤3，基于无监督特征学习和稀疏编码进行特征提取模型的训练；基于说话内容创建单词词典；步骤4，将步骤2预处理得到的图像、声学信号串接，串接后输入到步骤3训练好的特征提取模型中，得到基于脸部图像和声学信号的情感特征V1；通过查找步骤3中创建的词典得到基于文本的情感特征D；将V1和D串联在一起构建基于驾驶员情感的特征向量F，进行SVM训练，得到SVM模型；步骤5，驾驶员情感实时识别，包括：获取驾驶员脸部图像和语音信号，利用步骤2预处理的方法进行预处理，然后按照步骤3的方法将脸部图像、声学信号和说话内容进行特征提取，将提取的特征串联后输入到步骤4得到的SVM模型，输出待识别的驾驶员的情感类别；步骤2中对所述脸部图像的预处理方法包括：步骤2.1.1，将RGB图像和Depth图像灰度化生成灰度图像，再对灰度图像大小归一化为40*40；步骤2.1.2，将灰度化、归一化的RGB图像和Depth图像按照比例相加；步骤2.1.3，对步骤2.1.2按比例相加后的图像进行均值滤波，得到驾驶员脸部RGB+D的图像X；步骤2中对所述语音信号的预处理方法包括：对声学信号进行预处理；包括高通滤波、分帧、加汉明窗；对说话内容进行预处理；包括：将一整句说话内容拆分成独立的单词；步骤3中所述的特征提取模型训练的方法为：将无监督特征学习和稀疏编...

【专利技术属性】
技术研发人员：毛启容，刘鹏，刘峰，陈龙，詹永照，
申请(专利权)人：江苏大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人