当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于CNN-Transformer的面部表情识别方法及装置制造方法及图纸

技术编号:31755626 阅读:68 留言:0更新日期:2022-01-05 16:38
本发明专利技术公开了一种基于CNN

【技术实现步骤摘要】
一种基于CNN

Transformer的面部表情识别方法及装置


[0001]本专利技术涉及一种基于CNN

Transformer的面部表情识别方法及装置,属于数字图像信号处理


技术介绍

[0002]在日常交流中,我们可以以文字和非文字形式来表达情感,其中面部表情可以承载的信息尤其重要。另外面部表情识别可以应用于疲劳驾驶检测、情感合成、广告精准投放、医疗健康和人机交互等领域,具有广泛的应用前景。
[0003]面部表情识别可以分为传统方法和深度学习方法两种。传统方法主要是通过提取诸如局部二值模式(LBP)、Gabor特征、方向梯度直方图(HOG)、词袋特征(BOW)和尺度不变特征变换(SIFT)等手工浅层特征作为向量表示,然后通过支持向量机(SVM)、随机森林(RF)和k

近邻算法(k

NN)等对表示进行分类,来获得情感分类结果的方法。由于浅层特征需要精巧的设计,而且不能深层次的表达面部情感,因此最近通过使用深度学习方式来对原始图片进行深度特征提取的方式得到广泛研究。使用卷积神经网络(CNN)可以通过感受野的变化来对图像进行提取局部特征,捕捉微小的局部变化,具有强大的局部建模能力。使用Transformer的全局建模能力,可以对图片的整体进行一个宏观的把握,这样可以忽略局部的噪声,提高系统的鲁棒性。
[0004]面部表情识别中面临的挑战之一就是局部遮挡,其中包括戴眼镜、帽子和口罩,手放在面部等操作导致的局部信息缺失。针对这一问题,大多数现有技术采用替换或者忽略被遮挡部分的操作。其中替换操作是指首先检测到被遮挡部分,然后通过预测被遮挡部分的可能表现形式,最后对被遮挡部分进行补全。此类方法如果预测错误,对最终识别结果会造成很大的影响。而忽略操作分为两种,一种是直接忽略被遮挡部分,使用缺失的面部图像进行情感分类,另外一种是通过网络的自动学习,给被遮挡部分极低的权值,达到忽略的目的。此方法虽然更符合人类的认知行为,但是怎么样对图像进行划分才能更好地表达面部特征,是一个比较有争议的话题。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中的不足,提供一种基于CNN

Transformer的面部表情识别方法及装置,可以对局部微小变化特征和全局特征同时进行建模。
[0006]为达到上述目的,本专利技术是采用下述技术方案实现的:
[0007]第一方面,本专利技术提供了一种基于CNN

Transformer的面部表情识别方法及装置,包括:
[0008]对输入图片进行预处理,获得矫正后的人脸图片;
[0009]计算人脸图像的LBP特征,并作为输入送入预先构建的CNN网络获得面部的局部特征;
[0010]将人脸图像均匀划分之后送入Transformer获得面部的全局特征;
[0011]对全局特征和局部特征进行信息融合,获得融合特征;
[0012]通过融合特征来进行情感识别。
[0013]进一步的,所述对输入图片进行预处理,获得矫正后的人脸图片,包括:
[0014]通过Dlib工具箱提供的基于方向梯度直方图的人脸检测器进行图片中人脸的检测,去除非人脸部分,获得人脸图片;
[0015]通过Imutils包中基于仿射变换的人脸校正器对人脸图片进行人脸校正,使两眼在同一水平线上,获得矫正后的人脸图片。
[0016]进一步的,所述计算人脸图像的LBP特征,并作为输入送入预先构建的CNN网络获得面部的局部特征,包括:
[0017]对矫正后的人脸图像计算以1为半径,圆形区域内含有8个采样点的圆形LBP算子,获得局部手工特征图;
[0018]把所述局部手工特征图输入到典型的Resnet18中,进一步获得图像的局部特征。
[0019]进一步的,所述将人脸图像均匀划分之后送入Transformer获得面部的全局特征,包括:
[0020]将人脸图像进行均匀划分为N块,每一块转化为一维向量,可以获得输入矩阵M∈R
N
×
D
,其中D为一维向量的长度;
[0021]把输入矩阵M输入到经典的Swin Transformer中,获得人脸图像的忽略细节的全局特征。
[0022]进一步的,所述对全局特征和局部特征进行信息融合,获得融合特征,包括:
[0023]利用公式求出全局特征权重,其中F
glo
表示全局特征,GAP表示全局平均池化,BN表示批标准化,6表示激活函数ReLu,σ表示Sigmoid函数,表示对应元素逐个相加,Conv1和Conv2表示卷积层;
[0024]利用公式局部特征权重,其中,F
loc
表示局部特征;
[0025]利用公式获得融合特征,此融合特征不仅具有面部的局部变化特征,而且包含面部的全局特征,其中

表示对应元素逐个相乘。
[0026]进一步的,所述通过融合特征来进行情感识别,包括:
[0027]将所述融合特征输入到全连接网络中,再通过Softmax层将网络的输出范围压缩到[0,1]之间,并且所有的输出和等于1,表示人脸图像中属于各个表情类别的概率;
[0028]将得到的概率值利用交叉熵损失函数得到网络整体的损失值,通过BP算法来优化网络参数,使得损失值达到最小来训练网络;
[0029]在模型测试阶段,使用训练得到的网络,通过对输入图片的概率预测,获得对应的情感识别类别结果。
[0030]第二方面,本专利技术提供一种基于CNN

Transformer的面部表情识别装置,包括:
[0031]预处理单元,用于对输入图片进行预处理,获得矫正后的人脸图片;
[0032]局部特征获取单元,用于计算人脸图像的LBP特征,并作为输入送入预先构建的
CNN网络获得面部的局部特征;
[0033]全局特征获取单元,用于将人脸图像均匀划分之后送入Transformer获得面部的全局特征;
[0034]融合特征获取单元,用于对全局特征和局部特征进行信息融合,获得融合特征;
[0035]识别结果获取单元,用于通过融合特征来进行情感识别。
[0036]第三方面,本专利技术提供一种基于CNN

Transformer的面部表情识别装置,包括处理器及存储介质;
[0037]所述存储介质用于存储指令;
[0038]所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
[0039]第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
[0040]与现有技术相比,本专利技术所达到的有益效果:
[0041]本专利技术提出了一种基于CNN

Transformer的面部表情本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于CNN

Transformer的面部表情识别方法,其特征在于,包括:对输入图片进行预处理,获得矫正后的人脸图片;计算人脸图像的LBP特征,并作为输入送入预先构建的CNN网络获得面部的局部特征;将人脸图像均匀划分之后送入Transformer获得面部的全局特征;对全局特征和局部特征进行信息融合,获得融合特征;通过融合特征来进行情感识别。2.根据权利要求1所述的基于CNN

Transformer的面部表情识别方法,其特征在于:所述对输入图片进行预处理,获得矫正后的人脸图片,包括:通过Dlib工具箱提供的基于方向梯度直方图的人脸检测器进行图片中人脸的检测,去除非人脸部分,获得人脸图片;通过Imutils包中基于仿射变换的人脸校正器对人脸图片进行人脸校正,使两眼在同一水平线上,获得矫正后的人脸图片。3.根据权利要求1所述的基于CNN

Transformer的面部表情识别方法,其特征在于:所述计算人脸图像的LBP特征,并作为输入送入预先构建的CNN网络获得面部的局部特征,包括:对矫正后的人脸图像计算以1为半径,圆形区域内含有8个采样点的圆形LBP算子,获得局部手工特征图;把所述局部手工特征图输入到典型的Resnet18中,进一步获得图像的局部特征。4.根据权利要求1所述的基于CNN

Transformer的面部表情识别方法,其特征在于:所述将人脸图像均匀划分之后送入Transformer获得面部的全局特征,包括:将人脸图像进行均匀划分为N块,每一块转化为一维向量,可以获得输入矩阵M∈R
N
×
D
,其中D为一维向量的长度;把输入矩阵M输入到经典的Swin Transformer中,获得人脸图像的忽略细节的全局特征。5.根据权利要求1所述的基于CNN

Transformer的面部表情识别方法,其特征在于:所述对全局特征和局部特征进行信息融合,获得融合特征,包括:利用公...

【专利技术属性】
技术研发人员:徐林森梁兴灿刘志鹏张文祥刘进福张燕
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1