一种识别准确度高的人脸表情识别方法技术

技术编号:39732782 阅读:10 留言:0更新日期:2023-12-17 23:35
本发明专利技术涉及人脸表情识别技术领域,且公开了一种识别准确度高的人脸表情识别方法,包括以下步骤:

【技术实现步骤摘要】
一种识别准确度高的人脸表情识别方法


[0001]本专利技术涉及人脸表情识别
,更具体的公开了一种识别准确度高的人脸表情识别方法


技术介绍

[0002]目前,人脸表情识别任务越来越受计算机视觉研究界的关注

人脸表情识别是指利用计算机对检测到的人脸进行面部表情特征提取,使计算机能够按照人的思维认识对人脸表情进行相应的理解处理,并能够根据人们的需求做出响应,建立友好的

智能化的人机交互环境

由于表情是人类最为重要的表达方式之一,面部表情也是人类表达情感状态和内涵的最自然

最普遍

最直接的方式之一,关于计算机理解并识别人类的表情是十分重要的,基于这样的现状,人脸表情识别任务在人机交互

医疗进展监测

驾驶员疲劳监测

虚拟现实

智能辅导系统和许多其它领域有着广泛应用

[0003]当前人脸表情识别任务基于的数据集大致分为两大类,一类是基于
lab

control
,另一类是基于
wild。
基于
lab

control
的人脸表情图通常是在实验室特定条件下形成的,优点是标签注释准确,缺点是数据量过于少;而基于
wild
的人脸表情图,由于是制作者在互联网上搜集的,虽然可以轻易获取大量数据,但是也意味着对应的标签是人工注释的,标签准确性很难得到保证,且不同水平的标注者会导致标签不一致以及错误标签的产生,这些都会进一步阻碍模型的学习能力

[0004]故而基于
wild
的数据集使得当前人脸表情识别任务变得极具挑战性

主要原因有两大点:类内差异性,类间相似性

除此之外,如果添加其它辅助数据集来帮助训练还会导致数据集偏差问题,这些都是会阻碍模型精度进一步提升的相关原因

至于类内差异和类间相似通俗解释来说就是,同一类别的人脸表情图片可能被模型识别成不同类别的表情,不同类别的人脸表情图片却被识别成相同类别的表情

这是因为在相同环境下,不同身份

种族

肤色

年龄以及其它细节差异的人们都可以有着相同的表情,这与其它的具有显著差异类别的分类任务是不一样的

更何况基于
wild
的人脸表情图片来源多样,常常会被遮挡或者有着复杂的背景等因素,同时因为标签水平的不一致,导致网络想要学习到具有辨别性的特征图越加困难


技术实现思路

[0005]本专利技术主要解决的技术问题是提供一种识别准确度高的人脸表情识别方法,能够解决以上
技术介绍
中所存在的问题

[0006]为解决上述技术问题,根据本专利技术的一个方面,更具体的说是一种识别准确度高的人脸表情识别方法,包括以下步骤:
S1、
模型采用人脸表情识别公开数据集
RAF

DB
以及辅助数据集
RAF

AU
,并按
3∶1
的比例提取数据,然后进行拼接作为每轮的总数据集;
S2、
根据
IR50
模型的第四阶段输出,即7×7×
512
的特征图以及
mobilefacenet

特征输出7×7×
512
作为双流
vit
模型的输入,将
IR50
的输出记为
x

mobilefacenet
的输出记为
x_landmark

S3、x
首先进入增强局部关系感知模块,根据
x
构建两个分支,每个分支都通过
LANet
将维度
512
降至1,得到两个7×7×1的特征图,记为
M1

M2
,然后将
M1

M2
分别经过
dropout
,再进行
max
处理,最后与
x
进行相乘融合,得到新的7×7×
512
特征图,为
xout

S4、xout
再进入
invariance
模块,即依次通过2个1×1卷积,每个卷积的通道维度不发生改变,且每经过1个卷积,得到的输出都与卷积的输入进行残差相加处理,最终输出结果依旧为7×7×
512
,记为
x_invariance

S5、x_invariance
再经过
dropout
处理,然后与
x
进行残差相加处理,
x
即进入增强局部关系感知模块的输入;
S6、
另一输入流
x_landmark
经过
dropout
处理即可;
S7、
此时
x

x_landmark
均为7×7×
512
,将其
reshape

49
×
512
,分别添加对应的
cls token
,同时
x
还需要添加
position embedding
位置编码处理以及
dropout
处理;
S8、

x

x_landmark
在数量维度上进行拼接,得到
100
×
512
,记为
x_l
,将
x_l
首先通过特征金字塔处理,分别得到
x_m

x_s
,通道维度大小依次为
256

128
,将其一同输入双流
vit
模型中进行处理;
S9、
模型的最后依次添加
dropout
处理以及
LayerNorm
处理,切片取出
x

cls token

512
通道维度,然后通过
SE Block
注意力模块机制进行处理,最后添加一层
fc
层即可

[0007]更进一步的,所述
S1
中,模型的输出由两部分组成,一部分是由
RAF

DB
通过模型得到的输出,这部分采用交叉熵损失函数来处理,另一部分由
RAF
‑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种识别准确度高的人脸表情识别方法,其特征在于,包括以下步骤:
S1、
模型采用人脸表情识别公开数据集
RAF

DB
以及辅助数据集
RAF

AU
,并按
3∶1
的比例提取数据,然后进行拼接作为每轮的总数据集;
S2、
根据
IR50
模型的第四阶段输出,即7×7×
512
的特征图以及
mobilefacenet
的特征输出7×7×
512
作为双流
vit
模型的输入,将
IR50
的输出记为
x

mobilefacenet
的输出记为
x_landmark

S3、x
首先进入增强局部关系感知模块,根据
x
构建两个分支,每个分支都通过
LANet
将维度
512
降至1,得到两个7×7×1的特征图,记为
M1

M2
,然后将
M1

M2
分别经过
dropout
,再进行
max
处理,最后与
x
进行相乘融合,得到新的7×7×
512
特征图,为
xout

S4、xout
再进入
invariance
模块,即依次通过2个1×1卷积,每个卷积的通道维度不发生改变,且每经过1个卷积,得到的输出都与卷积的输入进行残差相加处理,最终输出结果依旧为7×7×
512
,记为
x_invariance

S5、x_invariance
再经过
dropout
处理,然后与
x
进行残差相加处理,
x
即进入增强局部关系感知模块的输入;
S6、
另一输入流
x_landmark
经过
dropout
处理即可;
S7、
此时
x

x_landmark
均为7×7×
512
,将其
reshape

49
×
512
,分别添加对应的
cls token
,同时
x
还需要添加
position embedding
位...

【专利技术属性】
技术研发人员:闵海刁振宁陈涵谢军郑天琦
申请(专利权)人:合肥工业大学智能制造技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1