System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于扩散式生成网络的微笑图像识别方法、装置及可读介质制造方法及图纸_技高网

基于扩散式生成网络的微笑图像识别方法、装置及可读介质制造方法及图纸

技术编号:42868059 阅读:9 留言:0更新日期:2024-09-27 17:29
本发明专利技术公开了一种基于扩散式生成网络的微笑图像识别方法、装置及可读介质,通过获取目标视频,将目标视频按帧分解,得到视频帧向量,对视频帧向量中的每个视频帧图像裁剪出人脸图像,得到人脸图像向量;将人脸图像向量中的每个人脸图像进行人脸对齐处理,得到正面人脸图像向量;将正面人脸图像向量输入条件生成模块,得到对应的条件向量;构建扩散式生成网络,将条件向量输入经训练的UNet噪声拟合与去除模块,预测得到情绪标签向量,将情绪标签向量输入类别生成模块,提取到正面人脸图像向量对应的微笑分数向量;在正面人脸图像向量提取出微笑分数向量中微笑分数最大所对应的正面人脸图像作为最佳微笑图像,该方法能够识别出视频中微笑最大的图像。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,具体涉及一种基于扩散式生成网络的微笑图像识别方法、装置及可读介质


技术介绍

1、目前,照相机能捕捉到的照片往往很难体现笑容最大时的瞬间照片。想要捕捉到最大的笑容,往往需要专门到摄影棚中完成摄制,而且需要被摄影人和摄影师的高度配合。

2、视频的摄制,可以追踪较长时间人的面部表情,增大了获取到自然状态下的笑容的可能。它非常方便,如果能从视频中生成笑容最大的那一帧图像,摄制者基本上摆脱了对专业摄影师的依赖。然而,由于当下摄影机的帧率高,想要手工挑选笑容帧十分困难。

3、目前用于评价面部表情的方法有pca、主成分分析、深度学习等。pca是较早采用的技术,其采用pca主成分分析提取图片特征,诸如眼角等结构位置特征,通过svm训练计算得到不同位置的权重以及图片表情为快乐微笑的概率,同时脑电波辅助判断为快乐的概率。通过降维手段,将高维空间的问题转化为低维空间处理,相对降低了运算成本,但对于复杂拟合存在一定问题。主成分分析主要通过提取嘴部向量以及面部向量,通过多元函数计算笑容程度,进而获取图片的微笑分数。随着深度学习的发展,目前较有代表性的有使用残差网络resnet等深度学习方法对笑容进行评价,达到了一定的准确度。目前对于微笑图像判定方法存在以下几个问题:

4、1.主成分分析的准确度可能不佳。主成分分析需要通过降维提取图片关键信息,在这一过程中,会损失图片包含的信息,导致识别精度下降。

5、2.svm的拟合非线性度较低,如果出现图像的大幅度扭转等,会导致识别失败。p>

6、3.多重技术辅助集成学习在复杂情况下会出现失效,脑电图辅助判断快乐状态是否精确缺少文献支持,可能不准确。

7、4.现有的基于深度学习的图像识别方法,例如残差网络,可能存在噪声干扰的问题,对微小噪声干扰容忍度较低。


技术实现思路

1、针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基于扩散式生成网络的微笑图像识别方法、装置及可读介质,来解决以上
技术介绍
部分提到的技术问题,实现了从视频中提取笑容最大状态下的人脸照片的功能。

2、第一方面,本专利技术提供了一种基于扩散式生成网络的微笑图像识别方法,包括以下步骤:

3、s1,获取目标视频,将目标视频按帧分解,得到视频帧向量,对视频帧向量中的每个视频帧图像裁剪出人脸图像,得到人脸图像向量;

4、s2,将人脸图像向量中的每个人脸图像进行人脸对齐处理,得到正面人脸图像向量;

5、s3,构建扩散式生成网络,扩散式生成网络包括条件生成模块、unet噪声拟合与去除模块和类别生成模块,对unet噪声拟合与去除模块进行训练,得到经训练的unet噪声拟合与去除模块,将正面人脸图像向量输入条件生成模块,得到对应的条件向量,将条件向量输入经训练的unet噪声拟合与去除模块,预测得到情绪标签向量,将情绪标签向量输入类别生成模块,提取到正面人脸图像向量对应的微笑分数向量;

6、s4,在正面人脸图像向量提取出微笑分数向量中微笑分数最大所对应的正面人脸图像作为最佳微笑图像。

7、作为优选,步骤s1中对视频帧向量内的每个视频帧图像裁剪出人脸图像,得到人脸图像向量,具体包括:

8、视频帧向量中的每个视频帧图像输入人脸区域分割模型,得到每个视频帧图像中的人脸区域;

9、将每个视频帧图像中的人脸区域的尺寸调整为相同尺寸,得到人脸图像;

10、根据视频帧向量中的每个视频帧图像对应的人脸图像构成人脸图像向量。

11、作为优选,步骤s2具体包括:

12、s21,将人脸图像向量中的每个人脸图像输入人脸关键点识别模型进行关键点提取,得到关键点向量;

13、s22,通过关键点向量计算人脸图像向量中的每个人脸图像对应的人脸倾斜角度,并根据人脸倾斜角度对人脸图像向量中的每个人脸图像进行旋转,得到正面人脸图像;

14、s23,根据人脸图像向量中的每个人脸图像对应的正面人脸图像构成正面人脸图像向量z:[pic1,pic 2,…,picn],其中picn表示第n帧视频帧图像中的人脸图像对应的正面人脸图像。

15、作为优选,步骤s21具体包括:

16、将人脸图像向量中的每个人脸图像输入人脸关键点识别模型,识别出左眼位置pl、右眼位置pr以及人中位置h,并记录左眼位置pl对应的水平分量plx和垂直分量ply,记为pl(plx,ply),右眼位置pr对应的水平分量prx和垂直分量pry,记为pr(prx,pry),以及人中位置h对应的水平分量prx和垂直分量pry,记为h(hx,hy),并得到关键点坐标g(pl,pr,h);

17、根据人脸图像向量中的每个人脸图像对应的关键点坐标构成关键点向量g:[g1,g2,…,gn],gn表示第n帧视频帧图像中的人脸图像对应的关键点坐标。

18、作为优选,步骤s22具体包括:

19、根据人脸图像向量中的每个人脸图像对应的关键点坐标计算双眼连线向量co:

20、co=(plx-prx,ply-pry);

21、计算双眼连线向量co与水平向量(1,0)所成角度,得到人脸倾斜角度;

22、根据人脸倾斜角度逐个像素反向旋转人脸图像向量中的每个人脸图像,进行人脸对齐,使对齐后的人脸中线与人脸图像纵轴平行,得到正面人脸图像。

23、作为优选,unet噪声拟合与去除模块包括unet网络和输出列表,unet网络包括依次连接的输入层、收缩路径、连接层、扩大路径和输出层,输入层用于接收条件向量、步数或添加噪声后的情绪标签向量,收缩路径包括依次三个串联的收缩层,扩大路径包括依次四个串联的扩大层,输出列表用于对unet网络计算过程中生成的特征图进行存储或提取。

24、作为优选,步骤s3中unet噪声拟合与去除模块的训练过程具体包括:

25、获取以初始正面人脸图像和初始情绪标签向量构成的训练数据,将初始情绪标签向量添加与该向量维度符合的随机噪声,并且循环添加共m步,其中第t步添加的随机噪声为εt,服从正态分布n(0,1),从xt-1到xt的噪声添加计算过程如下式所示:

26、

27、

28、其中,xt-1为第t-1步添加的随机噪声后得到的情绪标签向量,xt为第t步添加的随机噪声后得到的情绪标签向量,为该正态分布的均值,βti为该正态分布的方差,βt为超参数,i为单位矩阵;

29、循环添加噪声后生成情绪标签向量组x=[x1,x2,…,xt];

30、将初始正面人脸图像输入条件生成模块,得到对应的条件向量y;

31、将xt、t和y输入unet噪声拟合与去除模块,通过噪声拟合函数对第t步添加的噪声进行预测,得到预测值εθ(xt,t,y),其中θ为与自身内部相关的参数;

32、根据预测值εθ(xt,t,y)与实际本文档来自技高网...

【技术保护点】

1.一种基于扩散式生成网络的微笑图像识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤S1中对所述视频帧向量内的每个视频帧图像裁剪出人脸图像,得到人脸图像向量,具体包括:

3.根据权利要求1所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤S2具体包括:

4.根据权利要求3所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤S21具体包括:

5.根据权利要求4所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤S22具体包括:

6.根据权利要求1所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述UNet噪声拟合与去除模块包括UNet网络和输出列表,所述UNet网络包括依次连接的输入层、收缩路径、连接层、扩大路径和输出层,所述输入层用于接收所述条件向量、步数或添加噪声后的情绪标签向量,所述收缩路径包括依次三个串联的收缩层,所述扩大路径包括依次四个串联的扩大层,所述输出列表用于对UNet网络计算过程中生成的特征图进行存储或提取。

7.根据权利要求1所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤S3中所述UNet噪声拟合与去除模块的训练过程具体包括:

8.根据权利要求7所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤S3中将所述条件向量输入所述经训练的UNet噪声拟合与去除模块,预测得到情绪标签向量,具体包括:

9.根据权利要求1所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤S3中将所述情绪标签向量输入类别生成模块,提取到所述正面人脸图像向量对应的微笑分数向量,具体包括:

10.一种基于扩散式生成网络的微笑图像识别装置,其特征在于,包括:

11.一种电子设备,包括:

12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。

...

【技术特征摘要】

1.一种基于扩散式生成网络的微笑图像识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤s1中对所述视频帧向量内的每个视频帧图像裁剪出人脸图像,得到人脸图像向量,具体包括:

3.根据权利要求1所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤s2具体包括:

4.根据权利要求3所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤s21具体包括:

5.根据权利要求4所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述步骤s22具体包括:

6.根据权利要求1所述的基于扩散式生成网络的微笑图像识别方法,其特征在于,所述unet噪声拟合与去除模块包括unet网络和输出列表,所述unet网络包括依次连接的输入层、收缩路径、连接层、扩大路径和输出层,所述输入层用于接收所述条件向量、步数或添加噪声后的情绪标签向量,所述收缩路径包括依次三个串联的收缩...

【专利技术属性】
技术研发人员:陈可谢贤聚白玉兴
申请(专利权)人:首都医科大学附属北京口腔医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1