当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于多尺度特征整合的全局人脸重现技术制造技术

技术编号:37350184 阅读:15 留言:0更新日期:2023-04-22 21:48
随着深度学习、通讯技术以及移动终端的不断发展,人们对一自媒体、影视等需求也越来越大。因此,提出基于多尺度特征整合的全局人脸重现技术是十分必要的。本发明专利技术是针对人脸图像的一种基于多尺度特征整合的全局人脸重现技术。首先根据全局实例向量提取网络提取到表征人物姿态、表情、身份信息、背景等的全局信息向量。其次根据拟合网络拟合到的综合特征信息和源域特征,借助本发明专利技术提出的多尺度特征整合网络来实现全局的人脸重现。本发明专利技术可广泛应用于不同环境下的多媒体中人脸重现需求。不同环境下的多媒体中人脸重现需求。

【技术实现步骤摘要】
一种基于多尺度特征整合的全局人脸重现技术


[0001]本专利技术涉及一种基于多尺度特征整合的全局人脸重现技术,属于计算机视觉、深度学习、人脸操作和影视特效等领域。

技术介绍

[0002]随着深度学习的发展,图像检测、图像评估和图像生成以及其他计算机视觉领域得到了长足的发展。作为其中最为杰出的代表,多媒体的编辑和生成获得了越来越多的关注。由于人眼对于面部结构和头部动作的敏感性,使得人脸图像的编辑成为极具挑战的问题。近年来,随着生成对抗网络的提出,图像生成和编辑发生了质的变化,但仍存在一定的问题。人脸重现指的是利用源域的人物表情头部姿态等信息去驱动目标人物的动作。而目前的人脸重现技术大多基于两个方面:(1)基于图的人脸重现:这部分技术需要将人脸与背景现分割开,再对人脸进行建模;(2)基于关键点的人脸重现:这类技术利用人脸关键点来驱动表情和姿态的变化。上述的两组技术存在着技术复杂和分割后痕迹明显,极大地限制了人脸重现的应用场景。

技术实现思路

[0003]针对现有技术存在的不足,本专利技术要解决的是如何提供一种基于多尺度特征整合的全局人脸重现技术。为解决上述技术问题,本专利技术采用如下的技术方案:
[0004]一种基于多尺度特征整合的全局人脸重现技术,包括如下步骤:
[0005](1)本专利技术提出了全局实例向量提取网络,该网络主体部分将残差网络作为骨干网络来提取全局实例向量。全局实例向量是针对于不分割人脸图像提取得到的包含人脸身份信息、姿态信息、表情信息以及其他相关细节信息的向量。通过与人脸识别网络相似的损失函数来训练该全局实例向量提取网络,最终将该网络作为预训练网络来提取人脸全局实例信息。
[0006](2)自适应全局实例向量拟合网络。步骤(1)中提取到的全局实例向量中包含身份、背景、表情和姿态信息。如果将这些信息直接提供给目标人物会引起信息的不确定性。如姿态和表情的失真。为了提高整个网络的鲁棒性。本专利技术提出了自适应全局实例向量拟合网络。通过拟合网络后,综合实例向量具有源域人物的表情和姿态信息和目标人物的背景和身份信息。
[0007](3)将源域图像输入到主干网络中的编码器中,编码器是有简单的多组卷积结构组成的。每组卷积结构是有归一化层、卷积层、池化层和激活函数构成,经过四组卷积结构后,输入到中间层中,中间层是由两个残差结构组成,其目的是为了增加网络的深度。在深层次提取图像的过程中,在编码器编码的过程中的中间特征里包含了大量的深层次语义信息和浅层次的颜色、结构等信息。为了充分利用这些信息,本专利技术提出了多尺度特征整合生成器。
[0008]多尺度特征整合网络利用编码器中的特征和生成器中的特征,借助自适应蒙版转
换器(详解于步骤(4)),实现了源域人物特征与目标人物特征之间的相互结合。
[0009](4)自适应蒙版转换器。受AdaIN的启发,本专利技术针对源域人物的信息与目标人物的信息的相融合提出了自适应蒙版转换器。该结构主要分为三个分支,其中一个分支用于AdaIN特征转换,具体步骤如下:
[0010](a)为了方便计算均值和方差,将特征图进行重新规整。
[0011](b)根据AdaIN将源域人物的特征与自适应加权全局实例向量(由步骤(2)得到)进行整合。
[0012](c)重新规整特征图的尺寸,使得其适用于网络的需求。
[0013]另一个分支主要是用于生成自适应蒙版,该蒙版用于加权原始特征图和经过特征转换的特征图。第三个分支是用于输入原始特征图。
[0014]本专利技术的优点及积极效果在于:
[0015](1)本专利技术集中于解决人脸重现的效果,尤其是在人脸重现前后的整体协调性和无切割痕迹。
[0016](2)本专利技术实现了人脸姿态和表情信息的精确重现。
[0017](3)本专利技术经过大量的实验并进行验证,有效地提高了该方法的有效性。
附图说明
[0018]图1是本专利技术中具体实施方式中整体过程图;
[0019]图2是本专利技术中具体实施方式中自适应蒙版转换器的结构图;
具体实施方式
[0020]本实例以基于多尺度特征整合的全局人脸重现技术为研究对象,详细地描述本专利技术的实施方式。为了使本专利技术目的、技术方案更加清楚,下面结合附图详细说明本专利技术具体实施步骤。
[0021]参见图1,其示出了本专利技术的整体结构图。详述如下;
[0022](1)本专利技术提出了全局实例向量提取网络,该网络主体部分将残差网络作为骨干网络来提取全局实例向量。全局实例向量是针对于不分割人脸图像提取得到的包含人脸身份信息、姿态信息、表情信息以及其他相关细节信息的向量。通过与人脸识别网络相似的损失函数来训练该全局实例向量提取网络,最终将该网络作为预训练网络来提取人脸全局实例信息。
[0023](2)自适应全局实例向量拟合网络。步骤(1)中提取到的全局实例向量中包含身份、背景、表情和姿态信息。如果将这些信息直接提供给目标人物会引起信息的不确定性。如姿态和表情的失真。为了提高整个网络的鲁棒性。本专利技术提出了自适应全局实例向量拟合网络。通过拟合网络后,综合实例向量具有源域人物的表情和姿态信息和目标人物的背景和身份信息。
[0024]自适应全局实例向量拟合网络是有映射网络和加权网络构成的。身份信息、背景信息、表情信息和姿态信息在全局实例向量中是相互耦合的。为了解决上述的问题,受StyleGAN的启发,本专利技术提出的映射网络是由三个全连接网络组成,通过映射网络的全局实例向量中的身份信息、姿态信息、表情信息和背景信息相互分离开。加权网络是由两个全
连接层和一个sigmoid层组成的,其目的是为了将获得的蒙版W在0和1之间。源域的人物的全局实例向量定义为E
s
,目标人物的全局实例向量定义为E
t
,则拟合后的全局实例向量E
s,t
为:
[0025]E
s,t
=W
×
E
s
+(1

W)
×
E
t
[0026](3)将源域图像输入到主干网络中的编码器中,编码器是有简单的多组卷积结构组成的。每组卷积结构是有归一化层、卷积层、池化层和激活函数构成,经过四组卷积结构后,输入到中间层中,中间层是由两个残差结构组成,其目的是为了增加网络的深度。在深层次提取图像的过程中,在编码器编码的过程中的中间特征里包含了大量的深层次语义信息和浅层次的颜色、结构等信息。为了充分利用这些信息,本专利技术提出了多尺度特征整合生成器。
[0027]多尺度特征整合网络利用编码器中的特征和生成器中的特征,借助自适应蒙版转换器(详解于步骤(4)),实现了源域人物特征与目标人物特征之间的相互结合。多尺度特征整合生成器的作用是为了将E
s,t
与多尺度特征图F魄)相整合。由于源域人物提供的是表情和姿态信息,相比于身份和背景信息更多地需要空间上的表征。因此,本专利技术利用多尺度的方法提取全局面部图像的全局本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征整合的全局人脸重现技术,包括如下步骤:(1)本发明提出了全局实例向量提取网络,该网络主体部分将残差网络作为骨干网络来提取全局实例向量。全局实例向量是针对于不分割人脸图像提取得到的包含人脸身份信息、姿态信息、表情信息以及其他相关细节信息的向量。通过与人脸识别网络相似的损失函数来训练该全局实例向量提取网络,最终将该网络作为预训练网络来提取人脸全局实例信息。(2)自适应全局实例向量拟合网络。步骤(1)中提取到的全局实例向量中包含身份、背景、表情和姿态信息。如果将这些信息直接提供给目标人物会引起信息的不确定性。如姿态和表情的失真。为了提高整个网络的鲁棒性。本发明提出了自适应全局实例向量拟合网络。通过拟合网络后,综合实例向量具有源域人物的表情和姿态信息和目标人物的背景和身份信息。(3)将源域图像输入到主干网络中的编码器中,编码器是有简单的多组卷积结构组成的。每组卷积结构是有归一化层、卷积层、池化...

【专利技术属性】
技术研发人员:杨嘉琛李新锋兰贵鹏肖帅温家宝
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1