一种姿态驱动的基于注意力机制的人物图像合成方法技术

技术编号：43706879 阅读：29 留言：0更新日期：2024-12-18 21:18

本发明专利技术公开了一种姿态驱动的基于注意力机制的人物图像合成方法。首先通过骨架编码器将目标骨架转换为特征映射，通过外观编码器将原图像转换为特征映射；利用多尺度图像细化网络对提取的特征进行多尺度图像细化，获得最终目标人物图像；最后以端到端方式训练模型，同时学习特征融合和目标图像生成。本发明专利技术提出了一种姿态驱动的注意力机制，能够有效提取外观特征和姿态特征，通过通道注意力机制的自适应权重获取不同关注度的特征图。最终按权重相加输出，有利于在姿态变换中不丢失原始特征最大程度保留了原图像的信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，涉及人物合成方法，具体涉及一种利用注意力机制人物图像生成的方法。

技术介绍

1、基于姿态的人物图像生成技术，近年来在学术界和工业界均引起了广泛关注。它的应用非常广泛，如电子商务、电影特效、人物再识别该技术旨在将给定人物的姿态转换为目标姿态，以生成相应的图像。在虚拟现实领域，人物合成技术发挥着重要作用，它能够生成逼真的人物模型，从而增强用户与虚拟环境的交互体验。在虚拟人物重建任务中，该技术有助于恢复或重建受损的虚拟人物形象。在模拟换衣和服装纹理生成应用中，人物合成技术能够创建更加逼真的服装效果和纹理效果，为用户提供更加真实的换衣和服装设计体验。

2、尽管该技术在维持高保真的纹理和身体结构方面取得了一定进展，但姿态变化导致的局部身体部位的空间错位和遮挡问题仍然是一个挑战。此外，现有的数据集通常包含有限的纹理样式，这限制了生成人物外观的多样性。姿势引导人物图像生成任务，旨在生成任意给定姿势的人物图像。，早期的一些模型建立在普通的cnn神经网络上，cnn缺乏进行复杂的几何变换功能，不适用于空间复杂度很高的人物姿态变换任务，在生成式对抗网络和变分自编码器等模型不断发展下，姿态引导的人物合成技术取得了很大的进步，方法致力于引入格外的先验，例如人物解析语义图像和人物姿态关键点，或者利用注意力机制提高网络的空间转换能力。人物合成技术面临的挑战主要集中在两个关键领域：一是如何生成具有多样性和高质量特征的人物图像，二是如何实现对生成人物姿势和外观的完全控制。为解决第一个问题，研究者可以探索采用更先进的神经网

3、人物合成技术在多个领域具有广泛的应用前景，但其面临的挑战也不容忽视。未来研究需要进一步探索如何解决姿态变化带来的空间错位和遮挡问题，以及如何扩大数据集中纹理样式的多样性，以提升生成人物图像的质量。

4、现有的姿势引导人体图像生成方法中存在的问题，具体包括：

5、首先是人体结构从源到目标转换的不确定性。现有的引入先验的方法不能精确地指导人类图像的生成，并且缺乏大规模应用程序的可扩展性。但如果没有额外的先验，引入的人体姿势在空间上与目标图像不对应，导致某些身体部位的纹理错位。

6、第二个就是人物外观合成质量不足的问题，传统的合成方法过于关注模型中在姿态迁移人物中的泛化能力，往往缺乏对源图像中纹理细节的关注，导致合成图像学习在姿态迁移方面表现优秀但是人物外观缺乏细粒度纹理。

技术实现思路

1、为解决人物图像合成中的纹理错位和人物外观质量不足，的问题。本专利技术提出了一种姿态驱动的基于注意力机制的人物图像合成方法。在实现复杂姿态变化的过程中能够有效的保留人物外观的原始特征。

2、本专利技术致力于解决人物图像合成领域中的合成人物图像姿态与原始图像纹理不对齐以及合成纹理细节不足的问题，我们引入了一种广义的线性注意力机制合成方法。以人物图像和人物骨骼关键点作为输入，利用特征提取滤波器和归一化矩阵提取图像特征和人物姿态空间分布。通过多通道矩阵乘法将人物各个部分的外观特征分布到人物姿态上。利用注意力机制，可以获得更加具体逼真的人物外观纹理，同时避免了由于姿态变化过大导致的外观与姿态不对齐的问题。

3、本专利技术在实际训练中能够有效减少训练消耗，加速模型训练过程。同时能够有效的控制合成人物的外观和姿态，相对于传统方法中引入单一先验或者没有先验内容的方法，本专利技术在训练时引入了人物图像对应的骨骼关键点作为先验，使用外观编码器和骨架编码器学习学习人物外观和人物姿态，通过矩阵乘法将引入的特征进行融合输出。此外，本专利技术提出了一种渐进式采样的方法，能够在各个尺度下进行图像生成，通过逐级生成的方式，获得最终图像。在推理阶段，我们的模型够能生成不同姿态下的人物特征。

4、一种姿态驱动的基于注意力机制的人物图像合成方法，包括步骤如下：

5、步骤1：通过骨架编码器将目标骨架转换为特征映射。

6、步骤2：通过外观编码器将原图像转换为特征映射。

7、步骤3：在获取到骨架编码器和外观编码器提取的特征后，利用多尺度图像细化网络对提取的特征进行多尺度图像细化。

8、多尺度图像细化网络以骨架编码器和外观编码器生成的特征映射作为输入。对于不同的尺度的特征映射分别使用姿势驱动注意力来生成目标特征。最后，通过上采样和“torgb”每个尺度的特征输出来逐级生成不同分辨率下的人物图像，获得最终目标人物图像。

9、步骤4：以端到端方式训练模型，同时学习特征融合和目标图像生成。利用了注意力重建损失、感知损失、风格损失和对抗性损失来训练模型：

10、总体损失如下：

11、lall＝λattenlatten+λstylelstyle+λperclperc+λadvladv

12、其中λatten，λstyle，λperc，λadv分别为代表注意力重建损失latten、感知损失lperc、风格损失lstyle和对抗性损失ladv的权重。

13、进一步的，步骤1具体方法如下：

14、首先利用人物姿态估计方法对原始人物图像进行处理获得目标骨骼关键点，并将目标骨骼关键点构建为18通道的特征热图。这些特征热图表示人体关节之间的连接关系。将18通道的特征热图输入骨架编码器，采用带偏差的下采样卷积神经网络将特征热图编码到高维空间以指导图像生成。骨架编码器的最终输出分辨率为16×16。

15、进一步的，步骤2具体方法如下：

16、外观编码器同样采用带偏差的下采样卷积神经网络。通过将原始人物图像编码到高维空间指导最终图像的生成。外观编码器将输出分辨率分为5级，按顺序以16×16,32×32，64×64,128×128，256×256这样5个分辨率层级输出。

17、进一步的，步骤3具体方法如下：

18、多尺度图像细化网络以骨架编码器和外观编码器生成的特征映射作为输入。对于不同的尺度的特征映射分别使用姿势驱动注意力来生成目标特征。在获得当前尺度下的目标特征后，将其作为输入与外观编码输出的特征一同注入到下一层的姿态驱动注意力中。总的来说，对于每一层，网络将前一层输出的目标特征作为参考特征来预测目标人物图像的空间分布，对于第一层级的特征生成，直接采用外观编码器和骨架编码器的输出进行目标特征生成。对于其他层级的目标特征，采用外观编码器的输出和上一层级的姿态驱本文档来自技高网...

【技术保护点】

1.一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，包括步骤如下：

2.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，步骤1具体方法如下：

3.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，步骤2具体方法如下：

4.根据权利要求1-3任意一项所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，步骤3具体方法如下：

5.根据权利要求4所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，姿势驱动注意力具体实现如下：

6.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，注意力重建损失具体如下：

7.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，感知损失具体如下：

8.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，风格损失具体如下：

9.根据权利要求1所述的一种姿态驱动的基于注意力机制的人

10.根据权利要求2或3所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，所述的带偏差的下采样卷积神经网络包含5个3×3的卷积，其中4个卷积层以2作为因子进行下采样；卷积层之间通过一个Blur层连接。

...

【技术特征摘要】

1.一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，包括步骤如下：

2.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，步骤1具体方法如下：

3.根据权利要求1所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，步骤2具体方法如下：

4.根据权利要求1-3任意一项所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，步骤3具体方法如下：

5.根据权利要求4所述的一种姿态驱动的基于注意力机制的人物图像合成方法，其特征在于，姿势驱动注意力具体实现如下：

6.根据权利要求1所述的一种姿态驱动的基于注意力机制...

【专利技术属性】
技术研发人员：王华涛，颜成钢，刘一秀，张继勇，殷俊，王鸿奎，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人