一种基于语音生成人脸图像的方法及装置制造方法及图纸

技术编号：45018353 阅读：1 留言：0更新日期：2025-04-18 17:01

本申请涉及人脸生成技术领域，具体涉及一种基于语音生成人脸图像的方法及装置。其中，所述方法包括：通过音频特征提取器提取目标语音的浅层音频特征；浅层音频特征包括目标语音的能量分布；音频特征提取器中引入了用于突出语音能量的特征的多维注意力机制；基于浅层音频特征，通过风格化生成对抗网络得到对应的目标人脸图像；风格化生成对抗网络包括生成器、鉴别器和用于提高目标人脸图像身份准确率的分类器，生成器包括用于提取深层音频特征的音频特征映射模块；所述方法通过神经网络主动提取语音的深层特征，有效避免了生成人脸图像与语音不匹配的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人脸图像生成，具体涉及一种基于语音生成人脸图像的方法及装置。

技术介绍

1、人类说话时，声音由声带振动发出，经过胸腔和口腔扩音，同时颧骨、下巴、鼻子和嘴唇也会振动，影响最终人发出的声音，因此从一个人的声音能够得出这个人的面部信息。但由于声音和面部信息间的关系不直观，且缺少有效的解析工具，所以在人脸图像生成领域难以运用这种关系。

2、通过数字信号处理方法，可以从语音中提取出各种有用的特征参数，如基频、共振峰、能量和梅尔频率倒谱系数，这些特征能够反映说话人的生理特性和情感状态。而通过运用神经网络模型，人脸生成技术可以根据少量或特定数据生成逼真的人脸图形。因此，通过神经网络模型建立人声和人脸图像的映射关系成为可能。

3、目前，基于语音预测人脸图像的神经网络模型，无法主动提取语音的深层特征，导致存在生成的人脸图像与语音不匹配的问题。

技术实现思路

1、为了解决上述现有技术存在的问题，本申请目的在于提供一种基于语音生成人脸图像的方法及装置。

2、第一方面，本申请提供的一种基于语音生成人脸图像的方法，包括：

3、通过音频特征提取器提取目标语音的浅层音频特征；浅层音频特征包括目标语音的能量分布；音频特征提取器中引入了用于突出语音能量的特征的多维注意力机制；

4、基于浅层音频特征，通过风格化生成对抗网络进行深层音频特征提取得到对应的目标人脸图像；风格化生成对抗网络包括生成器、鉴别器和用于提高目标人脸图像身份准确率的分类器；生成器

5、在其中一个实施例中，音频特征提取器包括滤波器、残差块和增强门循环块；残差块包括卷积层、多维注意力层和滤波器特征缩放层；通过音频特征提取器提取目标语音的浅层音频特征的步骤包括：

6、将目标语音输入滤波器，得到滤波后的语音数据；语音数据的数据大小与残差块的输入数据大小相同；

7、将语音数据输入卷积层，得到初始特征输入多维注意力层；

8、在多维注意力层中，计算初始特征中各元素与相邻元素的能量相关性作为元素权重；将元素权重应用于初始特征，得到能量特征；

9、通过滤波器特征缩放层优化能量特征中的特征权重，得到语音特征；

10、将语音特征输入增强门控循环块，得到浅层音频特征。

11、在其中一个实施例中，初始特征中各元素与相邻元素的能量相关性由如下式子计算得到：

12、

13、其中，φ()表示多维注意力机制；表示初始特征mf中的目标元素t的能量；μ表示每个通道内初始特征mf的均值；σ2表示每个通道内初始特征mf的方差；λ是超参数；表示目标元素t与初始特征mf中的其他元素的能量相关性。

14、在其中一个实施例中，风格化生成对抗网络的生成器包括音频特征映射模块以及多个依次排列的像素生成块；音频特征映射模块通过多个全连接层将浅层音频特征编码为深层音频特征；像素生成块通过风格化卷积和图像化卷积得到输出图像。

15、在其中一个实施例中，方法还包括：

16、在首个像素生成块中，通过风格化卷积核对预设的常量张量进行卷积，得到输出特征；通过图像化卷积核对输出特征进行卷积，得到输出图像；风格化卷积核的权重基于深层音频特征和随机噪声得到；

17、在除首个像素生成块的后续像素生成块中，通过对前一个像素生成块的输出特征和输出图像进行上采样操作分别得到增强输出特征和增强输出图像；通过本像素生成块的风格化卷积核对增强输出特征进行卷积得到本像素生成块的输出特征，通过本像素生成块的图像化卷积核对本像素生成块的输出特征进行卷积并与增强输出图像逐元素相乘得到本像素生成块的输出图像；增强输出特征的h维度和w维度大小为前一个像素生成块的输出特征的二倍；增强输出图像的h维度和w维度大小为前一个像素生成块的输出图像的二倍；

18、根据最后一个像素生成块的输出图像得到目标人脸图像。

19、在其中一个实施例中，方法还包括：

20、对深层音频编码进行仿射变换，并添加随机噪声向量，得到风格化卷积核的初始权重；

21、对各通道的风格化卷积核的初始权重进行欧几里得范数归一化，得到风格化卷积核的权重。

22、在其中一个实施例中，用于训练音频特征提取器和风格化生成对抗网络的训练集包括语音数据、与语音数据对应的真实人脸图像以及真实人脸图像的真实身份编码；方法还包括：

23、通过分类器提取训练集中各真实人脸图像的面部特征，并将面部特征与各真实身份编码对应；

24、通过分类器根据生成人脸图像的面部特征得到生成人脸图像的生成身份编码；生成人脸图像基于训练集中语音数据生成。

25、在其中一个实施例中，鉴别器用于判断生成人脸图像是否为真实人脸图像；鉴别器包括小批量标准差层；方法还包括：

26、通过鉴别器的卷积层对真实人脸图像和生成人脸图像进行特征提取，得到差异特征；

27、通过小批量标准差层计算差异特征的小批量标准差，得到标准差特征；

28、合并标准差特征和差异特征得到结合差异特征，并基于结合差异特征得到生成人脸图像为真实人脸图像的鉴别结果。

29、在其中一个实施例中，在风格化生成对抗网络的训练过程中，采用的损失函数为联合损失函数；联合损失函数包括生成器的损失函数和鉴别器的损失函数；

30、生成器的损失函数lg(all)的式子如下：

31、lg(all)＝lg(max)+lp2(g)

32、其中，lg(max)表示生成器的对抗交叉熵损失；lp2(g)表示生成器的路径长度惩罚；路径长度惩罚用于提高深层音频特征的信息量；

33、鉴别器的损失函数ld(all)的式子如下：

34、ld(all)＝ld(min)+lp1(d)

35、其中，ld(min)表示鉴别器的总交叉熵损失；lp1(d)表示鉴别器的梯度惩罚损失；梯度惩罚用于缓解风格化生成对抗网络的模式崩溃并增强风格化生成对抗网络的训练稳定性。

36、第二方面，本申请提供的一种基于语音生成人脸图像的装置，包括：

37、音频特征提取模块，用于通过音频特征提取器提取目标语音的浅层音频特征；浅层音频特征包括目标语音的能量分布；音频特征提取器中引入了用于突出语音能量的特征的多维注意力机制；

38、人脸图像生成模块，用于基于浅层音频特征，通过风格化生成对抗网络进行深层音频特征提取得到对应的目标人脸图像；风格化生成对抗网络包括生成器、鉴别器和用于提高目标人脸图像身份准确率的分类器；生成器包括用于提取深层音频特征的音频特征映射模块。

39、本申请提供的一种基于语音生成人脸图像的方法，通过引入了多维注意力机制的音频特征提取器提取目标语音中的浅层音频特征，其中多维注意力机制能够突出目标语音中的能量特征，帮助风格化生成网络生成更准确本文档来自技高网...

【技术保护点】

1.一种基于语音生成人脸图像的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述音频特征提取器包括滤波器、残差块和增强门循环块；所述残差块包括卷积层、多维注意力层和滤波器特征缩放层；所述通过音频特征提取器提取所述目标语音的浅层音频特征的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述初始特征中各元素与相邻元素的能量相关性由如下式子计算得到：

4.根据权利要求1所述的方法，其特征在于，所述风格化生成对抗网络的生成器包括所述音频特征映射模块以及多个依次排列的像素生成块；所述音频特征映射模块通过多个全连接层将所述浅层音频特征编码为所述深层音频特征；所述像素生成块通过风格化卷积和图像化卷积得到输出图像。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，用于训练所述音频特征提取器和所述风格化生成对抗网络的训练集包括语音数据、与所述语音数据对应的真实人脸图像以及所述真实

8.根据权利要求7所述的方法，其特征在于，所述鉴别器用于判断所述生成人脸图像是否为真实人脸图像；所述鉴别器包括小批量标准差层；所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，在所述风格化生成对抗网络的训练过程中，采用的损失函数为联合损失函数；所述联合损失函数包括生成器的损失函数和鉴别器的损失函数；

10.一种基于语音生成人脸图像的装置，其特征在于，所述装置包括：

...

【技术特征摘要】

1.一种基于语音生成人脸图像的方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述初始特征中各元素与相邻元素的能量相关性由如下式子计算得到：

5.根据权利要求4所述的方法，其...

【专利技术属性】
技术研发人员：钟君柳，杨瀟韩，杨卓凡，麦嘉欣，
申请(专利权)人：广州航海学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人