System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练及多语种二维数字人生成方法、装置及设备制造方法及图纸_技高网

模型训练及多语种二维数字人生成方法、装置及设备制造方法及图纸

技术编号:41648705 阅读:10 留言:0更新日期:2024-06-13 02:39
本申请公开了一种模型训练及多语种二维数字人生成方法、装置及设备。通过获取不同语种的样本说话视频以及对应的标签数据,可以训练一个通用的多语种二维数字人生成模型,从而支持不同发音人的多语种二维数字人生成。基于目标人脸表情网络层,目标人脸运动网络层以及目标人脸渲染网络层所确定的目标多语种二维数字人生成模型,具有通用性,可以满足不同语种以及不同发音人的二维数字人生成需求,后续无需在针对个别用户上传的说话视频进行个性化训练,避免由于用户上传的说话视频的拍摄质量影响二维数字人生成结构,提供了更广泛的应用场景和更好的用户体验。

【技术实现步骤摘要】

本申请涉及图像处理及人工智能,尤其涉及一种模型训练及多语种二维数字人生成方法、装置及设备


技术介绍

1、在当今数字化时代,从虚拟助手到游戏角色再到个性化广告,人们对于创造自己独特的二维数字形象越来越感兴趣,二维数字人定制已成为许多领域的焦点。

2、在目前的二维数字人生成方法中,需要采集用户的训练样本视频数据,该训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据,然后对该音频数据进行特征提取,获取音频样本特征,并将所述视频数据转换为原始图片,提取人脸关键点数据和遮住嘴部区域的人脸图片。通过音频样本特征训练预设的第一神经网络模型,获取训练后的音频特征,并通过人脸关键点数据、以及遮住嘴部区域的人脸图片和训练后的音频特征,训练预设的第二神经网络模型,生成与该音频特征对应的预测人脸图片。然后将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片,通过融合技术将所述预测人脸图片与所述原模板图片融合,将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。

3、对于上述的二维数字人生成方法,该方法仍然存在以下问题:

4、1、训练样本视频数据的拍摄要求较高,不仅需要音画同步且音频清晰,还需要训练样本视频数据的时长达到3至5分钟。而实际场景中采集到的样本视频数据经常无法满足所有的拍摄要求,导致基于该样本视频数据,对预设的第一神经网络模型和预设的第二神经网络模型进行训练的过程耗时费算力,且训练结果受到训练样本视频数据的拍摄质量影响,使得后续基于该二维数字人生成方法获取到的画面质量差。

<p>5、2、由于训练样本视频数据所拍摄到的语种有限,存在多语种数据的缺失,导致在多语种音频输入的场景下,唇音同步性变差,影响了数字人形象的真实感和可信度。

6、基于此,亟需一种可以不受训练样本视频数据的拍摄质量的影响,且可以适应多语种语音输入场景的二维数字人生成方法。


技术实现思路

1、本申请提供了一种模型训练及多语种二维数字人生成方法、装置及设备,用于解决现有二维数字人生成方法依赖于用户上传的模板视频对模型进行训练,且受该模板视频的拍摄质量的影响导致训练得到的模型不仅耗费资源且生成效果不稳定,并且还不支持多语种的问题。

2、第一方面,本申请提供了一种多语种二维数字人生成模型的训练方法,所述方法包括:

3、获取不同语种的包含有发音人的样本说话视频以及所述样本说话视频对应的标签数据;其中,所述标签数据包括所述样本说话视频包含的各视频帧分别对应的标准人脸表情特征、所述各视频帧分别对应的标准人脸运动特征以及所述各视频帧分别对应的标准二维数字人脸;

4、获取所述各视频帧分别对应的语音特征;

5、基于所述各视频帧分别对应的语音特征以及所述各视频帧分别对应的标准人脸表情特征,对原始多语种二维数字人生成模型的人脸表情网络层进行训练,得到训练完成的目标人脸表情网络层;

6、基于所述各视频帧分别对应的标准人脸表情特征以及所述各视频帧分别对应的标准人脸运动特征,对所述原始多语种二维数字人生成模型的人脸运动网络层进行训练,得到训练完成的目标人脸运动网络层;

7、基于所述各视频帧、所述各视频帧分别对应的标准人脸运动特征以及所述各视频帧分别对应的标准二维数字人脸,对所述原始多语种二维数字人生成模型的人脸渲染网络层进行训练,得到训练完成的目标人脸渲染网络层;

8、基于所述目标人脸表情网络层,所述目标人脸运动网络层以及所述目标人脸渲染网络层,确定目标多语种二维数字人生成模型,以通过所述目标多语种二维数字人生成模型支持不同发音人的多语种二维数字人生成。

9、第二方面,本申请还提供了一种基于上述所述目标多语种二维数字人生成模型的多语种二维数字人生成方法,所述方法包括:

10、获取目标发音人的说话视频;其中,所述说话视频包括视频流和语音流;

11、对于所述视频流包含的各视频帧,对所述语音流中该视频帧对应的语音数据进行特征提取,获取语音特征;通过预先训练的目标多语种二维数字人生成模型中的目标人脸表情网络层,基于所述语音特征,获取目标人脸表情特征;其中,所述目标多语种二维数字人生成模型支持多语种二维数字人生成;通过所述目标多语种二维数字人生成模型中的目标人脸运动网络层,基于所述目标人脸表情特征,获取目标人脸运动特征;通过所述目标多语种二维数字人生成模型中的目标人脸渲染网络层,基于所述目标人脸运动特征以及该视频帧,获取该视频帧对应的二维数字人脸;将所述二维数字人脸合成到该视频帧中,得到合成后的视频帧;

12、按照所述各视频帧的顺序,将各所述合成后的视频帧合成为二维人像视频流,并将所述二维人像视频流与所述各视频帧分别对应的语音数据合成为音视频。

13、第三方面,本申请提供了一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述多语种二维数字人生成模型的训练方法的步骤,或,实现如上述所述多语种二维数字人生成方法的步骤。

14、第四方面,本申请提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述多语种二维数字人生成模型的训练方法的步骤,或,实现如上述所述多语种二维数字人生成方法的步骤。

15、本申请的有益效果如下:

16、1、通过获取不同语种的样本说话视频以及对应的标签数据,可以训练一个通用的多语种二维数字人生成模型,从而支持不同发音人的多语种二维数字人生成。

17、2、由于该目标人脸表情网络层是基于大规模多语种的样本说话视频数据进行训练得到的,且该目标人脸表情网络层可以基于输入的语音特征,获取人脸表情特征,从而可以实现将人脸表情特征与具体人脸形象解耦,该人脸表情特征具有一般性,后续可以通过该目标人脸表情网络层获取任意用户的人脸表情特征。

18、3、通过该目标人脸运动网络层可以实现人脸表情特征到人脸运动特征的映射,将人脸表情特征与人脸运动特征进行解耦,使得该人脸运动特征中的每个参数控制一种运动属性,后续可以通过该目标人脸运动网络层可以获取到任意用户在不同表情下的人脸运动。

19、4、通过该目标人脸渲染网络层可以实现人脸运动特征到二维数字人脸的映射,且不同的人脸运动特征可以控制渲染出具有不同表情的二维数字人脸,将人脸运动特征与具体人脸形象进行解耦,人脸上的表情运动不受具体人脸形象影响,该二维数字人的人脸运动具有一般性。并且该目标人脸渲染网络层可以结合视频帧中的真实人脸,可以实现渲染出的二维数字人脸的形象与该真实人脸一致,实现二维数字人脸的个性化定制。

20、5、由于目标人脸表情网络层,目标人脸运动网络层以及目标人脸渲染网络层是分阶段进行训练的,可以保证每个网络层的精度,进而保证了目标多语种二维数字人生成模型的准确和稳定性。

21、6、基于目标人脸表情网络层,目标人脸运动网络层以及目标人脸渲染网络层所确定本文档来自技高网...

【技术保护点】

1.一种多语种二维数字人生成模型的训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述获取所述各视频帧分别对应的语音特征,包括:

3.如权利要求2所述的方法,其特征在于,所述基于所述目标人脸表情网络层,所述目标人脸运动网络层以及所述目标人脸渲染网络层,确定目标多语种二维数字人生成模型,包括:

4.一种基于权利要求1-3任一所述目标多语种二维数字人生成模型的多语种二维数字人生成方法,其特征在于,所述方法包括:

5.如权利要求4所述的方法,其特征在于,若所述目标多语种二维数字人生成模型包括特征提取层,所述对于所述视频流包含的各视频帧,对所述语音流中该视频帧对应的语音数据进行特征提取,获取语音特征,包括:

6.如权利要求4所述的方法,其特征在于,若所述目标多语种二维数字人生成模型包括输出层,所述按照所述各视频帧的顺序,将各所述合成后的视频帧合成为二维人像视频流,并将所述二维人像视频流与所述各视频帧分别对应的语音数据合成为音视频,包括:

7.如权利要求6所述的方法,其特征在于,所述方法还包括:

8.一种多语种二维数字人生成模型的训练装置,其特征在于,所述装置包括:

9.一种基于权利要求1-3任一所述目标多语种二维数字人生成模型的多语种二维数字人生成装置,其特征在于,所述装置包括:

10.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-3任一所述多语种二维数字人生成模型的训练方法的步骤,或,实现如上述权利要求4-7任一所述多语种二维数字人生成方法的步骤。

...

【技术特征摘要】

1.一种多语种二维数字人生成模型的训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述获取所述各视频帧分别对应的语音特征,包括:

3.如权利要求2所述的方法,其特征在于,所述基于所述目标人脸表情网络层,所述目标人脸运动网络层以及所述目标人脸渲染网络层,确定目标多语种二维数字人生成模型,包括:

4.一种基于权利要求1-3任一所述目标多语种二维数字人生成模型的多语种二维数字人生成方法,其特征在于,所述方法包括:

5.如权利要求4所述的方法,其特征在于,若所述目标多语种二维数字人生成模型包括特征提取层,所述对于所述视频流包含的各视频帧,对所述语音流中该视频帧对应的语音数据进行特征提取,获取语音特征,包括:

6.如权利要求4所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:姚昆孙见青梁家恩
申请(专利权)人:厦门云知芯智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1