System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及图像处理及人工智能,尤其涉及一种模型训练及多语种二维数字人生成方法、装置及设备。
技术介绍
1、在当今数字化时代,从虚拟助手到游戏角色再到个性化广告,人们对于创造自己独特的二维数字形象越来越感兴趣,二维数字人定制已成为许多领域的焦点。
2、在目前的二维数字人生成方法中,需要采集用户的训练样本视频数据,该训练样本视频数据包括视频数据以及与所述视频数据对应的音频数据,然后对该音频数据进行特征提取,获取音频样本特征,并将所述视频数据转换为原始图片,提取人脸关键点数据和遮住嘴部区域的人脸图片。通过音频样本特征训练预设的第一神经网络模型,获取训练后的音频特征,并通过人脸关键点数据、以及遮住嘴部区域的人脸图片和训练后的音频特征,训练预设的第二神经网络模型,生成与该音频特征对应的预测人脸图片。然后将生成的所述预测人脸图片缩放到原始图片大小嵌入原模板图片,通过融合技术将所述预测人脸图片与所述原模板图片融合,将融合后的所述预测人脸图片合成与所述音频数据对应的数字人视频。
3、对于上述的二维数字人生成方法,该方法仍然存在以下问题:
4、1、训练样本视频数据的拍摄要求较高,不仅需要音画同步且音频清晰,还需要训练样本视频数据的时长达到3至5分钟。而实际场景中采集到的样本视频数据经常无法满足所有的拍摄要求,导致基于该样本视频数据,对预设的第一神经网络模型和预设的第二神经网络模型进行训练的过程耗时费算力,且训练结果受到训练样本视频数据的拍摄质量影响,使得后续基于该二维数字人生成方法获取到的画面质量差。
< ...【技术保护点】
1.一种多语种二维数字人生成模型的训练方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述获取所述各视频帧分别对应的语音特征,包括:
3.如权利要求2所述的方法,其特征在于,所述基于所述目标人脸表情网络层,所述目标人脸运动网络层以及所述目标人脸渲染网络层,确定目标多语种二维数字人生成模型,包括:
4.一种基于权利要求1-3任一所述目标多语种二维数字人生成模型的多语种二维数字人生成方法,其特征在于,所述方法包括:
5.如权利要求4所述的方法,其特征在于,若所述目标多语种二维数字人生成模型包括特征提取层,所述对于所述视频流包含的各视频帧,对所述语音流中该视频帧对应的语音数据进行特征提取,获取语音特征,包括:
6.如权利要求4所述的方法,其特征在于,若所述目标多语种二维数字人生成模型包括输出层,所述按照所述各视频帧的顺序,将各所述合成后的视频帧合成为二维人像视频流,并将所述二维人像视频流与所述各视频帧分别对应的语音数据合成为音视频,包括:
7.如权利要求6所述的方法,其特征在于,所述方法还
8.一种多语种二维数字人生成模型的训练装置,其特征在于,所述装置包括:
9.一种基于权利要求1-3任一所述目标多语种二维数字人生成模型的多语种二维数字人生成装置,其特征在于,所述装置包括:
10.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-3任一所述多语种二维数字人生成模型的训练方法的步骤,或,实现如上述权利要求4-7任一所述多语种二维数字人生成方法的步骤。
...【技术特征摘要】
1.一种多语种二维数字人生成模型的训练方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述获取所述各视频帧分别对应的语音特征,包括:
3.如权利要求2所述的方法,其特征在于,所述基于所述目标人脸表情网络层,所述目标人脸运动网络层以及所述目标人脸渲染网络层,确定目标多语种二维数字人生成模型,包括:
4.一种基于权利要求1-3任一所述目标多语种二维数字人生成模型的多语种二维数字人生成方法,其特征在于,所述方法包括:
5.如权利要求4所述的方法,其特征在于,若所述目标多语种二维数字人生成模型包括特征提取层,所述对于所述视频流包含的各视频帧,对所述语音流中该视频帧对应的语音数据进行特征提取,获取语音特征,包括:
6.如权利要求4所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:姚昆,孙见青,梁家恩,
申请(专利权)人:厦门云知芯智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。