System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及人工智能技术,涉及但不限于一种数字人视频生成方法及装置、设备、存储介质。
技术介绍
1、近年来,随着数字人生成技术的发展,数字人在众多场景下使用广泛,例如短视频创作、新闻播报、远程视频会议等。
2、目前,在进行数字人视频生成过程时,需要用户在具有专业录制设备和专业环境的场所中,录制一段含有用户清楚声音且没有杂音的语音以用于声音建模。否则所录制的语音将难以进行声音建模,导致用户声音驱动数字人形象失败。
3、因此目前的数字人视频生成方法,受限于设备造价高昂,仅限具有专业录制设备和专业环境的场所中,难以推广到短视频创作应用场景中。
技术实现思路
1、有鉴于此,本申请实施例提供的数字人视频生成方法及装置、设备、存储介质,不依赖高昂的录音设备和专业的环境,能够推广到短视频创作等应用场景。本申请实施例提供的数字人视频生成方法及装置、设备、存储介质是这样实现的:
2、第一方面,本申请实施例提供的数字人视频生成方法,包括:
3、获取目标对象的语音数据,并将所述语音数据输入预先训练的卷积神经网络中,得到所述语音数据用于声音建模的效果预测结果;
4、在所述预测结果为不能用于声音建模的情况下,基于对所述语音数据进行语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据;
5、基于所述目标模板声音数据,生成数字人的无声动画视频数据,所述无声动画视频数据表征数字人呈现与所述目标模板声音数据相关的唇
6、基于所述无声动画视频数据和所述语音数据,生成数字人的有声动画视频数据,所述有声动画视频数据表征数字人播报所述语音数据且呈现与所述目标模板声音数据相关的唇部动作和表情。
7、在一些实施例中,所述预测结果为所述语音数据用于声音建模的置信度,所述在所述预测结果为不能用于声音建模的情况下,基于对所述语音数据进行语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据,包括:
8、在所述置信度小于预设阈值的情况下,对所述语音数据进行降噪处理;
9、基于对降噪处理后的所述语音数据进行语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据。
10、在一些实施例中,所述基于对所述语音数据进行语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据,包括:
11、将所述语音数据转换为文本数据,并利用预设声音模板将所述文本数据转换为模板声音数据;
12、调整所述模板声音数据的语音特性,得到多个具有不同语音特性的模板声音数据;
13、从所述多个具有不同语音特性的模板声音数据中选取与所述语音数据的语音特性最接近的模板声音数据,作为所述目标模板声音数据。
14、在一些实施例中,所述语音特性至少包括语速和语调,所述调整所述模板声音数据的语音特性,得到多个具有不同语音特性的模板声音数据,包括:
15、调整所述模板声音数据的语速和语调,得到多个具有不同语速和语调的模板声音数据。
16、在一些实施例中,所述从所述多个具有不同语音特性的模板声音数据中选取与所述语音数据的语音特性最接近的模板声音数据,作为所述目标模板声音数据,包括:
17、确定所述语音数据的语速类型和语调类型;
18、将与所述语音数据具有相同语速类型和语调类型的模板声音数据,确定为所述目标模板声音数据。
19、在一些实施例中,所述基于所述目标模板声音数据,生成数字人的无声动画视频数据,包括:
20、基于所述目标模板声音数据,生成数字人的唇部动作数据和表情数据;
21、基于数字人的唇部动作数据和表情数据,生成所述数字人的无声动画视频数据。
22、在一些实施例中,所述基于所述无声动画视频数据和所述语音数据,生成数字人的有声动画视频数据,包括:
23、将降噪后的所述语音数据与所述无声动画视频数据进行融合,生成所述数字人的有声动画视频数据。
24、在一些实施例中,所述卷积神经网络的训练过程包括:
25、构建初始卷积神经网络,所述初始卷积神经网络为二维神经网络或三维神经网络;
26、获取样本语音数据,并获取各样本语音数据对应的建模置信度标签;
27、将各样本语音数据,以及各样本语音数据对应的建模置信度标签输入所述初始卷积神经网络,训练得到所述卷积神经网络。
28、在一些实施例中,所述方法还包括:
29、在所述预测结果为能用于声音建模的情况下,基于所述语音数据,生成所述数字人的有声动画视频数据。
30、在一些实施例中,所述语速包括:慢速、中速和快速,所述语调包括升调、降调、平调和曲调。
31、第二方面,本申请实施例提供一种数字人视频生成装置,包括:
32、预测模块,用于获取目标对象的语音数据,并将所述语音数据输入预先训练的卷积神经网络中,得到所述语音数据用于声音建模的效果预测结果;
33、处理模块,用于在所述预测结果为不能用于声音建模的情况下,基于对所述语音数据进行语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据;
34、第一生成模块,用于基于所述目标模板声音数据,生成数字人的无声动画视频数据,所述无声动画视频数据表征数字人呈现与所述目标模板声音数据相关的唇部动作和表情;
35、第二生成模块,用于基于所述无声动画视频数据和所述语音数据,生成数字人的有声动画视频数据,所述有声动画视频数据表征数字人播报所述语音数据且呈现与所述目标模板声音数据相关的唇部动作和表情。
36、第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例所述的方法。
37、第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的所述的方法。
38、本申请实施例所提供的数字人视频生成方法、装置、计算机设备和计算机可读存储介质,在获取目标对象的语音数据后,先通过预先训练的卷积神经网络预测目标对象的语音数据是否能用于声音建模,在语音数据不能用于声音建模的情况下,基于对语音数据的语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据,从而生成数字人的无声动画视频数据。由于目标模板声音数据的语音特性与语音数据的语音特性最接近,因此数字人所呈现的唇部动作和表情也能够与目标对象的语音数据良好契合。进而,本申请实施例基于所述无声动画视频数据和所述语音数据,生成数字人的有声动画视频数据,使数字人既能够呈现目标对象的真实语音,又能够呈现与其语音数据具有良好协调性的唇部动作和表情。由于本本文档来自技高网...
【技术保护点】
1.一种数字人视频生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的数字人视频生成方法,其特征在于,所述预测结果为所述语音数据用于声音建模的置信度,所述在所述预测结果为不能用于声音建模的情况下,基于对所述语音数据进行语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据,包括:
3.根据权利要求1或2所述的数字人视频生成方法,其特征在于,所述基于对所述语音数据进行语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据,包括:
4.根据权利要求3所述的数字人视频生成方法,其特征在于,所述语音特性至少包括语速和语调,所述调整所述模板声音数据的语音特性,得到多个具有不同语音特性的模板声音数据,包括:
5.根据权利要求4所述的数字人视频生成方法,其特征在于,所述从所述多个具有不同语音特性的模板声音数据中选取与所述语音数据的语音特性最接近的模板声音数据,作为所述目标模板声音数据,包括:
6.根据权利要求1或2所述的数字人视频生成方法,其特征在于,所述基于所述目标模板声音数
7.根据权利要求1或2所述的数字人视频生成方法,其特征在于,所述基于所述无声动画视频数据和所述语音数据,生成数字人的有声动画视频数据,包括:
8.根据权利要求1或2所述的数字人视频生成方法,其特征在于,所述卷积神经网络的训练过程包括:
9.根据权利要求1或2所述的数字人视频生成方法,其特征在于,所述方法还包括:
10.根据权利要求4所述的数字人视频生成方法,其特征在于,所述语速包括:慢速、中速和快速,所述语调包括升调、降调、平调和曲调。
11.一种数字人视频生成装置,其特征在于,包括:
12.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至10任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至10任一项所述的方法。
...【技术特征摘要】
1.一种数字人视频生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的数字人视频生成方法,其特征在于,所述预测结果为所述语音数据用于声音建模的置信度,所述在所述预测结果为不能用于声音建模的情况下,基于对所述语音数据进行语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据,包括:
3.根据权利要求1或2所述的数字人视频生成方法,其特征在于,所述基于对所述语音数据进行语音-文字-语音转换处理,得到与所述语音数据的语音特性最接近的目标模板声音数据,包括:
4.根据权利要求3所述的数字人视频生成方法,其特征在于,所述语音特性至少包括语速和语调,所述调整所述模板声音数据的语音特性,得到多个具有不同语音特性的模板声音数据,包括:
5.根据权利要求4所述的数字人视频生成方法,其特征在于,所述从所述多个具有不同语音特性的模板声音数据中选取与所述语音数据的语音特性最接近的模板声音数据,作为所述目标模板声音数据,包括:
6.根据权利要求1或2所述的数字人视频生成方法,...
【专利技术属性】
技术研发人员:邱述洪,梁文昭,高唯唯,林栋,廖红虹,刘汉亮,童荪,
申请(专利权)人:联通广东产业互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。