System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 音频和视频生成方法、电子设备和计算机可读存储介质技术_技高网

音频和视频生成方法、电子设备和计算机可读存储介质技术

技术编号:44062356 阅读:16 留言:0更新日期:2025-01-17 16:02
本申请提供一种音频和视频生成方法、电子设备和计算机可读存储介质,该方法包括:获取目标文本,其中,目标文本包括目标文本特征;将目标文本输入预先训练完成的音视频生成扩散模型,获得音视频生成扩散模型输出的目标视频特征以及目标音频特征;对目标视频特征以及目标音频特征分别进行解码,获得目标文本对应的目标视频以及目标音频,由于音视频生成扩散模型在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,音视频生成扩散模型在生成目标视频特征的时空扩散变换过程中将音频特征作为扩散考虑条件,因此,生成的目标音频特征与视频特征实现关联,使得本方案生成的目标视频和音频同步性高,进而使得音画同步性和质量更高。

【技术实现步骤摘要】

本申请涉及音视频转换,具体而言,涉及一种音频和视频生成方法、电子设备和计算机可读存储介质


技术介绍

1、目前音频生成和视频生成大都是给定文本生成对应的音频或者视频,目前有2种常用框架,一是通过扩散模型框架来分别生成音频和视频;二是通过自回归结构来分别生成音频和视频。

2、在扩散模型架构中没有同时可以生成音频和视频的结构,都是输入文本来分别生成音频和视频,使得音频和视频存在独立无关,从而导致生成的音频和视频没有直接的关联,进而造成生成的音频和视频存在音画不同步、质量低的问题。


技术实现思路

1、本申请实施例的目的在于提供一种音频和视频生成方法、电子设备和计算机可读存储介质,用以解决目前扩散模型框架生成音频和视频无直接关联造成的音频和视频存在音画不同步、质量低的问题。

2、第一方面,本专利技术提供一种音频和视频生成方法,该方法包括:获取目标文本,其中,目标文本包括目标文本特征;将目标文本输入预先训练完成的音视频生成扩散模型,获得音视频生成扩散模型输出的目标视频特征以及目标音频特征,其中,目标视频特征通过音视频生成扩散模型根据初始视频特征、初始音频特征以及目标文本特征进行时空扩散变换生成,目标音频特征通过音视频生成扩散模型根据初始音频特征、初始视频特征以及目标文本特征进行扩散变换生成,初始视频特征通过音视频生成扩散模型根据第一高斯噪声和目标文本特征进行时空扩散变换生成,初始音频特征通过音视频生成扩散模型根据第二高斯噪声和目标文本特征进行扩散变换生成;对目标视频特征以及目标音频特征分别进行解码,获得目标文本对应的目标视频以及目标音频。

3、上述设计的音频和视频生成方法,本方案首先获取具有文本特征的目标文本,然后将目标文本输入预先训练完成的音视频生成扩散模型中,通过音视频生成扩散模型生成输出目标文本对应的目标视频特征以及目标音频特征,进而对目标视频特征以及目标音频特征分别进行解码,获得目标文本对应的目标视频和目标音频。由于该音视频生成扩散模型在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,因此,生成的目标音频特征与视频特征实现关联,同理,音视频生成扩散模型在生成目标视频特征的时空扩散变换过程中将音频特征作为扩散考虑条件,因此,生成的目标视频特征与音频特征实现关联,进而实现生成的目标视频特征与目标音频特征之间具备关联性,使得本方案生成的目标视频和音频同步性高,进而使得音画同步性和质量更高。

4、在第一方面的可选实施方式中,音视频生成扩散模型的训练过程,包括:获取训练集,其中,训练集包括多个样本,每个样本包括文本样本特征以及文本样本特征对应的视频样本特征以及音频样本特征;对每个样本的视频样本特征进行时空切分并加入第一高斯噪声,获得每个样本的视频噪声的隐空间特征;对每个样本的音频样本特征进行时空切分并加入第二高斯噪声,获得每个样本的音频噪声的隐空间特征;根据多个样本的文本样本特征、视频噪声的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音视频生成扩散模型。

5、在第一方面的可选实施方式中,根据多个样本的文本样本特征、视频噪声的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音视频生成扩散模型,包括:获取目标扩散步数;根据文本样本特征以及视频噪声的隐空间特征进行时空扩散变换实现噪声去除,得到初始视频噪声去除特征,并根据文本样本特征以及音频噪声的隐空间特征进行扩散变换噪声去除,得到初始音频噪声去除特征;判断扩散步数是否达到预设扩散步数;若扩散步数达到预设扩散步数,则根据初始视频噪声去除特征、初始音频噪声去除特征以及文本样本特征进行时空扩散变换实现噪声去除,获得初始视频交互特征,并根据初始视频噪声去除特征、初始音频噪声去除特征以及文本样本特征进行扩散变换实现噪声去除,获得初始音频交互特征;判断扩散步数是否达到目标扩散步数;若扩散步数达到目标扩散步数,则根据初始视频交互特征、视频样本特征、初始音频交互特征与音频样本特征计算预设扩散模型的损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩散模型的损失值达到目标损失值,则获得音视频生成扩散模型。

6、在第一方面的可选实施方式中,在判断扩散步数是否达到预设扩散步数之后,该方法还包括:若判定扩散步数没有达到预设扩散步数,则根据初始视频噪声去除特征以及文本样本特征进行时空扩散变换实现噪声去除,获得第二视频噪声去除特征,并根据初始音频噪声去除特征以及文本样本特征进行扩散变换实现噪声去除,获得第二音频噪声去除特征;判断扩散步数是否达到预设扩散步数;若扩散步数达到预设扩散步数,则根据第二视频噪声去除特征、第二音频噪声去除特征以及文本样本特征进行时空扩散变换实现噪声去除,获得初始视频交互特征,并根据第二视频噪声去除特征、第二音频噪声去除特征以及文本样本特征进行扩散变换实现噪声去除,获得初始音频交互特征;判断扩散步数是否达到目标扩散步数;若扩散步数达到目标扩散步数,则根据初始视频交互特征、视频样本特征、初始音频交互特征与音频样本特征计算预设扩散模型的损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩散模型的损失值达到目标损失值,则获得音视频生成扩散模型。

7、在第一方面的可选实施方式中,在判断扩散步数是否达到目标扩散步数之后,该方法还包括:若判定扩散步数未达到目标扩散步数,则根据初始视频交互特征、初始音频交互特征以及文本样本特征进行时空扩散变换实现噪声去除,获得第二视频交互特征,并根据初始视频交互特征、初始音频交互特征以及文本样本特征进行扩散变换实现噪声去除,获得第二音频交互特征;判断扩散步数是否达到目标扩散步数;若扩散步数达到目标扩散步数,则根据第二视频交互特征、视频样本特征、第二音频交互特征与音频样本特征计算预设扩散模型的损失值;判断预设扩散模型的损失值是否达到目标损失值;若预设扩散模型的损失值达到目标损失值,则获得音视频生成扩散模型。

8、在第一方面的可选实施方式中,在判断预设扩散模型的损失值是否达到目标损失值之后,该方法还包括:若判定预设扩散模型的损失值未达到目标损失值,则对预设扩散模型的时空扩散变换参数以及扩散变换参数进行更新;根据更新的时空扩散变换参数、更新的扩散变换参数以及多个样本中的下一样本对预设扩散模型进行训练,直至计算得到的损失值达到目标损失值,获得音视频生成扩散模型。

9、上述多种实施方式,本方案在训练预设扩散模型的过程中,通过在达到预设扩散步数的情况下,在生成目标音频特征的扩散变换过程中将视频特征作为扩散考虑条件,并在生成目标视频特征的时空扩散变换过程中将音频特征作为扩散考虑条件,从而使得视频特征与音频特征进行关联,进而使得训练得到的预设扩散模型对于输入的文本而输出的视频特征与音频特征也相应进行关联,使得本方案训练得到的音视频生成扩散模型识别输出的目标视频特征和目标音频特征具备关联性,使得本方案生成的目标视频和音频同步性高,进而使得音画同步性和质量更高。

10、在第一方面的可选实施方式中,获取文本样本本文档来自技高网...

【技术保护点】

1.一种音频和视频生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述音视频生成扩散模型的训练过程,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据多个样本的文本样本特征、视频噪声的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音视频生成扩散模型,包括:

4.根据权利要求3所述的方法,其特征在于,在所述判断扩散步数是否达到预设扩散步数之后,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,在所述判断扩散步数是否达到目标扩散步数之后,所述方法还包括:

6.根据权利要求3所述的方法,其特征在于,在所述判断预设扩散模型的损失值是否达到目标损失值之后,所述方法还包括:

7.根据权利要求2所述的方法,其特征在于,其中,获取文本样本特征,包括:

8.根据权利要求2所述的方法,其特征在于,其中,获取文本样本特征对应的视频样本特征以及音频样本特征,包括:

9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。

...

【技术特征摘要】

1.一种音频和视频生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述音视频生成扩散模型的训练过程,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据多个样本的文本样本特征、视频噪声的隐空间特征以及音频噪声的隐空间特征对预设扩散模型进行训练,获得音视频生成扩散模型,包括:

4.根据权利要求3所述的方法,其特征在于,在所述判断扩散步数是否达到预设扩散步数之后,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,在所述判断扩散步数是否达到目标扩散步数之后,所述方法还包括:

6.根据权利要求3所...

【专利技术属性】
技术研发人员:肖杰
申请(专利权)人:成都开心音符科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1