System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 音频和视频生成方法、电子设备和计算机可读存储介质技术_技高网

音频和视频生成方法、电子设备和计算机可读存储介质技术

技术编号:44045762 阅读:2 留言:0更新日期:2025-01-15 01:24
本申请提供一种音频和视频生成方法、电子设备和计算机可读存储介质,该方法包括:获取目标文本信息;将目标文本信息输入预先训练完成的音视频生成自回归模型,获得目标视频令牌数量以及目标音频令牌数量;对目标视频令牌数量进行解码获得目标文本信息对应的目标视频;对目标音频令牌数量进行解码获得目标文本信息对应的目标音频,由于目标视频令牌数量根据目标文本信息、第一解码函数、预测视频令牌数量以及预测音频令牌数量生成,目标音频令牌数量根据目标文本信息、第二解码函数、预测视频令牌数量以及预测音频令牌数量生成,因此,目标视频令牌数量和目标音频令牌数量实现视频信息和音频信息的关联,生成的目标视频和音频同步性高。

【技术实现步骤摘要】

本申请涉及音视频转换,具体而言,涉及一种音频和视频生成方法、电子设备和计算机可读存储介质


技术介绍

1、目前音频生成和视频生成大都是给定文本生成对应的音频或者视频,目前有2种常用框架,一是通过扩散模型框架来分别生成音频和视频;二是通过自回归结构来分别生成音频和视频。

2、目前通过自回归结构生成音频和视频的方式一般采用的是交错生成的方式,例如先生成视频,然后再生成音频,这样使得生成的视频和音频没有直接的关联,进而造成生成的音频和视频存在音画不同步、质量低的问题。


技术实现思路

1、本申请实施例的目的在于提供一种音频和视频生成方法、电子设备和计算机可读存储介质,用以解决通过自回归结构生成音频和视频的方式采用交错生成方式造成的音频和视频存在音画不同步、质量低的问题。

2、第一方面,本专利技术提供一种音频和视频生成方法,该方法包括:获取目标文本信息;将目标文本信息输入预先训练完成的音视频生成自回归模型,获得音视频生成自回归模型输出的目标视频令牌数量以及目标音频令牌数量; 对目标视频令牌数量进行解码获得目标文本信息对应的目标视频;对目标音频令牌数量进行解码获得目标文本信息对应的目标音频;其中,目标视频令牌数量通过音视频生成自回归模型根据目标文本信息、第一解码函数、预测视频令牌数量以及预测音频令牌数量生成;目标音频令牌数量通过音视频生成自回归模型根据目标文本信息、第二解码函数、预测视频令牌数量以及预测音频令牌数量生成;预测视频令牌数量通过音视频生成自回归模型根据目标文本信息以及第一解码函数生成;预测音频令牌数量通过音视频生成自回归模型根据目标文本信息以及第二解码函数生成。

3、上述设计的音频和视频生成方法,本方案首先获取目标文本信息,然后基于预先获得的音视频生成自回归模型根据目标文本信息输出对应的目标视频令牌数量以及目标音频令牌数量,进而对目标视频令牌数量进行解码获得目标文本信息对应的目标视频,对目标音频令牌数量进行解码获得目标文本信息对应的目标音频。由于本方案的音视频生成自回归模型在生成目标视频令牌数量的情况下,其是根据目标文本信息、第一解码函数、预测视频令牌数量以及预测音频令牌数量生成,因此,目标视频令牌数量的自回归预测过程参考音频信息;同理,本方案音视频生成自回归模型在生成目标音频令牌数量的情况下,其是根据目标文本信息、第二解码函数、预测视频令牌数量以及预测音频令牌数量生成,因此,目标音频令牌数量的自回归预测过程参考视频信息,从而使得目标视频令牌数量和目标音频令牌数量实现视频信息和音频信息的关联,进而实现生成的目标视频特征与目标音频特征之间具备关联性,使得本方案生成的目标视频和音频同步性高,进而使得音画同步性和质量更高。

4、在第一方面的可选实施方式中,其中,音视频生成自回归模型通过如下方式训练获得:获取训练集;其中,训练集包括多个样本,每个样本包括文本样本信息以及文本样本信息对应的视频样本信息以及音频样本信息;对每个视频样本信息进行压缩量化,获得每个视频样本信息对应的第一数量个视频样本令牌;对每个音频样本信息进行压缩量化,获得每个音频样本信息对应的第二数量个音频样本令牌;根据训练集中的多个文本样本信息、每个文本样本信息对应的第一数量个视频样本令牌以及第二数量个音频样本令牌对预设的自回归模型进行训练,获得训练完成的音视频生成自回归模型。

5、在第一方面的可选实施方式中,根据训练集中的多个文本样本信息、每个文本样本信息对应的第一数量个视频样本令牌以及第二数量个音频样本令牌对预设的自回归模型进行训练,获得训练完成的音视频生成自回归模型,包括:通过预设的自回归模型根据文本样本信息和第一解码函数确定第一预测视频样本令牌数量,并根据文本样本信息和第二解码函数,确定第一预测音频样本令牌数量;根据第一预测视频样本令牌数量、第二预测音频样本令牌数量、第一数量以及第二数量,计算预设的自回归模型的第一损失值;判断第一损失值是否达到预设损失值;若第一损失值没有达到预设损失值,则判断当前处理的视频样本令牌数量是否达到第一引入数量,并判断当前处理的音频样本令牌数量是否达到第二引入数量,其中,所述第一引入数量表示视频解码需引入音频信息的视频样本令牌数量,第二引入数量表示音频解码需引入视频信息的音频样本令牌数量;若判定当前处理的视频样本令牌数量未达到第一引入数量,并且当前处理的音频样本令牌数量达到第二引入数量,则根据第一解码函数和第一预测视频样本令牌数量确定第二预测视频样本令牌数量,并根据第二解码函数、第一预测音频样本数量以及第一预测视频样本数量确定第二预测音频样本令牌数量;根据第二预测视频样本令牌数量、第二预测音频样本令牌数量、第一数量以及第二数量计算第二损失值;判断所述第二损失值是否达到预设损失值;若第二损失值达到预设损失值,则获得训练完成的音视频生成自回归模型。

6、在第一方面的可选实施方式中,该方法还包括:若判定当前处理的视频样本令牌数量达到第一引入数量,并且当前处理的音频样本令牌数量未达到第二引入数量,则根据第一预测视频样本令牌数量、第一解码函数以及第一预测音频样本数量确定第二预测视频样本令牌数量,并根据第一预测音频样本数量和第二解码函数确定第二预测音频样本令牌数量。

7、在第一方面的可选实施方式中,该方法还包括:若判定当前处理的视频样本令牌数量达到第一引入数量,并且当前处理的音频样本令牌数量达到第二引入数量,则根据第一预测视频样本令牌数量、第一解码函数以及第一预测音频样本数量确定第二预测视频样本令牌数量,并根据第一预测音频样本数量、第一预测视频样本数量以及第二解码函数确定第二预测音频样本令牌数量。

8、在第一方面的可选实施方式中,该方法还包括:若判定第二损失值未达到预设损失值,则判断当前处理的视频样本令牌数量是否达到第一引入数量,并判断当前处理的音频样本令牌数量是否达到第二引入数量;若判定当前处理的视频样本令牌数量达到第一引入数量,并且当前处理的音频样本令牌数量未达到第二引入数量,则根据第一解码函数、第二预测视频样本令牌数量以及第二预测音频样本令牌数量确定第三预测视频样本令牌数量,并根据第二解码函数和第二预测音频样本数量确定第三预测音频样本令牌数量;根据第三预测视频样本令牌数量、第三预测音频样本令牌数量、第一数量以及第二数量计算第二损失值;判断所述第三损失值是否达到预设损失值;若第三损失值达到预设损失值,则获得训练完成的音视频生成自回归模型。

9、上述多种实施方式,本方案在视频或音频的当前处理样本令牌数量达到引入数量的情况下,引入音频或视频信息参与下一次的令牌数量预测,从而使得训练得到的音视频自回归生成模型在对视频的生成过程中可以参考音频信息,在音频的生成过程中可以参考视频信息,进而使得本方案生成的音视频自回归生成模型可以快速生成视频和音频的情况下,使得生成的视频和音频同步性高,进而使得音画同步性和质量更高。

10、在第一方面的可选实施方式中,在通过预设的自回归模型根据文本样本信息和第一解码函数确定第一预测视频样本令本文档来自技高网...

【技术保护点】

1.一种音频和视频生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,其中,所述音视频生成自回归模型通过如下方式训练获得:

3.根据权利要求2所述的方法,其特征在于,所述根据训练集中的多个文本样本信息、每个文本样本信息对应的第一数量个视频样本令牌以及第二数量个音频样本令牌对预设的自回归模型进行训练,获得训练完成的音视频生成自回归模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:

6.根据权利要求3所述的方法,其特征在于,所述方法还包括:

7.根据权利要求3所述的方法,其特征在于,在所述通过预设的自回归模型根据文本样本信息和第一解码函数确定第一预测视频样本令牌数量,并根据文本样本信息和第二解码函数确定第一预测音频样本令牌数量之前,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述根据第一数量和第二数量分别计算视频对齐个数以及音频对齐个数,包括:

9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。

...

【技术特征摘要】

1.一种音频和视频生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,其中,所述音视频生成自回归模型通过如下方式训练获得:

3.根据权利要求2所述的方法,其特征在于,所述根据训练集中的多个文本样本信息、每个文本样本信息对应的第一数量个视频样本令牌以及第二数量个音频样本令牌对预设的自回归模型进行训练,获得训练完成的音视频生成自回归模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:

6.根据权利要求3所述的方法,其特征在于,所述方法还包括:

7.根据...

【专利技术属性】
技术研发人员:肖杰
申请(专利权)人:成都开心音符科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1