视频生成方法和装置、计算机设备、存储介质制造方法及图纸

技术编号:33474969 阅读:22 留言:0更新日期:2022-05-19 00:50
本申请实施例提供一种视频生成方法和装置、计算机设备、存储介质,属于人工智能技术领域。包括:获取原始文本数据;对原始文本数据进行分句得到文本分句;对文本分句进行标注得到文本标注标签;根据文本标注标签对预设视频素材库进行筛选得到候选视频;对文本分句进行语音合成得到语音数据;根据语音时长对候选视频进行采样得到采样视频;对采样视频进行视频合成得到初步视频;根据参考语音对初步视频进行合成得到目标视频。本申请公开实施例通过文本分句对应的文本标注标签,对预设视频素材库进行筛选,能够从预设视频素材库中筛选出符合文本主题的筛选视频,通过对筛选视频进行处理,生成场景更丰富的目标视频,进一步提高视频生成的质量。成的质量。成的质量。

【技术实现步骤摘要】
视频生成方法和装置、计算机设备、存储介质


[0001]本申请涉及人工智能
,尤其涉及一种视频生成方法和装置、计算机设备、存储介质。

技术介绍

[0002]随着互联网和多媒体设备的发展,基于文本自动生成视频的研究受到越来越广泛的关注。目前,通常是基于文本生成多张图像,并由多张图像生成目标视频。但是,采用该方式所生成的目标视频的质量较差。

技术实现思路

[0003]本申请公开实施例的主要目的在于提出一种视频生成方法和装置、计算机设备、存储介质,通过引入预设视频素材库生成场景更丰富的目标视频,能够提高视频生成质量。
[0004]为实现上述目的,本申请公开实施例的第一方面提出了一种视频生成方法,所述方法包括:
[0005]获取原始文本数据;
[0006]对所述原始文本数据进行分句处理,得到文本分句;
[0007]对所述文本分句进行文本标注,得到文本标注标签;
[0008]根据所述文本标注标签对预设视频素材库进行筛选处理,得到候选视频;
[0009]对所述文本分句进行语音合成,得到语音数据;其中,所述语音数据包括参考语音和语音时长;
[0010]根据所述语音时长对所述候选视频进行采样处理,得到采样视频;其中,所述采样视频的视频时长与所述语音时长相同;
[0011]对所述采样视频进行视频合成,得到初步视频;
[0012]根据所述参考语音对所述初步视频进行合成,得到目标视频。
[0013]在一些实施例,在所述根据所述文本标注标签对预设视频素材库进行筛选处理,得到候选视频之前,所述方法还包括:构建所述预设视频素材库,具体包括:
[0014]获取多个样本视频;
[0015]根据预设的过滤条件对所述多个样本视频进行过滤处理,得到初始视频;
[0016]对所述初始视频进行视频解析,得到视频解析片段;
[0017]根据所述视频解析片段构建所述预设视频素材库。
[0018]在一些实施例,在所述根据所述视频解析片段构建所述预设视频素材库之后,所述方法还包括:
[0019]对所述视频解析片段进行视频分类,得到视频分类标签;
[0020]建立所述视频解析片段和所述视频分类标签之间的第一映射关系;
[0021]对所述初始视频进行语音解析,得到语音解析片段;
[0022]对所述语音解析片段进行语音识别,得到语音识别数据;
[0023]建立所述视频解析片段和所述语音识别数据之间的第二映射关系;
[0024]将所述第一映射关系和所述第二映射关系添加至所述预设视频素材库,得到更新后的所述预设视频素材库。
[0025]在一些实施例,所述根据所述文本标注标签对预设视频素材库进行筛选处理,得到候选视频,包括:
[0026]根据所述文本标注标签从更新后的所述预设视频素材库中获取对应的视频分类标签,作为目标分类标签;
[0027]根据所述第一映射关系获取与所述目标分类标签对应的视频解析片段,作为初步筛选视频;
[0028]根据所述第二映射关系获取与所述初步筛选视频对应的语音识别数据,作为目标识别数据;
[0029]计算所述目标分类标签和所述目标识别数据之间的相似度;
[0030]将最大的相似度对应的初步筛选视频,作为所述候选视频。
[0031]在一些实施例,所述初步视频包括第一合成视频;所述对所述采样视频进行视频合成,得到初步视频,包括:
[0032]获取所述采样视频的起始帧和结束帧;
[0033]对所述采样视频进行拼接处理,得到拼接视频;
[0034]根据所述起始帧的位置和所述结束帧的位置,对所述拼接视频进行过渡处理,得到所述第一合成视频;其中,所述过渡处理包括如下至少之一:渐出处理、渐入处理和转场处理。
[0035]在一些实施例,所述初步视频包括第二合成视频;所述对所述采样视频进行视频合成,得到初步视频,还包括:
[0036]获取预设语音和预设虚拟人脸视频;
[0037]将所述预设虚拟人脸视频和所述预设语音输入至口型同步模型中进行视频生成,得到目标人脸视频;其中,所述目标人脸视频中的语音口型和所述预设语音的语音口型相同;
[0038]对所述采样视频和所述第一合成视频进行拼接处理,得到所述第二合成视频。
[0039]在一些实施例,所述根据所述参考语音对所述初步视频进行合成,得到目标视频,包括:
[0040]对所述参考语音进行合并处理,得到目标语音;
[0041]根据所述目标语音对所述初步视频进行语音合成,得到所述目标视频。
[0042]本申请公开实施例的第二方面提出了一种视频生成装置,所述装置包括:
[0043]数据获取模块:用于获取原始文本数据;
[0044]文本分句模块:用于对所述原始文本数据进行分句处理,得到文本分句;
[0045]文本标注模块:用于对所述文本分句进行文本标注,得到文本标注标签;
[0046]视频筛选模块:用于根据所述文本标注标签对预设视频素材库进行筛选处理,得到候选视频;
[0047]语音合成模块:用于对所述文本分句进行语音合成,得到语音数据;其中,所述语音数据包括参考语音和语音时长;
[0048]视频采样模块:用于根据所述语音时长对所述候选视频进行采样处理,得到采样视频;其中,所述采样视频的视频时长与所述语音时长相同;
[0049]第一合成模块:用于对所述采样视频进行视频合成,得到初步视频;
[0050]第二合成模块:用于根据所述参考语音对所述初步视频进行合成,得到目标视频。
[0051]本申请公开实施例的第三方面提出了一种计算机设备,所述计算机设备包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,所述处理器用于执行如本申请第一方面实施例任一项所述的视频生成方法。
[0052]本申请公开实施例的第四方面提出了一种存储介质,该存储介质为计算机可读存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本申请第一方面实施例任一项所述的视频生成方法。
[0053]本申请公开实施例提出的视频生成方法和装置、计算机设备、存储介质,通过获取原始文本数据;对原始文本数据进行分句处理,得到文本分句;对文本分句进行文本标注,得到文本标注标签;根据文本标注标签对预设视频素材库进行筛选处理,得到候选视频;对文本分句进行语音合成,得到语音数据;其中,语音数据包括参考语音和语音时长;根据语音时长对候选视频进行采样处理,得到采样视频;其中,采样视频的视频时长与语音时长相同;对采样视频进行视频合成,得到初步视频;根据参考语音对初步视频进行合成,得到目标视频。本申请公开实施例通过文本分句对应的文本标注标签,对预设视频素材库进行筛选处理,能够从预设视频素材库中筛选出符合文本主题的筛选视频,通过对筛选视频进行处理,能够生成场景本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:获取原始文本数据;对所述原始文本数据进行分句处理,得到文本分句;对所述文本分句进行文本标注,得到文本标注标签;根据所述文本标注标签对预设视频素材库进行筛选处理,得到候选视频;对所述文本分句进行语音合成,得到语音数据;其中,所述语音数据包括参考语音和语音时长;根据所述语音时长对所述候选视频进行采样处理,得到采样视频;其中,所述采样视频的视频时长与所述语音时长相同;对所述采样视频进行视频合成,得到初步视频;根据所述参考语音对所述初步视频进行合成,得到目标视频。2.根据权利要求1所述的方法,其特征在于,在所述根据所述文本标注标签对预设视频素材库进行筛选处理,得到候选视频之前,所述方法还包括:构建所述预设视频素材库,具体包括:获取多个样本视频;根据预设的过滤条件对所述多个样本视频进行过滤处理,得到初始视频;对所述初始视频进行视频解析,得到视频解析片段;根据所述视频解析片段构建所述预设视频素材库。3.根据权利要求2所述的方法,其特征在于,在所述根据所述视频解析片段构建所述预设视频素材库之后,所述方法还包括:对所述视频解析片段进行视频分类,得到视频分类标签;建立所述视频解析片段和所述视频分类标签之间的第一映射关系;对所述初始视频进行语音解析,得到语音解析片段;对所述语音解析片段进行语音识别,得到语音识别数据;建立所述视频解析片段和所述语音识别数据之间的第二映射关系;将所述第一映射关系和所述第二映射关系添加至所述预设视频素材库,得到更新后的所述预设视频素材库。4.根据权利要求3所述的方法,其特征在于,所述根据所述文本标注标签对预设视频素材库进行筛选处理,得到候选视频,包括:根据所述文本标注标签从更新后的所述预设视频素材库中获取对应的视频分类标签,作为目标分类标签;根据所述第一映射关系获取与所述目标分类标签对应的视频解析片段,作为初步筛选视频;根据所述第二映射关系获取与所述初步筛选视频对应的语音识别数据,作为目标识别数据;计算所述目标分类标签和所述目标识别数据之间的相似度;将最大的相似度对应的初步筛选视频,作为所述候选视频。5.根据权利要求1所述的方法,其特征在于,所述初步视频包括第一合成视频;所述对所述采样视频进行视频合成,得到初步...

【专利技术属性】
技术研发人员:涂必超
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1