视频生成方法、装置、设备及存储介质制造方法及图纸

技术编号:28327042 阅读:20 留言:0更新日期:2021-05-04 13:08
本公开实施例公开了一种视频生成方法、装置、设备及存储介质。包括:提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征;根据所述语音特征和所述图像特征对所述视频帧进行仿射变换;根据仿射变换后的视频帧生成目标视频。本公开实施例公开的视频生成方法,根据语音特征和图像特征对视频帧进行仿射变换,从而根据仿射变换后的视频帧生成目标视频,以实现语音与视频中嘴型的对齐,可以降低成本,提高嘴型和语音对齐的准确度。

【技术实现步骤摘要】
视频生成方法、装置、设备及存储介质
本公开实施例涉及图像处理
,尤其涉及一种视频生成方法、装置、设备及存储介质。
技术介绍
在配音领域及动画领域中都需要将语音与图像中人的嘴型对应起来。相关技术中,为了实现语音和嘴型对齐,或者成本较高,或者生成的嘴型和语音对齐的准确度不高。
技术实现思路
本公开实施例提供一种视频生成方法、装置、设备及存储介质,以实现语音与视频中嘴型的对齐,可以降低成本,提高嘴型和语音对齐的准确度。第一方面,本公开实施例提供了一种视频生成方法,包括:提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征;根据所述语音特征和所述图像特征对所述视频帧进行仿射变换;根据仿射变换后的视频帧生成目标视频。第二方面,本公开实施例还提供了一种视频生成装置,包括:特征提取模块,用于提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征;仿射变换模块,用于根据所述语音特征和所述图像特征对所述视频帧进行仿射变换;目标视频生成模块,用于根据仿射变换后的视频帧生成目标视频。第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:一个或多个处理装置;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如本公开实施例所述的视频生成方法。第四方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现如本公开实施例所述的视频生成方法。本公开实施例公开了一种视频生成方法、装置、设备及存储介质。提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征;根据所述语音特征和所述图像特征对所述视频帧进行仿射变换;根据仿射变换后的视频帧生成目标视频。本公开实施例公开的视频生成方法,根据语音特征和图像特征对视频帧进行仿射变换,从而根据仿射变换后的视频帧生成目标视频,以实现语音与视频中嘴型的对齐,可以降低成本,提高嘴型和语音对齐的准确度。附图说明图1是本公开实施例中的一种视频生成方法的流程图;图2是本公开实施例中的仿射变换子网络的原理图;图3是本公开实施例中的设定神经网络对视频帧进行仿射变换的原理图;图4是本公开实施例中的一种视频生成装置的结构示意图;图5是本公开实施例中的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。图1为本公开实施例一提供的一种视频生成方法的流程图,本实施例可适用于基于语音生成视频的情况,该方法可以由视频生成装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有视频生成功能的设备中,该设备可以是服务器、移动终端或服务器集群等电子设备。如图1所示,该方法具体包括如下步骤:步骤110,提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征。其中,语音数据可以是录制的语音或者由文字转化而来的语音。视频帧对应的视频可以是录制的视频、网络中下载的视频或者由同一张人脸图片合成的视频。语音特征可以由向量来表征,例如:D,表示D维的语音特征。图像特征可以由矩阵来表征,例如:(C,H,W),其中,C表示通道数,H表示图像高度,W表示图像宽度。本实施例中,首先对语音数据进行分帧处理,获得多个语音帧,然后对各语音帧分别进行特征提取,获得各语音帧的语音特征。具体的,可以采用现有任意的语音特征提取算法对语音帧进行特征提取,此处不再赘述。本实施例中,语音帧与视频帧之间具有一一对应的关系,还需要提取各语音帧对应视频帧的图像特征。同样,图像特征的提取可以采用现有的任意算法执行,此处不再赘述。步骤120,根据语音特征和图像特征对视频帧进行仿射变换。其中,仿射变换可以理解为对二维图像的平移、缩放、旋转等操作,使得变换后视频帧中的嘴型与语音帧匹配。本实施例中,根据语音特征和图像特征对视频帧进行仿射变换的过程可以理解为:首先根据语音特征和图像特征确定仿射变换系数,然后将图像特征与仿射变换系数进行相乘,实现对视频帧的仿射变换。而且,对视频帧的仿射变换可以理解为对视频帧各通道分别进行仿射变换,即仿射变换系数包括视频帧各通道的仿射变换系数。具体的,根据语音特征和图像特征对视频帧进行仿射变换的方式可以是:将语音特征和图像特征输入设定神经网络,获得仿射变换后的视频帧。其中,设定神经网络包括至少一个子网络和至少一个仿射变换模块;子网络包括全局均值池化层、特征拼接层、至少两个全连接层及维度变换层,子网络的输出为子仿射变换系数,仿射变换模块用于根据子仿射变换系数对图像特征进行仿射变换。图2是本实施例中的仿射变换子网络的原理图。如图2所述,虚线框内为子网络的结构图,图像特征(C,H,W)输入全局均值池化层(globalaveragepooling,gap)进行池化处理;池化处理后的图像特征(C)输入特征拼接层(cancate),和输入特征拼接层的语音特征(D)进行特征拼接;拼接后的特征(C+D)输入至少两个全连接层(Multi-LayerPerceptron,MLP)进行特征提取后获得(C*6),将特征(C*6)输入维度变换层(reshape),获得子仿射变换系数(C,2,3);仿射变换模块根据子仿射变换系数对输入子网络的图像特征进行仿射变换,获得仿射变换后的图像特征;若子网络是最后一个子网络,则根据仿射变换后的图像特征确定视频帧;若子网络不是最后一个子网络,则将仿射变换后的图像特征输入下一个子网络。本文档来自技高网...

【技术保护点】
1.一种视频生成方法,其特征在于,包括:/n提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征;/n根据所述语音特征和所述图像特征对所述视频帧进行仿射变换;/n根据仿射变换后的视频帧生成目标视频。/n

【技术特征摘要】
1.一种视频生成方法,其特征在于,包括:
提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征;
根据所述语音特征和所述图像特征对所述视频帧进行仿射变换;
根据仿射变换后的视频帧生成目标视频。


2.根据权利要求1所述的方法,其特征在于,根据所述语音特征和所述图像特征对所述视频帧进行仿射变换,包括:
将所述语音特征和所述图像特征输入设定神经网络,获得仿射变换后的视频帧;其中,所述设定神经网络包括至少一个子网络和至少一个仿射变换模块。


3.根据权利要求2所述的方法,其特征在于,所述子网络包括全局均值池化层、特征拼接层、至少两个全连接层及维度变换层,子网络的输出为子仿射变换系数,所述仿射变换模块用于根据所述子仿射变换系数对所述图像特征进行仿射变换。


4.根据权利要求3所述的方法,其特征在于,若设定神经网络包括至少两个子网络,则第1个子网络的输入为所述语音特征和所述图像特征,第N个子网络的输入为所述语音特征和根据第N-1个子网络输出的子仿射变换系数变换后的图像特征;其中,N≥2。


5.根据权利要求3或4所述的方法,其特征在于,将所述语音特征和所述图像特征输入设定神经网络,获得仿射变换后的视频帧,包括:
对于每个子网络,所述图像特征输入所述全局均值池化层进行池化处理;池化处理后的图像特征输入所述特征拼接层,和输入所述特征拼接层的语音特征进行特征拼接;拼接后的特征输入所述至少两个全连接层进行特征提取后,输入所述...

【专利技术属性】
技术研发人员:杜绪晗焦少慧苏再卿
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1