视频生成方法、装置、设备及存储介质制造方法及图纸

技术编号：28327042 阅读：20 留言：0更新日期：2021-05-04 13:08

本公开实施例公开了一种视频生成方法、装置、设备及存储介质。包括：提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征；根据所述语音特征和所述图像特征对所述视频帧进行仿射变换；根据仿射变换后的视频帧生成目标视频。本公开实施例公开的视频生成方法，根据语音特征和图像特征对视频帧进行仿射变换，从而根据仿射变换后的视频帧生成目标视频，以实现语音与视频中嘴型的对齐，可以降低成本，提高嘴型和语音对齐的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
视频生成方法、装置、设备及存储介质
本公开实施例涉及图像处理
，尤其涉及一种视频生成方法、装置、设备及存储介质。
技术介绍
在配音领域及动画领域中都需要将语音与图像中人的嘴型对应起来。相关技术中，为了实现语音和嘴型对齐，或者成本较高，或者生成的嘴型和语音对齐的准确度不高。
技术实现思路
本公开实施例提供一种视频生成方法、装置、设备及存储介质，以实现语音与视频中嘴型的对齐，可以降低成本，提高嘴型和语音对齐的准确度。第一方面，本公开实施例提供了一种视频生成方法，包括：提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征；根据所述语音特征和所述图像特征对所述视频帧进行仿射变换；根据仿射变换后的视频帧生成目标视频。第二方面，本公开实施例还提供了一种视频生成装置，包括：特征提取模块，用于提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征；仿射变换模块，用于根据所述语音特征和所述图像特征对所述视频帧进行仿射变换；目标视频生成模块，用于根据仿射变换后的视频帧生成目标视频。第三方面，本公开实施例还提供了一种电子设备，所述电子设备包括：一个或多个处理装置；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现如本公开实施例所述的视频生成方法。第四方面，本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处...

【技术保护点】
1.一种视频生成方法，其特征在于，包括：/n提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征；/n根据所述语音特征和所述图像特征对所述视频帧进行仿射变换；/n根据仿射变换后的视频帧生成目标视频。/n

【技术特征摘要】
1.一种视频生成方法，其特征在于，包括：
提取语音数据中各语音帧的语音特征以及各语音帧对应视频帧的图像特征；
根据所述语音特征和所述图像特征对所述视频帧进行仿射变换；
根据仿射变换后的视频帧生成目标视频。

2.根据权利要求1所述的方法，其特征在于，根据所述语音特征和所述图像特征对所述视频帧进行仿射变换，包括：
将所述语音特征和所述图像特征输入设定神经网络，获得仿射变换后的视频帧；其中，所述设定神经网络包括至少一个子网络和至少一个仿射变换模块。

3.根据权利要求2所述的方法，其特征在于，所述子网络包括全局均值池化层、特征拼接层、至少两个全连接层及维度变换层，子网络的输出为子仿射变换系数，所述仿射变换模块用于根据所述子仿射变换系数对所述图像特征进行仿射变换。

4.根据权利要求3所述的方法，其特征在于，若设定神经网络包括至少两个子网络，则第1个子网络的输入为所述语音特征和所述图像特征，第N个子网络的输入为所述语音特征和根据第N-1个子网络输出的子仿射变换系数变换后的图像特征；其中，N≥2。

5.根据权利要求3或4所述的方法，其特征在于，将所述语音特征和所述图像特征输入设定神经网络，获得仿射变换后的视频帧，包括：
对于每个子网络，所述图像特征输入所述全局均值池化层进行池化处理；池化处理后的图像特征输入所述特征拼接层，和输入所述特征拼接层的语音特征进行特征拼接；拼接后的特征输入所述至少两个全连接层进行特征提取后，输入所述...

【专利技术属性】
技术研发人员：杜绪晗，焦少慧，苏再卿，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人