说话头视频合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39131000 阅读:11 留言:0更新日期:2023-10-23 14:50
本申请公开了一种说话头视频合成方法、说话头视频合成装置、电子设备及存储介质。该方法包括:获取待合成的语音数据及观测数据,所述观测数据为除语音数据之外的通过观测所得的数据;对所述语音数据进行特征提取,得到所述语音数据所对应的语音特征,以及,对所述观测数据进行特征提取,得到所述观测数据所对应的非语音特征;对所述语音特征及第一非语音特征进行时序建模,得到低维表征,其中,所述第一非语音特征为:对时序变化敏感的非语音特征;基于所述低维表征及第二非语音特征进行视频合成,得到说话头视频,其中,所述第二非语音特征为:对时序变化不敏感的非语音特征。通过本申请方案,可以降低说话头视频合成时的复杂度,减少合成耗时。减少合成耗时。减少合成耗时。

【技术实现步骤摘要】
说话头视频合成方法、装置、电子设备及存储介质


[0001]本申请属于视频处理
,尤其涉及一种说话头视频合成方法、说话头视频合成装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着人工智能的发展,虚拟数字人这一概念也越来越被人们所熟悉,其具体为一种运用数字技术创造出来的、与人类形象接近的数字化人物形象。当前,对于虚拟数字人而言,一种常见的相关技术为说话头视频合成,其是指根据一段文本和指定的脸部图像,输出对应该文本和该脸部图像的一段说话头的多模态视频;也即,合成的视频中会包含有合成的语音和说话时的脸部动作等。
[0003]传统的说话头视频合成方法会通过自回归模型建立视频帧前后的依赖关系,导致基于高分辨率图像的说话头视频合成的复杂度较高,合成耗时较长。

技术实现思路

[0004]本申请提供了一种说话头视频合成方法、说话头视频合成装置、电子设备及计算机可读存储介质,可以降低说话头视频合成时的复杂度,减少合成耗时。
[0005]第一方面,本申请提供了一种说话头视频合成方法,包括:
[0006]获取待合成的语音数据及观测数据,观测数据为除语音数据之外的通过观测所得的数据;
[0007]对语音数据进行特征提取,得到语音数据所对应的语音特征,以及,对观测数据进行特征提取,得到观测数据所对应的非语音特征;
[0008]对语音特征及第一非语音特征进行时序建模,得到低维表征,其中,第一非语音特征为:对时序变化敏感的非语音特征;
[0009]基于低维表征及第二非语音特征进行视频合成,得到说话头视频,其中,第二非语音特征为:对时序变化不敏感的非语音特征。
[0010]第二方面,本申请提供了一种说话头视频合成装置,包括:
[0011]获取模块,用于获取待合成的语音数据及观测数据,观测数据为除语音数据之外的通过观测所得的数据;
[0012]提取模块,用于对语音数据进行特征提取,得到语音数据所对应的语音特征,以及,对观测数据进行特征提取,得到观测数据所对应的非语音特征;
[0013]建模模块,用于对语音特征及第一非语音特征进行时序建模,得到低维表征,其中,第一非语音特征为:对时序变化敏感的非语音特征;
[0014]合成模块,用于基于低维表征及第二非语音特征进行视频合成,得到说话头视频,其中,第二非语音特征为:对时序变化不敏感的非语音特征。
[0015]第三方面,本申请提供了一种电子设备,上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程
序时实现如上述第一方面的方法的步骤。
[0016]第四方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
[0017]第五方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
[0018]本申请与现有技术相比存在的有益效果是:针对时序变化敏感的非语音特征来说,其会与同样时序变化敏感的语音特征一起在低维空间被时序建模;针对时序变化不敏感的非语音特征来说,则在高维空间进行视频合成时才进行处理。通过这样的近似计算,降低时序建模的复杂度,从而达到提高说话头视频合成推理速度的效果,帮助减少合成耗时。
[0019]可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
[0020]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请实施例提供的说话头视频合成方法的实现流程示意图;
[0022]图2是本申请实施例提供的说话头视频合成装置的结构示意图;
[0023]图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0024]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0025]下面对本申请实施例提供的一种说话头视频合成方法进行描述。其中,该说话头视频合成方法可应用于具备说话头视频合成功能的电子设备。仅作为示例,该电子设备可以是电脑等,此处不作限定。请参阅图1,本申请实施例中的说话头视频合成方法包括:
[0026]步骤101,获取待合成的语音数据及观测数据。
[0027]当需要合成说话头视频时,电子设备可以获取待合成的语音数据和观测数据。其中,待合成的语音数据具体指的是:用户期望最终合成的说话头视频所输出的语音数据。观测数据指的是除了该语音数据之外,合成说话头视频时所需要的其它必要的数据,包括与外貌相关的数据以及与头动相关的数据等;通常而言,该观测数据可通过传感器等设备观测而得。
[0028]在一些示例中,观测数据可通过视觉传感器拍摄期望目标的真实头部视频而得到。可以理解,该真实头部视频中即包含与外貌相关的数据以及与头动相关的数据。当然,也可以通过该真实头部视频表达与头动相关的数据,再通过其它人脸图像表达与外貌相关的数据;也即,该真实头部可以仅提供与头动相关的数据,在此基础上由视觉传感器拍摄人
脸期望目标的人脸图像来提供与外貌相关的数据,本申请实施例对此不作限定。
[0029]步骤102,对语音数据进行特征提取,得到语音数据所对应的语音特征,以及,对观测数据进行特征提取,得到观测数据所对应的非语音特征。
[0030]语音数据中,除了期望说话头视频输出的语音之外,还可能包括其它噪声数据或冗余数据,例如背景音及音色等。类似地,观测数据中也可能包含其它噪声数据或冗余数据。基于此,电子设备可分别对语音数据及观测数据进行特征提取,去除这些噪声数据及冗余数据,避免对后续的说话头视频合成产生影响。
[0031]步骤103,对语音特征及第一非语音特征进行时序建模,得到低维表征。
[0032]其中,第一非语音特征指的是:对时序变化敏感的非语音特征。在一些示例中,通过对说话头视频的分析可知,人眼对于唇动与语音的同步度敏感,对于头部及肩部的轮廓的时序变化的自然度也敏感,基于此,可设定第一非语音特征为形状相关的特征。
[0033]电子设备可先融合语音特征及第一非语音特征,然后利用自回归的时序模型,从第0帧开始基于融合后的语音特征及第一非语音特征进行时序建模,由此得到低维表征。可以理解,这些低维表征均有对应的物理意义,例如包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话头视频合成方法,其特征在于,包括:获取待合成的语音数据及观测数据,所述观测数据为除语音数据之外的通过观测所得的数据;对所述语音数据进行特征提取,得到所述语音数据所对应的语音特征,以及,对所述观测数据进行特征提取,得到所述观测数据所对应的非语音特征;对所述语音特征及第一非语音特征进行时序建模,得到低维表征,其中,所述第一非语音特征为:对时序变化敏感的非语音特征;基于所述低维表征及第二非语音特征进行视频合成,得到说话头视频,其中,所述第二非语音特征为:对时序变化不敏感的非语音特征。2.如权利要求1所述的说话头视频合成方法,其特征在于,所述观测数据包括:通过视频表达的头动观测数据;所述对所述观测数据进行特征提取,得到所述观测数据所对应的非语音特征,包括:对所述视频进行分析,得到人脸与相机视角的相对位置变化信息;基于所述相对位置变化信息,得到表达人脸位置的第三非语音特征。3.如权利要求1所述的说话头视频合成方法,其特征在于,所述观测数据包括:通过图像表达的人脸解剖学观测数据;所述对所述观测数据进行特征提取,得到所述观测数据所对应的非语音特征,包括:基于与外貌的相关性,对所述人脸解剖学观测数据进行分离,得到表达人脸外貌的第四非语音特征。4.如权利要求1所述的说话头视频合成方法,其特征在于,所述语音特征包括:语言特征及副语言特征。5.如权利要求1至4任一项所述的说话头视频合成方法,其特征在于,在所述对所述语音特征及第一非语音特征进行时序建模,得到低维表征之前,所述说话头视频合成方法还包括:...

【专利技术属性】
技术研发人员:丁万黄东延杨显杰郑泽鸿李鹏辉
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1