一种口型动画的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35824956 阅读:18 留言:0更新日期:2022-12-03 13:51
本申请公开了一种口型动画的生成方法、装置、电子设备及存储介质。方法包括:获取用于生成口型动画的目标语音数据;解析目标语音数据,得到目标语音数据所对应的音素序列;获取音素序列中每个音素单元对应的目标持续时间,以及获取音素单元对应的目标动画单元;基于音素序列中每个音素单元对应的目标持续时间以及目标动画单元,生成目标语音数据对应的口型动画。本申请通过检测语音数据中的音素单元,并确定每个音素单元在语音数据中的持续时间以及音素单元对应的动画单元,最终利用音素单元的持续时间以及动画单元生成口型动画,以此将口型动画的发音动作与文本中文字的发音顺序准确的贴合,使最终生成的口型动画能够更加符合真实场景。符合真实场景。符合真实场景。

【技术实现步骤摘要】
一种口型动画的生成方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种口型动画的生成方法、装置、电子设备及存储介质。

技术介绍

[0002]语音作为一种自然交流形式,在人机交互领域表现出了突出的影响力,这一点可以通过我们日常生活中日益普及的社交软件明显看出。然而在人机交互过程中,产生逼真的口型动画是极为复杂的,现有的技术仅依靠有限、单一的关键帧动画,产生的符合高斯分布的口型动画帧数据。但是该方案很难表现出正常人在说话时,口型及面部肌肉的运动,导致最终生成的口型动画效果不符合真实场景。
[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种口型动画的生成方法、装置、电子设备及存储介质。
[0005]根据本申请实施例的一个方面,提供了一种口型动画的生成方法,包括:
[0006]获取用于生成口型动画的目标语音数据;
[0007]解析所述目标语音数据,得到所述目标语音数据所对应的音素序列,其中,所述音素序列包括基于时间顺序排列的音素单元;
[0008]获取所述音素序列中每个音素单元对应的目标持续时间,以及获取所述音素单元对应的目标动画单元,其中,所述目标动画单元包括至少一个携带所述音素单元对应口型动作的动画关键帧;
[0009]基于所述音素序列中每个音素单元对应的目标持续时间以及所述目标动画单元,生成所述目标语音数据对应的口型动画。
[0010]进一步的,所述解析所述目标语音数据,得到所述目标语音数据所对应的音素序列,包括:
[0011]识别所述目标语音数据,得到所述目标语音数据对应的文本内容;
[0012]获取所述文本内容所包括的文字,以及每个所述文字对应的拼音信息;
[0013]从所述拼音信息中获取每个所述文字对应的音素单元,并将所述音素单元基于文字播放数据排列生成所述音素序列。
[0014]进一步的,所述获取所述音素序列中每个音素单元对应的目标持续时间,包括:
[0015]获取所述文字在所述目标语音数据中对应的起止时间戳,并基于所述起止时间戳确定所述文字对应的时间长度;
[0016]获取所述文字所对应每个音素单元的权重值,其中,所述权重值重用于表示所述音素单元对应的发音强度,所述发音强度与持续时间成正比例关系;
[0017]利用所述权重与所述时间长度计算每个所述音素单元对应的目标持续时间。
[0018]进一步的,所述获取所述文字所对应每个音素单元的权重值,包括:
[0019]基于所述拼音信息确定所述文字对应的所述音素单元的目标类型,其中,所述目标类型包括声母类型以及韵母类型;
[0020]获取所述目标类型对应的权重列表,并从所述权重列表中获取所述音素单元对应的权重值。
[0021]进一步的,所述获取所述音素单元对应的目标动画单元,包括:
[0022]获取动画数据库,其中,所述动画数据库包括至少一个动画单元;
[0023]从所述动画数据库的至少一个动画单元中获取与所述音素单元相匹配的原始动画单元,其中,所述原始动画单元包括第一帧数的动画关键帧;
[0024]获取实际口型动作的动画关键帧数与标准口型动作的动画关键帧数之间的映射关系;
[0025]基于映射关系,确定所述原始动画单元所包括的第一帧数对应的第二帧数,并基于所述第二帧数以及所述动画关键帧生成所述目标动画单元。
[0026]进一步的,所述基于所述音素序列中每个音素单元对应的目标持续时间以及所述目标动画单元,生成所述目标语音数据对应的口型动画,包括:
[0027]将目标持续时间确定为所述目标动画单元对应的目标播放时间;
[0028]基于所述音素单元对应的时间顺序排列所述目标动画单元,以及每个所述目标动画单元对应的目标播放时间,生成所述口型动画。
[0029]进一步的,所述方法还包括:
[0030]基于所述口型动画获取每个所述音素单元对应的动画关键帧集合,并基于所述动画关键帧集合确定所述音素单元对应的原始起始动画关键帧以及原始结束动画关键帧;
[0031]获取所述原始起始动画关键帧之前的第N个动画关键帧,以及所述原始结束动画关键帧之后的第M个动画关键帧,其中,M和N均为大于0的整数;
[0032]将所述第N个动画关键帧确定为目标起始动画关键帧,以及将所述第M个动画关键帧确定为目标结束动画关键帧;
[0033]利用所述目标起始动画关键帧以及所述目标结束动画关键帧更新每个所述音素单元对应的动画关键帧集合,得到更新后的口型动画。
[0034]根据本申请实施例的再一个方面,还提供了一种口型动画的生成装置,包括:
[0035]第一获取模块,用于获取用于生成口型动画的目标语音数据;
[0036]解析模块,用于解析所述目标语音数据,得到所述目标语音数据所对应的音素序列,其中,所述音素序列包括基于时间顺序排列的音素单元;
[0037]第二获取模块,用于获取所述音素序列中每个音素单元对应的目标持续时间,以及所述音素单元对的动画单元,其中,所述动画单元包括所述音素单元对应的口型动作;
[0038]生成模块,用于基于所述音素序列中每个音素对应的目标持续时间以及动画单元,生成所述目标语音数据对应的口型动画。
[0039]根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
[0040]根据本申请实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、
存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
[0041]本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
[0042]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的方法通过检测语音数据中的音素单元,并确定每个音素单元在语音数据中的持续时间以及音素单元对应的动画单元,最终利用音素单元的持续时间以及动画单元生成口型动画,以此将口型动画的发音动作与文本中文字的发音顺序准确的贴合,使最终生成的口型动画能够更加符合真实场景。
附图说明
[0043]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0044]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种口型动画的生成方法,其特征在于,包括:获取用于生成口型动画的目标语音数据;解析所述目标语音数据,得到所述目标语音数据所对应的音素序列,其中,所述音素序列包括基于时间顺序排列的音素单元;获取所述音素序列中每个音素单元对应的目标持续时间,以及获取所述音素单元对应的目标动画单元,其中,所述目标动画单元包括至少一个携带所述音素单元对应口型动作的动画关键帧;基于所述音素序列中每个音素单元对应的目标持续时间以及所述目标动画单元,生成所述目标语音数据对应的口型动画。2.根据权利要求1所述的方法,其特征在于,所述解析所述目标语音数据,得到所述目标语音数据所对应的音素序列,包括:识别所述目标语音数据,得到所述目标语音数据对应的文本内容;获取所述文本内容所包括的文字,以及每个所述文字对应的拼音信息;从所述拼音信息中获取每个所述文字对应的音素单元,并将所述音素单元基于文字播放顺序排列生成所述音素序列。3.根据权利要求2所述的方法,其特征在于,所述获取所述音素序列中每个音素单元对应的目标持续时间,包括:获取所述文字在所述目标语音数据中对应的起止时间戳,并基于所述起止时间戳确定所述文字对应的时间长度;获取所述文字所对应每个音素单元的权重值,其中,所述权重值重用于表示所述音素单元对应的发音强度,所述发音强度与持续时间成正比例关系;利用所述权重与所述时间长度计算每个所述音素单元对应的目标持续时间。4.根据权利要求3所述的方法,其特征在于,所述获取所述文字所对应每个音素单元的权重值,包括:基于所述拼音信息确定所述文字对应的所述音素单元的目标类型,其中,所述目标类型包括声母类型以及韵母类型;获取所述目标类型对应的权重列表,并从所述权重列表中获取所述音素单元对应的权重值。5.根据权利要求1所述的方法,其特征在于,所述获取所述音素单元对应的目标动画单元,包括:获取动画数据库,其中,所述动画数据库包括至少一个动画单元;从所述动画数据库的至少一个动画单元中获取与所述音素单元相匹配的原始动画单元,其中,所述原始动画单元包括第一帧数的动画关键帧;获取实际口型动作的动画关键帧数与标准口型动作的动画关键帧数之间的映射关系;基于映射关系,确定所述原始动画单元所...

【专利技术属性】
技术研发人员:程平吴松城
申请(专利权)人:厦门黑镜科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1