语音动画的合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36016816 阅读:19 留言:0更新日期:2022-12-21 10:08
本申请实施例提供了一种语音动画的合成方法、装置、电子设备及存储介质,涉及语音技术领域。该方法包括:显示图像采集控件,响应于图像采集控件的触发操作,采集目标用户的面部图像,获得目标面部图像;显示跟读信息和跟读控件,响应于跟读控件的触发操作,采集目标用户输入的、与跟读信息对应的音频信息;获取并显示包括目标用户唇形变化的图像的语音动画,目标用户的唇形变化与音频信息的内容同步,目标用户唇形变化的图像是根据目标面部图像中的唇形和音频信息得到的。本申请实施例能够帮助用户根据语音动画更准确地练习发音以及发音时的唇形,提高语言学习的兴趣和效率。提高语言学习的兴趣和效率。提高语言学习的兴趣和效率。

【技术实现步骤摘要】
语音动画的合成方法、装置、电子设备及存储介质


[0001]本申请涉及语音
,具体而言,本申请涉及一种语音动画的合成方法、装置、电子设备及存储介质。

技术介绍

[0002]在语言学习中,听和读是非常重要的,通常情况下,在学习语言时需要跟着听到的发音进行朗读,进而进行各种语音的学习。
[0003]很多情况下靠学习者自己还是无法知道自身发音是否标准。因此,大多语言学习软件还会向学习者展示发音时的标准唇形图案,以帮助学习者参照标准唇形图案,调整自己的唇形来纠正发音。
[0004]然而,现有技术所提供的标准唇形图案要么是手绘的,要么是模特的唇形图案,学习者并不能够准确模仿出标准唇形图案,影响发音的准确性,降低语言学习的热情。

技术实现思路

[0005]本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的语音动画的合成方法、装置、电子设备及存储介质。
[0006]第一方面,提供了一种语音动画的合成方法,该方法包括:
[0007]显示图像采集控件,响应于图像采集控件的触发操作,采集目标用户的面部图像,获得目标面部图像;
[0008]显示跟读信息和跟读控件,响应于跟读控件的触发操作,采集目标用户输入的、与跟读信息对应的音频信息;
[0009]获取并显示包括目标用户唇形变化的图像的语音动画,目标用户的唇形变化与音频信息的内容同步,目标用户唇形变化的图像是根据目标面部图像中的唇形和音频信息得到的。
[0010]在一个可能的实现方式中,获得语音动画的方式,包括:
[0011]获取至少一种样本唇形,样本唇形用于表达至少一种音素的发音;根据样本唇形对目标面部图像中目标用户的唇形进行更新,获得合成面部图像,合成面部图像中目标用户的唇形用于表达相应的样本唇形表达的音素的发音;
[0012]对音频信息进行语音识别,获得音频信息的音素序列,音素序列中包括音频信息中至少一个时间点对应的音素;
[0013]确定与音素序列中各音素对应的合成面部图像,并依据各个合成面部图像获得目标用户唇形变化的合成面部图像序列;
[0014]获取音频信息中音素序列对应的音频帧序列,根据音频帧序列在音频信息中的时间信息,将音频帧序列和合成面部图像序列进行同步,生成语音动画。
[0015]在一个可能的实现方式中,确定与音素序列中各音素对应的合成面部图像,包括:
[0016]确定音素序列中各音素对应的唇形,获得唇形序列;
[0017]确定唇形序列中各唇形对应的合成面部图像。
[0018]在一个可能的实现方式中,获得合成面部图像序列,之后还包括:
[0019]将合成面部图像序列中的合成面部图像分别与预设的素材图像进行融合,获得融合图像序列;
[0020]将音频帧序列和合成面部图像序列进行同步,获得语音动画,包括:
[0021]将音频帧序列和融合图像序列进行同步,获得语音动画。
[0022]在一个可能的实现方式中,对音频信息进行语音识别,获得音频信息的音素序列,包括:
[0023]获得音频信息的初始翻译文本,根据初始翻译文本确定音频信息的语种;
[0024]若音频信息的语种为目标语种,则从初始翻译文本中获取待校正的分词结果以及分词结果中的多音字;
[0025]从多音字中筛选出正确的多音字,将正确的多音字填充至待校正的分词结果中,获得正确的分词结果;
[0026]获取正确的分词结果的标准读音,通过预设的声学模型对标准读音进行音素识别,获得音频信息的音素序列。
[0027]在一个可能的实现方式中,获得音频信息的初始翻译文本,包括:
[0028]检测并消除音频信息中的直流偏移并对消除直流偏移后的音频信息进行重采样,获得重采样后的音频信息;
[0029]对重采样后的音频信息进行人声检测,获得音频信息中的人声音频帧;
[0030]对人声音频帧进行语音识别,获得初始翻译文本。
[0031]在一个可能的实现方式中,获取并显示包括目标用户唇形变化的图像的语音动画,包括:
[0032]将目标面部图像和音频信息输入至在终端本地运行的语音动画安装包,获得语音动画安装包输出的语音动画;
[0033]其中,语音动画安装包通过以下步骤生成:
[0034]获取用于根据目标面部图像和音频信息,获得语音动画的程序代码;
[0035]利用交叉工具链对程序代码进行编译,获得针对目标操作系统运行的静态库,交叉工具链为针对待生成的语音动画安装包对应的交叉编译环境;
[0036]定义静态库的对外接口和头文件,生成语音动画安装包。
[0037]第二方面,提供了一种语音动画的合成装置,包括:
[0038]目标面部图像获取模块,用于显示图像采集控件,响应于图像采集控件的触发操作,采集目标用户的面部图像,获得目标面部图像;
[0039]音频信息获取模块,用于显示跟读信息和跟读控件,响应于跟读控件的触发操作,采集目标用户录入的、与跟读信息对应的音频信息;
[0040]语音动画展示模块,用于获取并显示包括目标用户唇形变化的图像的语音动画,目标用户的唇形变化与音频信息的内容同步,目标用户唇形变化的图像是根据目标面部图像中的唇形和音频信息得到的。
[0041]在一个可能的实现方式中,合成装置还包括:语音动画合成模块,具体的,语音动画合成模块包括:
[0042]合成面部图像生成子模块,用于获取至少一种样本唇形,样本唇形用于表达至少一种音素的发音;根据样本唇形对目标面部图像中目标用户的唇形进行更新,获得合成面部图像,合成面部图像中目标用户的唇形用于表达相应的样本唇形表达的音素的发音;
[0043]语音识别子模块,用于对音频信息进行语音识别,获得音频信息的音素序列,音素序列中包括音频信息中至少一个时间点对应的音素;
[0044]图像序列子模块,用于确定与音素序列中各音素对应的合成面部图像,并依据各个合成面部图像获得目标用户唇形变化的合成面部图像序列;
[0045]同步子模块,用于获取音频信息中音素序列对应的音频帧序列,根据音频帧序列在音频信息中的时间信息,将音频帧序列和合成面部图像序列进行同步,生成语音动画。
[0046]在一个可能的实现方式中,图像序列子模块包括:
[0047]唇形序列单元,用于确定音素序列中各音素对应的唇形,获得唇形序列;
[0048]图像对应单元,用于确定唇形序列中各唇形对应的合成面部图像。
[0049]在一个可能的实现方式中,语音动画合成模块还包括:
[0050]融合序列子模块,用于将合成面部图像序列中的合成面部图像分别与预设的素材图像进行融合,获得融合图像序列;
[0051]相应的,同步子模块用于将音频帧序列和融合图像序列进行同步,获得语音动画。
[0052]在一个可能的实现方式中,语音识别子模块包括:
[0053]初始翻译单元,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音动画的合成方法,其特征在于,包括:显示图像采集控件,响应于所述图像采集控件的触发操作,采集目标用户的面部图像,获得目标面部图像;显示跟读信息和跟读控件,响应于所述跟读控件的触发操作,采集所述目标用户输入的、与所述跟读信息对应的音频信息;获取并显示包括所述目标用户唇形变化的图像的语音动画,所述目标用户的唇形变化与所述音频信息的内容同步,所述目标用户唇形变化的图像是根据所述目标面部图像中的唇形和音频信息得到的。2.根据权利要求1所述的语音动画的合成方法,其特征在于,获得所述语音动画的方式,包括:获取至少一种样本唇形,所述样本唇形用于表达至少一种音素的发音;根据所述样本唇形对所述目标面部图像中目标用户的唇形进行更新,获得合成面部图像,所述合成面部图像中目标用户的唇形用于表达相应的样本唇形表达的音素的发音;对所述音频信息进行语音识别,获得所述音频信息的音素序列,所述音素序列中包括所述音频信息中至少一个时间点对应的音素;确定与所述音素序列中各音素对应的合成面部图像,并依据各个合成面部图像获得目标用户唇形变化的合成面部图像序列;获取所述音频信息中所述音素序列对应的音频帧序列,根据所述音频帧序列在所述音频信息中的时间信息,将所述音频帧序列和所述合成面部图像序列进行同步,生成所述语音动画。3.根据权利要求2所述的语音动画的合成方法,其特征在于,所述确定与所述音素序列中各音素对应的合成面部图像,包括:确定所述音素序列中各音素对应的唇形,获得唇形序列;确定所述唇形序列中各唇形对应的合成面部图像。4.根据权利要求2所述的语音动画的合成方法,其特征在于,所述获得合成面部图像序列,之后还包括:将所述合成面部图像序列中的合成面部图像分别与预设的素材图像进行融合,获得融合图像序列;所述将所述音频帧序列和所述合成面部图像序列进行同步,获得所述语音动画,包括:将所述音频帧序列和所述融合图像序列进行同步,获得所述语音动画。5.根据权利要求2所述的语音动画的合成方法,其特征在于,所述对所述音频信息进行语音识别,获得所述音频信息的音素序列,包括:获得音频信息的初始翻译文本,根据所述初始翻译文本确定所述音频信息的语种;若确定所述音频信息的语种为目标语种,则从初始翻译文本中获取待校正的分词结果以及所述分词结果中的多音字;从所述多音字中筛选出...

【专利技术属性】
技术研发人员:曹爽潘伟洲曾润良
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1