信息生成方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:39058714 阅读:18 留言:0更新日期:2023-10-12 19:51
本申请提供了一种信息生成方法、装置、电子设备及可读存储介质,该方法包括:获取第一文本信息;确定与所述第一文本信息的发音动作对应的第一音素信息;根据所述第一音素信息进行预测处理,生成具有面部动作的第二音素信息;根据所述第二音素信息进行解码处理,生成用于驱动虚拟人的声谱信息以及面部动作信息。本申请能够解决目前虚拟人的发声和动作的一致性较差的问题。致性较差的问题。致性较差的问题。

【技术实现步骤摘要】
信息生成方法、装置、电子设备及可读存储介质


[0001]本申请涉及通信
,尤其涉及一种信息生成方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着互联网技术和自媒体的发展,原有的以文本和图片为主的内容呈现方式,已经逐渐以视频内容为主的趋势发展。比如在视频讲课、直播等场景中,通常是以真人为主。例如:在产品宣传类视频中,通常由真人对产品进行介绍和讲解等,在直播类视频中,也通常由真人主播进行直播。这种方式制作效率低、成本较高。
[0003]为了提高效率以及降低成本,采用采用虚拟人模拟讲课、直播等智能化场景越来越多。比如采用虚拟人模拟讲课、直播时,需要通过虚拟人的发声数据来驱动虚拟人发声,以及通过动作驱动数据来驱动虚拟人的动作改变,但是目前发声数据和动作驱动数据一般是单独且独立的生成的,存在虚拟人发声与动作的一致性较差的问题。

技术实现思路

[0004]本申请提供一种信息生成方法、装置、电子设备及可读存储介质,解决了目前虚拟人的发声和动作的一致性较差的问题。
[0005]本申请的实施例提供一种信息生成方法,包括:
[0006]获取第一文本信息;
[0007]确定与所述第一文本信息的发音动作对应的第一音素信息;
[0008]根据所述第一音素信息进行预测处理,生成具有面部动作的第二音素信息;
[0009]根据所述第二音素信息进行解码处理,生成用于驱动虚拟人的声谱信息以及面部动作信息。
[0010]可选地,确定与所述第一文本信息的发音动作对应的第一音素信息,包括:
[0011]根据预设匹配库,确定所述第一文本信息中的每个音素对应的映射参数;其中,所述预设匹配库包含至少两个语言类型的音素,且相同发音动作的音素对应相同的映射参数;
[0012]根据所述每个音素对应的映射参数,确定所述第一音素信息。
[0013]可选地,根据所述每个音素对应的映射参数,确定所述第一音素信息,包括:
[0014]对所述每个音素对应的映射参数进行独热编码,生成每个音素对应的数字化序列;
[0015]将所有音素对应的数字化序列确定为所述第一音素信息。
[0016]可选地,根据所述第一音素信息进行预测处理,生成具有面部动作的第二音素信息,包括:
[0017]根据所述第一音素信息,基于自注意力算法生成第一权重系数;
[0018]将所述第一音素信息和所述第一权重信息相乘,得到高阶的第一音素信息;
[0019]对所述高阶的第一音素信息进行预测处理,生成具有面部动作的第二音素信息。
[0020]可选地,根据所述第一音素信息进行预测处理,生成具有面部动作的第二音素信息,包括:
[0021]根据所述第一音素信息进行时长预测处理,生成所述第一音素信息对应的发音时长信息;
[0022]根据所述发音时长信息和所述第一音素信息进行面部动作预测处理,生成所述第一音素信息对应的面部动作信息;
[0023]根据所述第一音素信息和所述面部动作信息,得到所述第二音素信息。
[0024]可选地,根据所述第二音素信息进行解码处理,生成用于驱动虚拟人的声谱信息以及面部动作信息,包括:
[0025]将所述第二音素信息按照维度进行划分,得到声谱隐状态信息以及面部动作隐状态信息;
[0026]根据所述声谱隐状态信息和所述面部动作隐状态信息,基于注意力算法得到所述声谱隐状态信息的第二权重系数,以及所述面部动作隐状态信息的第三权重系数;
[0027]根据所述声谱隐状态信息、所述面部动作隐状态信息、所述第二权重系数和所述第三权重系数,生成用于驱动虚拟人的声谱信息以及面部动作信息。
[0028]可选地,根据所述声谱隐状态信息和所述面部动作隐状态信息,基于注意力算法得到所述声谱隐状态信息的第二权重系数,以及所述面部动作隐状态信息的第三权重系数,包括:
[0029]根据所述声谱隐状态信息进行线性变换,得到第一查询向量、第一键向量和第一值向量;
[0030]根据所述面部动作隐状态信息进行线性变换,得到第二查询向量、第二键向量和第二值向量;
[0031]根据所述第二查询向量、所述第一键向量和所述第一值向量,基于注意力算法得到所述第二权重系数,以及,根据所述第一查询向量、所述第二键向量和所述第二值向量,基于注意力算法得到所述第三权重系数。
[0032]可选地,根据所述声谱隐状态信息、所述面部动作隐状态信息、所述第二权重系数和所述第三权重系数,生成用于驱动虚拟人的声谱信息以及面部动作信息,包括:
[0033]将所述声谱隐状态信息和所述第二权重系数相乘,得到加权的声谱隐状态信息;
[0034]将所述面部动作隐状态信息和所述第三权重系数相乘,得到加权的面部动作隐状态信息;
[0035]将所述加权的声谱隐状态信息和所述加权的面部动作隐状态信息进行拼接,得到拼接后的状态信息;
[0036]根据所述拼接后的状态信息,分别生成用于驱动虚拟人的声谱信息以及面部动作信息。
[0037]本申请实施例提供一种信息生成装置,包括:
[0038]获取模块,用于获取第一文本信息;
[0039]确定模块,用于确定与所述第一文本信息的发音动作对应的第一音素信息;
[0040]第一生成模块,用于根据所述第一音素信息进行预测处理,生成具有面部动作的
第二音素信息;
[0041]第二生成模块,用于根据所述第二音素信息进行解码处理,生成用于驱动虚拟人的声谱信息以及面部动作信息。
[0042]本申请实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的信息生成方法的步骤。
[0043]本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的信息生成的步骤。
[0044]本申请的实施例,通过获取第一文本信息,并确定与所述第一文本信息的发音动作对应的第一音素信息,根据所述第一音素信息进行预测处理,生成具有面部动作的第二音素信息,并根据所述第二音素信息进行解码处理,同步生成用于驱动虚拟人的声谱信息以及面部动作信息,由于驱动虚拟人的声谱信息以及面部动作信息是基于同一具有面部动作的第二音素信息,同步进行解码生成的,从而可以保证驱动虚拟人时声音和动作具有较高的一致性,解决了目前虚拟人的发声和动作的一致性较差的问题。
附图说明
[0045]图1表示本申请实施例的信息生成方法的示意图;
[0046]图2表示本申请实施例的双头解码器的架构示意图;
[0047]图3表示本申请实施例的信息生成装置的框图;
[0048]图4表示本申请实施例的电子设备的框图。
具体实施方式
[0049]为使本申请要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息生成方法,其特征在于,包括:获取第一文本信息;确定与所述第一文本信息的发音动作对应的第一音素信息;根据所述第一音素信息进行预测处理,生成具有面部动作的第二音素信息;根据所述第二音素信息进行解码处理,生成用于驱动虚拟人的声谱信息以及面部动作信息。2.根据权利要求1所述的信息生成方法,其特征在于,确定与所述第一文本信息的发音动作对应的第一音素信息,包括:根据预设匹配库,确定所述第一文本信息中的每个音素对应的映射参数;其中,所述预设匹配库包含至少两个语言类型的音素,且相同发音动作的音素对应相同的映射参数;根据所述每个音素对应的映射参数,确定所述第一音素信息。3.根据权利要求2所述的信息生成方法,其特征在于,根据所述每个音素对应的映射参数,确定所述第一音素信息,包括:对所述每个音素对应的映射参数进行独热编码,生成每个音素对应的数字化序列;将所有音素对应的数字化序列确定为所述第一音素信息。4.根据权利要求1所述的信息生成方法,其特征在于,根据所述第一音素信息进行预测处理,生成具有面部动作的第二音素信息,包括:根据所述第一音素信息,基于自注意力算法生成第一权重系数;将所述第一音素信息和所述第一权重信息相乘,得到高阶的第一音素信息;对所述高阶的第一音素信息进行预测处理,生成具有面部动作的第二音素信息。5.根据权利要求1或4所述的信息生成方法,其特征在于,根据所述第一音素信息进行预测处理,生成具有面部动作的第二音素信息,包括:根据所述第一音素信息进行时长预测处理,生成所述第一音素信息对应的发音时长信息;根据所述发音时长信息和所述第一音素信息进行面部动作预测处理,生成所述第一音素信息对应的面部动作信息;根据所述第一音素信息和所述面部动作信息,得到所述第二音素信息。6.根据权利要求1所述的信息生成方法,其特征在于,根据所述第二音素信息进行解码处理,生成用于驱动虚拟人的声谱信息以及面部动作信息,包括:将所述第二音素信息按照维度进行划分,得到声谱隐状态信息以及面部动作隐状...

【专利技术属性】
技术研发人员:彭话易
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1