信息生成方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：39058714 阅读：21 留言：0更新日期：2023-10-12 19:51

本申请提供了一种信息生成方法、装置、电子设备及可读存储介质，该方法包括：获取第一文本信息；确定与所述第一文本信息的发音动作对应的第一音素信息；根据所述第一音素信息进行预测处理，生成具有面部动作的第二音素信息；根据所述第二音素信息进行解码处理，生成用于驱动虚拟人的声谱信息以及面部动作信息。本申请能够解决目前虚拟人的发声和动作的一致性较差的问题。致性较差的问题。致性较差的问题。

全部详细技术资料下载

【技术实现步骤摘要】
信息生成方法、装置、电子设备及可读存储介质

[0001]本申请涉及通信
，尤其涉及一种信息生成方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着互联网技术和自媒体的发展，原有的以文本和图片为主的内容呈现方式，已经逐渐以视频内容为主的趋势发展。比如在视频讲课、直播等场景中，通常是以真人为主。例如：在产品宣传类视频中，通常由真人对产品进行介绍和讲解等，在直播类视频中，也通常由真人主播进行直播。这种方式制作效率低、成本较高。
[0003]为了提高效率以及降低成本，采用采用虚拟人模拟讲课、直播等智能化场景越来越多。比如采用虚拟人模拟讲课、直播时，需要通过虚拟人的发声数据来驱动虚拟人发声，以及通过动作驱动数据来驱动虚拟人的动作改变，但是目前发声数据和动作驱动数据一般是单独且独立的生成的，存在虚拟人发声与动作的一致性较差的问题。

技术实现思路

[0004]本申请提供一种信息生成方法、装置、电子设备及可读存储介质，解决了目前虚拟人的发声和动作的一致性较差的问题。
[0005]本申请的实施例提供一种信息生成方法，包括：
[0006]获取第一文本信息；
[0007]确定与所述第一文本信息的发音动作对应的第一音素信息；
[0008]根据所述第一音素信息进行预测处理，生成具有面部动作的第二音素信息；
[0009]根据所述第二音素信息进行解码处理，生成用于驱动虚拟人的声谱信息以及面部动作信息。
[0010]可选地，确定与所述第一文本信息的发音动作对应...

【技术保护点】

【技术特征摘要】
1.一种信息生成方法，其特征在于，包括：获取第一文本信息；确定与所述第一文本信息的发音动作对应的第一音素信息；根据所述第一音素信息进行预测处理，生成具有面部动作的第二音素信息；根据所述第二音素信息进行解码处理，生成用于驱动虚拟人的声谱信息以及面部动作信息。2.根据权利要求1所述的信息生成方法，其特征在于，确定与所述第一文本信息的发音动作对应的第一音素信息，包括：根据预设匹配库，确定所述第一文本信息中的每个音素对应的映射参数；其中，所述预设匹配库包含至少两个语言类型的音素，且相同发音动作的音素对应相同的映射参数；根据所述每个音素对应的映射参数，确定所述第一音素信息。3.根据权利要求2所述的信息生成方法，其特征在于，根据所述每个音素对应的映射参数，确定所述第一音素信息，包括：对所述每个音素对应的映射参数进行独热编码，生成每个音素对应的数字化序列；将所有音素对应的数字化序列确定为所述第一音素信息。4.根据权利要求1所述的信息生成方法，其特征在于，根据所述第一音素信息进行预测处理，生成具有面部动作的第二音素信息，包括：根据所述第一音素信息，基于自注意力算法生成第一权重系数；将所述第一音素信息和所述第一权重信息相乘，得到高阶的第一音素信息；对所述高阶的第一音素信息进行预测处理，生成具有面部动作的第二音素信息。5.根据权利要求1或4所述的信息生成方法，其特征在于，根据所述第一音素信息进行预测处理，生成具有面部动作的第二音素信息，包括：根据所述第一音素信息进行时长预测处理，生成所述第一音素信息对应的发音时长信息；根据所述发音时长信息和所述第一音素信息进行面部动作预测处理，生成所述第一音素信息对应的面部动作信息；根据所述第一音素信息和所述面部动作信息，得到所述第二音素信息。6.根据权利要求1所述的信息生成方法，其特征在于，根据所述第二音素信息进行解码处理，生成用于驱动虚拟人的声谱信息以及面部动作信息，包括：将所述第二音素信息按照维度进行划分，得到声谱隐状态信息以及面部动作隐状...

【专利技术属性】
技术研发人员：彭话易，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人