语音以及虚拟对象生成方法和装置制造方法及图纸

技术编号：38885805 阅读：24 留言：0更新日期：2023-09-22 14:13

本申请提供了一种语音生成方法和装置，本方案在获得虚拟对象的对象图像后，基于所述对象图像，确定所述虚拟对象对应的目标声音类别特征；基于获得的文本信息和目标声音类别特征，生成符合所述目标声音类别特征的语音数据。据。据。

全部详细技术资料下载

【技术实现步骤摘要】
语音以及虚拟对象生成方法和装置

[0001]本申请涉及数据处理
，尤其涉及一种语音以及虚拟对象生成方法和装置。

技术介绍

[0002]在元宇宙、虚拟主播以及虚拟现实等虚拟场景中，能够根据用户的需求生成相应的虚拟对象。
[0003]在一些虚拟场景中，输出虚拟对象的同时，还需要输出针对虚拟对象生成的语音。目前，为虚拟对象生成的语音一般都是用户录入的配音或者是固定音色的语音，使得输出的语音与虚拟对象的形象不符。

技术实现思路

[0004]一方面，本申请提供了一种语音生成方法，包括：
[0005]获得虚拟对象的对象图像；
[0006]基于所述对象图像，确定所述虚拟对象对应的目标声音类别特征；
[0007]获得文本信息，所述文本信息用于描述需要所述虚拟对象输出的语音内容；
[0008]基于所述文本信息和目标声音类别特征，生成符合所述目标声音类别特征的语音数据。
[0009]在一种可能的实现方式中，所述基于所述对象图像，确定所述虚拟对象对应的目标声音类别特征，包括：
[0010]将所述对象图像输入到对象分类模型，获得所述对象分类模型识别出的所述虚拟对象的目标对象类别特征；
[0011]将所述虚拟对象的目标对象类别特征确定为所述虚拟对象对应的目标声音类别特征。
[0012]在又一种可能的实现方式中，所述对象分类模型为利用至少一组样本组中的第一图像样本，且以所述对象分类模型从所述第一图像样本中识别出的对象类别特征与声音分类模型从所述第一图像...

【技术保护点】

【技术特征摘要】
1.一种语音生成方法，包括：获得虚拟对象的对象图像；基于所述对象图像，确定所述虚拟对象对应的目标声音类别特征；获得文本信息，所述文本信息用于描述需要所述虚拟对象输出的语音内容；基于所述文本信息和目标声音类别特征，生成符合所述目标声音类别特征的语音数据。2.根据权利要求1所述的方法，所述基于所述对象图像，确定所述虚拟对象对应的目标声音类别特征，包括：将所述对象图像输入到对象分类模型，获得所述对象分类模型识别出的所述虚拟对象的目标对象类别特征；将所述虚拟对象的目标对象类别特征确定为所述虚拟对象对应的目标声音类别特征。3.根据权利要求2所述的方法，所述对象分类模型为利用至少一组样本组中的第一图像样本，且以所述对象分类模型从所述第一图像样本中识别出的对象类别特征与声音分类模型从所述第一图像样本对应的第一声音样本中识别出的声音类别特征相同为训练目标，训练得到；其中，所述样本组包括：属于同一对象的第一图像样本以及第一声音样本。4.根据权利要求3所述的方法，所述样本组标注有实际对象标识；所述训练目标还包括：利用所述对象分类模型确定出的所述第一图像样本的预测对象信息与所述第一图像样本归属的样本组标注的实际对象标识相符。5.根据权利要求4所述的方法，所述对象分类模型通过如下方式训练得到：获得至少一个所述样本组；对于任意一个样本组，将所述样本组中的第一图像样本输入到图像分类模型，将所述样本组中的第一声音样本输入到声音分类模型，提取所述声音分类模型识别出的声音类别特征以及所述图像分类模型识别出的对象类别特征，确定所述样本组对应的声音类别特征与对象类别特征之间的特征相似度，获得所述图像分类模型确定出的所述第一图像样本对应的预测对象信息；如果基于各...

【专利技术属性】
技术研发人员：马思凡，赵泽清，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人