本申请提供了一种语音生成方法和装置,本方案在获得虚拟对象的对象图像后,基于所述对象图像,确定所述虚拟对象对应的目标声音类别特征;基于获得的文本信息和目标声音类别特征,生成符合所述目标声音类别特征的语音数据。据。据。
【技术实现步骤摘要】
语音以及虚拟对象生成方法和装置
[0001]本申请涉及数据处理
,尤其涉及一种语音以及虚拟对象生成方法和装置。
技术介绍
[0002]在元宇宙、虚拟主播以及虚拟现实等虚拟场景中,能够根据用户的需求生成相应的虚拟对象。
[0003]在一些虚拟场景中,输出虚拟对象的同时,还需要输出针对虚拟对象生成的语音。目前,为虚拟对象生成的语音一般都是用户录入的配音或者是固定音色的语音,使得输出的语音与虚拟对象的形象不符。
技术实现思路
[0004]一方面,本申请提供了一种语音生成方法,包括:
[0005]获得虚拟对象的对象图像;
[0006]基于所述对象图像,确定所述虚拟对象对应的目标声音类别特征;
[0007]获得文本信息,所述文本信息用于描述需要所述虚拟对象输出的语音内容;
[0008]基于所述文本信息和目标声音类别特征,生成符合所述目标声音类别特征的语音数据。
[0009]在一种可能的实现方式中,所述基于所述对象图像,确定所述虚拟对象对应的目标声音类别特征,包括:
[0010]将所述对象图像输入到对象分类模型,获得所述对象分类模型识别出的所述虚拟对象的目标对象类别特征;
[0011]将所述虚拟对象的目标对象类别特征确定为所述虚拟对象对应的目标声音类别特征。
[0012]在又一种可能的实现方式中,所述对象分类模型为利用至少一组样本组中的第一图像样本,且以所述对象分类模型从所述第一图像样本中识别出的对象类别特征与声音分类模型从所述第一图像样本对应的第一声音样本中识别出的声音类别特征相同为训练目标,训练得到;
[0013]其中,所述样本组包括:属于同一对象的第一图像样本以及第一声音样本。
[0014]在又一种可能的实现方式中,所述样本组标注有实际对象标识;
[0015]所述训练目标还包括:利用所述对象分类模型确定出的所述第一图像样本的预测对象信息与所述第一图像样本归属的样本组标注的实际对象标识相符。
[0016]在又一种可能的实现方式中,所述对象分类模型通过如下方式训练得到:
[0017]获得至少一个所述样本组;
[0018]对于任意一个样本组,将所述样本组中的第一图像样本输入到图像分类模型,将所述样本组中的第一声音样本输入到声音分类模型,提取所述声音分类模型识别出的声音
类别特征以及所述图像分类模型识别出的对象类别特征,确定所述样本组对应的声音类别特征与对象类别特征之间的特征相似度,获得所述图像分类模型确定出的所述第一图像样本对应的预测对象信息;
[0019]如果基于各样本组对应的特征相似度、预测对象信息和实际对象标识确定出未满足所述训练目标,调整所述图像分类模型的参数,并返回执行所述提取所述声音分类模型识别出的声音类别特征以及所述图像分类模型识别出的对象类别特征的操作,直至满足训练目标,将所述图像分类模型确定出训练出的对象分类模型。
[0020]在又一种可能的实现方式中,所述基于所述文本信息和目标声音类别特征,生成符合所述目标声音类别特征的语音数据,包括:
[0021]基于所述文本信息和目标声音类别特征,利用语音合成模型构建语音数据,得到具有所述目标声音类别特征的语音数据。
[0022]又一方面,本申请还提供了一种虚拟对象生成方法,包括:
[0023]获得用于构建虚拟对象的对象图像;
[0024]基于所述对象图像,确定所述虚拟对象对应的目标声音类别特征;
[0025]基于所述对象图像,构建关联所述目标声音类别特征的虚拟对象。
[0026]在一种可能的实现方式中,还包括:
[0027]获得文本信息,所述文本信息用于描述需要所述虚拟对象输出的语音内容;
[0028]基于所述文本信息,为所述虚拟对象生成具有所述目标声音类别特征的语音数据。
[0029]又一方面,本申请还提供了一种语音生成装置,包括:
[0030]图像获得单元,用于获得虚拟对象的对象图像;
[0031]特征确定单元,用于基于所述对象图像,确定所述虚拟对象对应的目标声音类别特征;
[0032]文本获得单元,用于获得文本信息,所述文本信息用于描述需要所述虚拟对象输出的语音内容;
[0033]语音生成单元,用于基于所述文本信息和目标声音类别特征,生成符合所述目标声音类别特征的语音数据。
[0034]又一方面,本申请还提供了一种虚拟对象生成装置,包括:
[0035]图像获得单元,用于获得用于构建虚拟对象的对象图像;
[0036]特征确定单元,用于基于所述对象图像,确定所述虚拟对象对应的目标声音类别特征;
[0037]对象构建单元,用于基于所述对象图像,构建关联所述目标声音类别特征的虚拟对象。
附图说明
[0038]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0039]图1示出了本申请实施例提供的语音生成方法的一种流程示意图;
[0040]图2示出了本申请实施例提供的语音生成方法的又一种流程示意图;
[0041]图3示出了本申请实施例中训练对象分类模型的一种原理示意图;
[0042]图4示出了本申请实施例中训练对象分类模型的一种流程示意图;
[0043]图5示出了本申请实施例中训练对象分类模型的又一种原理示意图;
[0044]图6示出了本申请实施例中在一种应用场景下训练对象分类模型的原理示意图;
[0045]图7示出了本申请实施例中基于文本信息和虚拟对象的声音类别特征生成语音数据的一种原理示意图;
[0046]图8示出了本申请实施例提供的虚拟对象生成方法的一种流程示意图;
[0047]图9示出了本申请实施例提供的语音生成装置的一种组成结构示意图;
[0048]图10示出了本申请实施例提供的虚拟对象生成装置的一种组成结构示意图;
[0049]图11示出了本申请实施例提供的电子设备的一种组成架构示意图。
具体实施方式
[0050]本申请实施例的方案可以适用于元宇宙、虚拟主播以及虚拟现实等虚拟场景中生成虚拟对象以及为虚拟对象生成语音并输出的场景。
[0051]如,以虚拟主播为例,可以根据需要构建出二维或者三维的虚拟人物,并根据主播内容输出语音信号作为该虚拟人物播报的语音内容,以利用虚拟人物实现在线直播或者录播等。例如,在一些电商平台或者一些新闻直播平台等,可以利用生成的虚拟人物作为主播,并通过输出语音,实现虚拟人物对电商平台的商品进行介绍或者是播报新闻消息等。
[0052]当然,根据需要应用场景的不同,需要生成的虚拟对象以及输出的语音内容等会有所不同,本申请对此不加限制。
[0053]下面本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音生成方法,包括:获得虚拟对象的对象图像;基于所述对象图像,确定所述虚拟对象对应的目标声音类别特征;获得文本信息,所述文本信息用于描述需要所述虚拟对象输出的语音内容;基于所述文本信息和目标声音类别特征,生成符合所述目标声音类别特征的语音数据。2.根据权利要求1所述的方法,所述基于所述对象图像,确定所述虚拟对象对应的目标声音类别特征,包括:将所述对象图像输入到对象分类模型,获得所述对象分类模型识别出的所述虚拟对象的目标对象类别特征;将所述虚拟对象的目标对象类别特征确定为所述虚拟对象对应的目标声音类别特征。3.根据权利要求2所述的方法,所述对象分类模型为利用至少一组样本组中的第一图像样本,且以所述对象分类模型从所述第一图像样本中识别出的对象类别特征与声音分类模型从所述第一图像样本对应的第一声音样本中识别出的声音类别特征相同为训练目标,训练得到;其中,所述样本组包括:属于同一对象的第一图像样本以及第一声音样本。4.根据权利要求3所述的方法,所述样本组标注有实际对象标识;所述训练目标还包括:利用所述对象分类模型确定出的所述第一图像样本的预测对象信息与所述第一图像样本归属的样本组标注的实际对象标识相符。5.根据权利要求4所述的方法,所述对象分类模型通过如下方式训练得到:获得至少一个所述样本组;对于任意一个样本组,将所述样本组中的第一图像样本输入到图像分类模型,将所述样本组中的第一声音样本输入到声音分类模型,提取所述声音分类模型识别出的声音类别特征以及所述图像分类模型识别出的对象类别特征,确定所述样本组对应的声音类别特征与对象类别特征之间的特征相似度,获得所述图像分类模型确定出的所述第一图像样本对应的预测对象信息;如果基于各...
【专利技术属性】
技术研发人员:马思凡,赵泽清,
申请(专利权)人:联想北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。