歌声合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:32896347 阅读:20 留言:0更新日期:2022-04-07 11:44
本申请公开了一种歌声合成方法、装置、计算机设备及存储介质,属于音频技术领域。本申请通过在乐谱给定的音节时长信息的基础上,进一步预测出音素时长信息,由于音素时长信息能够表征每个音素所占用的音频帧数,使得声学模型的精度不再局限于粗略的音节级别,而是能够达到音素级别的精准控制,大大提升了歌声合成的自然度。的自然度。的自然度。

【技术实现步骤摘要】
歌声合成方法、装置、计算机设备及存储介质


[0001]本申请涉及音频
,特别涉及一种歌声合成方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着音频技术的发展和进步,歌声合成技术一直备受关注。在歌声合成技术中,向计算机设备提供数字化的乐谱,以使计算机设备合成乐谱所对应的歌声,再配上伴奏,即可得到一段类似于人类演唱的歌曲。
[0003]目前,在合成歌声时,可以将给定的乐谱转化为对应的标签,再利用训练好的声学模型来预测合成歌声所需的声学特征,最后利用声码器来合成歌声。由于声学模型的精度是有上限的,导致合成歌声的自然度在达到瓶颈后难以提高,因此,继续一种能够提高歌声合成的自然度的方法。

技术实现思路

[0004]本申请实施例提供了一种歌声合成方法、装置、计算机设备及存储介质,能够提高歌声合成的自然度。该技术方案如下:
[0005]一方面,提供了一种歌声生成方法,该方法包括:
[0006]基于乐谱和所述乐谱对应的歌词,确定音节时长信息,所述音节时长信息用于表征所述歌词中的多个音节各自所占用的音频帧数;
[0007]基于所述乐谱、所述歌词和所述音节时长信息,确定音素时长信息,所述音素时长信息用于表征所述多个音节包含的多个音素各自所占用的音频帧数;
[0008]基于所述乐谱、所述歌词和所述音素时长信息,获取待生成的歌声中多个音频帧的声学特征参数,所述声学特征参数用于表征对应音频帧的声学特征;
[0009]基于所述多个音频帧的声学特征参数,生成所述待生成的歌声。
[0010]一方面,提供了一种歌声生成装置,该装置包括:
[0011]第一确定模块,用于基于乐谱和所述乐谱对应的歌词,确定音节时长信息,所述音节时长信息用于表征所述歌词中的多个音节各自所占用的音频帧数;
[0012]第二确定模块,用于基于所述乐谱、所述歌词和所述音节时长信息,确定音素时长信息,所述音素时长信息用于表征所述多个音节包含的多个音素各自所占用的音频帧数;
[0013]获取模块,用于基于所述乐谱、所述歌词和所述音素时长信息,获取待生成的歌声中多个音频帧的声学特征参数,所述声学特征参数用于表征对应音频帧的声学特征;
[0014]生成模块,用于基于所述多个音频帧的声学特征参数,生成所述待生成的歌声。
[0015]在一种可能实施方式中,所述第二确定模块包括:
[0016]第一获取子模块,用于获取所述歌词中的所述多个音节以及所述多个音素;
[0017]所述第一获取子模块,还用于获取所述乐谱中的多个音符各自所对应的多个音高,其中,所述多个音符与所述多个音节相对应;
[0018]第二获取子模块,用于基于所述多个音节、所述多个音素、所述多个音高和歌唱者标识,获取所述多个音节的第一语义特征,所述第一语义特征用于表征所述歌唱者以对应音高演唱对应音节时的语义;
[0019]确定子模块,用于基于所述音节时长信息和所述多个音节的第一语义特征,确定所述音素时长信息。
[0020]在一种可能实施方式中,所述确定子模块包括:
[0021]第一获取单元,用于基于所述音节时长信息和所述多个音节的第一语义特征,获取所述多个音频帧的初始特征,所述初始特征为对应音频帧所属音节的第一语义特征;
[0022]第一确定单元,用于基于所述多个音频帧的初始特征和所述多个音频帧的位置特征,确定所述多个音频帧各自对应的多个音素;
[0023]第二确定单元,用于基于所述多个音频帧和所述多个音素的对应关系,确定所述音素时长信息。
[0024]在一种可能实施方式中,所述第一确定单元包括:
[0025]拼接子单元,用于将所述多个音频帧的初始特征分别和所述多个音频帧的位置特征进行拼接,得到多个第一拼接特征;
[0026]卷积子单元,用于对所述多个第一拼接特征进行卷积处理,得到多个第一目标特征;
[0027]加权子单元,用于对所述多个第一目标特征进行加权处理,得到多个第二目标特征;
[0028]预测子单元,用于基于所述多个第二目标特征,预测所述多个音频帧各自对应的多个音素。
[0029]在一种可能实施方式中,所述预测子单元用于:
[0030]对所述多个第二目标特征中的任一第二目标特征进行全连接处理,得到所述第二目标特征所对应音频帧的多个预测概率,所述预测概率用于表征所述音频帧对应于一个音素的可能性;
[0031]确定预测概率最高的音素为所述音频帧对应的音素。
[0032]在一种可能实施方式中,所述第一获取单元用于:
[0033]对所述多个音节中的任一音节,对所述音节的第一语义特征复制第一目标次数,得到所述音节所包含的多个音频帧的初始特征,其中,所述第一目标次数为所述音节所占用的音频帧数减一所得的数值。
[0034]在一种可能实施方式中,所述获取模块包括:
[0035]第三获取子模块,用于基于所述歌词、所述乐谱和所述音素时长信息,获取所述多个音频帧的第二语义特征,所述第二语义特征用于表征所述歌唱者以对应音高演唱对应音素时的语义;
[0036]编码子模块,用于对所述多个音频帧的第二语义特征进行编码,得到所述多个音频帧的中间特征;
[0037]解码子模块,用于对所述多个音频帧的中间特征进行解码,得到所述多个音频帧的第三语义特征;
[0038]处理子模块,用于对所述多个音频帧的第三语义特征进行处理,得到所述多个音
频帧的声学特征参数。
[0039]在一种可能实施方式中,所述第三获取子模块包括:
[0040]第二获取单元,用于获取所述歌词中所述多个音素的音素特征以及所述乐谱中多个音符各自所对应的多个音高的音高特征,其中,所述多个音符与所述多个音节相对应;
[0041]第三获取单元,用于基于所述多个音素的音素特征和所述音素时长信息,获取所述多个音频帧的帧级音素特征,所述帧级音素特征为对应音频帧所属音素的音素特征;
[0042]第四获取单元,用于基于所述多个音高的音高特征和所述音素时长信息,获取所述多个音频帧的帧级音高特征,所述帧级音高特征为对应音频帧所属音素所对应音高的音高特征;
[0043]拼接单元,用于将所述多个音频帧的帧级音素特征分别与所述多个音频帧的帧级音高特征和歌唱者标识的歌唱者特征进行拼接,得到所述多个音频帧的第二语义特征。
[0044]在一种可能实施方式中,所述第三获取单元用于:
[0045]对所述多个音素中的任一音素,对所述音素的音素特征复制第二目标次数,得到所述音素所包含的多个音频帧的帧级音素特征,其中,所述第二目标次数为所述音素所占用的音频帧数减一所得的数值。
[0046]在一种可能实施方式中,所述第四获取单元用于:
[0047]对所述多个音高中的任一音高,对所述音高的音高特征复制第三目标次数,得到所述音高所对应音素所包含的多个音频帧的帧级音高特征,其中,所述第三目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌声生成方法,其特征在于,所述方法包括:基于乐谱和所述乐谱对应的歌词,确定音节时长信息,所述音节时长信息用于表征所述歌词中的多个音节各自所占用的音频帧数;基于所述乐谱、所述歌词和所述音节时长信息,确定音素时长信息,所述音素时长信息用于表征所述多个音节包含的多个音素各自所占用的音频帧数;基于所述乐谱、所述歌词和所述音素时长信息,获取待生成的歌声中多个音频帧的声学特征参数,所述声学特征参数用于表征对应音频帧的声学特征;基于所述多个音频帧的声学特征参数,生成所述待生成的歌声。2.根据权利要求1所述的方法,其特征在于,所述基于所述乐谱、所述歌词和所述音节时长信息,确定音素时长信息包括:获取所述歌词中的所述多个音节以及所述多个音素;获取所述乐谱中的多个音符各自所对应的多个音高,其中,所述多个音符与所述多个音节相对应;基于所述多个音节、所述多个音素、所述多个音高和歌唱者标识,获取所述多个音节的第一语义特征,所述第一语义特征用于表征所述歌唱者以对应音高演唱对应音节时的语义;基于所述音节时长信息和所述多个音节的第一语义特征,确定所述音素时长信息。3.根据权利要求2所述的方法,其特征在于,所述基于所述音节时长信息和所述多个音节的第一语义特征,确定所述音素时长信息包括:基于所述音节时长信息和所述多个音节的第一语义特征,获取所述多个音频帧的初始特征,所述初始特征为对应音频帧所属音节的第一语义特征;基于所述多个音频帧的初始特征和所述多个音频帧的位置特征,确定所述多个音频帧各自对应的多个音素;基于所述多个音频帧和所述多个音素的对应关系,确定所述音素时长信息。4.根据权利要求3所述的方法,其特征在于,所述基于所述多个音频帧的初始特征和所述多个音频帧的位置特征,确定所述多个音频帧各自对应的多个音素包括:将所述多个音频帧的初始特征分别和所述多个音频帧的位置特征进行拼接,得到多个第一拼接特征;对所述多个第一拼接特征进行卷积处理,得到多个第一目标特征;对所述多个第一目标特征进行加权处理,得到多个第二目标特征;基于所述多个第二目标特征,预测所述多个音频帧各自对应的多个音素。5.根据权利要求4所述的方法,其特征在于,所述基于所述多个第二目标特征,预测所述多个音频帧各自对应的多个音素包括:对所述多个第二目标特征中的任一第二目标特征进行全连接处理,得到所述第二目标特征所对应音频帧的多个预测概率,所述预测概率用于表征所述音频帧对应于一个音素的可能性;确定预测概率最高的音素为所述音频帧对应的音素。6.根据权利要求3所述的方法,其特征在于,所述基于所述音节时长信息和所述多个音节的第一语义特征,获取所述多个音频帧的初始特征包括:
对所述多个音节中的任一音节,对所述音节的第一语义特征复制第一目标次数,得到所述音节所包含的多个音频帧的初始特征,其中,所述第一目标次数为所述音节所占用的音频帧数减一所得的数值。7.根据权利要求1所述的方法,其特征在于,所述基于所述乐谱、所述歌词和所述音素时长信息,获取待生成的歌声中多个音频帧的声学特征参数包括:基于所述歌词、所述乐谱和所述音素时长信息,获取所述多个音频帧的第二语义特征,所述第二语义特征用于表征所述歌唱者以对应音高演唱对应音素时的语义;对所述多个音频帧的第二语义特征进行编码,得到所述多个音频帧的中间特征;对所述多个音频帧的中间特征进行解码,得到所述多个音频帧的第三语义特征;对所述多个音频帧的第三语义特征进行处理,得到所述多个音频帧的声学特征参数。8.根据权利要求7所述的方法,其特征在于,所述基于所述歌词、所述乐谱和所述音素时长信息,获取所述多个音频帧的第二语...

【专利技术属性】
技术研发人员:游惟雅刘朋吴志勇
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1