语音转换方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37988184 阅读:9 留言:0更新日期:2023-06-30 10:02
本申请的语音转换方法、装置、电子设备及存储介质中,根据文本序列以及第一说话人的说话人特征获取融合特征向量;根据第二说话人的源梅尔谱获取源频谱特征向量;将融合特征向量和源频谱特征向量输入至预先训练好的语音转换声学模型中,输出第一说话人的目标梅尔谱;根据目标梅尔谱获取目标语音数据;通过上述方式,实现了基于非平行语料的语音转换,无需收集平行语料,提高了语音转换的效率;并且,输入至语音转换声学模型的源频谱特征向量是根据源梅尔谱获取的,语音转换声学模型无需进行对齐预测,语音转换声学模型输出的目标梅尔谱与源梅尔谱严格时间对齐,提高了语音转换的效率;并且,实现了基于非平行语料生成平行语料,实现了数据增强。实现了数据增强。实现了数据增强。

【技术实现步骤摘要】
语音转换方法、装置、电子设备及存储介质


[0001]本申请涉及语音合成
,具体涉及一种语音转换方法、装置、电子设备及存储介质。

技术介绍

[0002]语音转换指的是:将源说话人说话的音色转化为另一个目标说话人的音色,同时保持源说话人说话的文本内容不变。随着互联网技术的发展,语音转换已逐渐应用于电子游戏,视频直播,短视频应用等领域。
[0003]现有技术的语音转换一般基于平行语料,即不同的说话人需要录制相同文本的语音,并且需要手动的或使用DTW(Dynamic Time Warping,动态时间归整)算法等技术对音频进行时间对齐。由于平行语料的收集难度高,并且需要进行时间对齐,现有技术中基于平行语料的方式不利于语音转换效率的提高。

技术实现思路

[0004]本申请的目的在于提供一种语音转换方法、装置、电子设备及存储介质,以解决现有技术中不利于语音转换效率提高的技术问题。
[0005]本申请的技术方案如下:提供一种语音转换方法,包括:
[0006]根据文本序列以及第一说话人的说话人特征获取融合特征向量;
[0007]根据第二说话人的源梅尔谱获取源频谱特征向量;
[0008]将所述融合特征向量和所述源频谱特征向量输入至预先训练好的语音转换声学模型中,输出所述第一说话人的目标梅尔谱,其中,所述语音转换声学模型是根据样本融合特征向量和样本频谱特征向量进行训练得到的,所述样本融合特征向量是根据样本文本序列和样本说话人特征获取的,所述样本文本序列、所述样本说话人特征以及所述样本频谱特征向量是根据同一个真实语音数据获取的;
[0009]根据所述目标梅尔谱获取目标语音数据。
[0010]作为一种实施方式,所述根据文本序列以及第一说话人的说话人特征获取融合特征向量,包括:
[0011]将文本序列和第一说话人的说话人特征进行拼接,得到拼接特征向量;
[0012]将所述拼接特征向量输入至第一神经网络中,输出所述融合特征向量。
[0013]作为一种实施方式,所述将所述融合特征向量和所述源频谱特征向量输入至预先训练好的语音转换声学模型中,输出所述第一说话人的目标梅尔谱,包括:
[0014]根据所述融合特征向量和所述源频谱特征向量获取第一对齐矩阵;
[0015]根据所述第一对齐矩阵和所述融合特征向量的索引向量获取索引映射向量;
[0016]根据所述索引映射向量和所述融合特征向量的索引向量获取第二对齐矩阵;
[0017]根据所述第二对齐矩阵和所述融合特征向量获取融合特征对齐向量。
[0018]作为一种实施方式,所述语音转换声学模型的训练步骤包括:
[0019]根据真实语音数据分别获取对应的样本文本序列、样本说话人特征以及样本源梅尔谱;
[0020]根据所述样本文本序列以及所述样本说话人特征获取样本融合特征向量,根据样本源梅尔谱获取样本频谱特征向量;
[0021]将所述样本融合特征向量和所述样本频谱特征向量输入至待训练的语音转换声学模型中,输出样本目标梅尔谱;
[0022]根据所述样本源梅尔谱和所述样本目标梅尔谱计算转换误差,根据所述转换误差对所述语音转换声学模型的参数进行调整,直至所述语音转换声学模型达到训练收敛条件。
[0023]作为一种实施方式,所述语音转换声学模型的损失函数为:作为一种实施方式,所述语音转换声学模型的损失函数为:其中,为损失值,为第i个样本目标梅尔谱,mel
i
为第i个样本源梅尔谱,N为样本数量。
[0024]作为一种实施方式,所述根据所述目标梅尔谱获取目标语音数据,包括:
[0025]将所述目标梅尔谱输入至语音生成器,输出对应的目标语音数据;
[0026]所述语音生成器的训练步骤包括:
[0027]获取至少一个训练样本,所述训练样本包括真实语音数据以及从所述真实语音数据提取的梅尔谱;
[0028]将所述梅尔谱输入至梅尔谱编码器,输出所述梅尔谱的频谱特征数据;
[0029]将所述频谱特征数据输入至所述语音生成器,输出目标语音数据;
[0030]根据所述真实语音数据和所述目标语音数据计算生成误差,根据所述生成误差对所述语音生成器的参数进行调整,直至所述语音生成器达到训练收敛条件。
[0031]作为一种实施方式,所述根据文本序列以及第一说话人的说话人特征获取融合特征向量之前,还包括:
[0032]对第二说话人的源语音数据进行语音识别,得到对应的文本内容,获取所述文本内容的文本序列;
[0033]根据所述源语音数据获取所述第二说话人的源梅尔谱;
[0034]从第一说话人的第二语音数据中提取说话人特征,作为所述第一说话人的说话人特征。
[0035]本申请的另一技术方案如下:提供一种语音转换装置,包括:
[0036]特征融合模块,用于根据文本序列以及第一说话人的说话人特征获取融合特征向量;
[0037]频谱编码模块,用于根据第二说话人的源梅尔谱获取源频谱特征向量;
[0038]语音转换模块,用于将所述融合特征向量和所述源频谱特征向量输入至预先训练好的语音转换声学模型中,输出所述第一说话人的目标梅尔谱,其中,所述语音转换声学模型是根据样本融合特征向量和样本频谱特征向量进行训练得到的,所述样本融合特征向量是根据样本文本序列和样本说话人特征获取的,所述样本文本序列、所述样本说话人特征以及所述样本频谱特征向量是根据同一个真实语音数据获取的;
[0039]语音获取模块,用于根据所述目标梅尔谱获取目标语音数据。
[0040]本申请的另一技术方案如下:提供一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现上述的语音转换方法。
[0041]本申请的另一技术方案如下:提供一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现上述的语音转换方法。
[0042]本申请的语音转换方法、装置、电子设备及存储介质中,根据文本序列以及第一说话人的说话人特征获取融合特征向量;根据第二说话人的源梅尔谱获取源频谱特征向量;将所述融合特征向量和所述源频谱特征向量输入至预先训练好的语音转换声学模型中,输出所述第一说话人的目标梅尔谱,其中,所述语音转换声学模型是根据样本融合特征向量和样本频谱特征向量进行训练得到的,所述样本融合特征向量是根据样本文本序列和样本说话人特征获取的,所述样本文本序列、所述样本说话人特征以及所述样本频谱特征向量是根据同一个真实语音数据获取的;根据所述目标梅尔谱获取目标语音数据;通过上述方式,实现了基于非平行语料的语音转换,无需收集平行语料,提高了语音转换的效率;并且,输入至语音转换声学模型的源频谱特征向量是根据源梅尔谱获取的,语音转换声学模型无需进行对齐预测,语音转换声学模型输出的目标梅尔谱与源梅尔谱严格时间对齐,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法,其特征在于,包括:根据文本序列以及第一说话人的说话人特征获取融合特征向量;根据第二说话人的源梅尔谱获取源频谱特征向量;将所述融合特征向量和所述源频谱特征向量输入至预先训练好的语音转换声学模型中,输出所述第一说话人的目标梅尔谱,其中,所述语音转换声学模型是根据样本融合特征向量和样本频谱特征向量进行训练得到的,所述样本融合特征向量是根据样本文本序列和样本说话人特征获取的,所述样本文本序列、所述样本说话人特征以及所述样本频谱特征向量是根据同一个真实语音数据获取的;根据所述目标梅尔谱获取目标语音数据。2.根据权利要求1所述的语音转换方法,其特征在于,所述根据文本序列以及第一说话人的说话人特征获取融合特征向量,包括:将文本序列和第一说话人的说话人特征进行拼接,得到拼接特征向量;将所述拼接特征向量输入至第一神经网络中,输出所述融合特征向量。3.根据权利要求1所述的语音转换方法,其特征在于,所述将所述融合特征向量和所述源频谱特征向量输入至预先训练好的语音转换声学模型中,输出所述第一说话人的目标梅尔谱,包括:根据所述融合特征向量和所述源频谱特征向量获取第一对齐矩阵;根据所述第一对齐矩阵和所述融合特征向量的索引向量获取索引映射向量;根据所述索引映射向量和所述融合特征向量的索引向量获取第二对齐矩阵;根据所述第二对齐矩阵和所述融合特征向量获取融合特征对齐向量。4.根据权利要求3所述的语音转换方法,其特征在于,所述语音转换声学模型的训练步骤包括:根据真实语音数据分别获取对应的样本文本序列、样本说话人特征以及样本源梅尔谱;根据所述样本文本序列以及所述样本说话人特征获取样本融合特征向量,根据样本源梅尔谱获取样本频谱特征向量;将所述样本融合特征向量和所述样本频谱特征向量输入至待训练的语音转换声学模型中,输出样本目标梅尔谱;根据所述样本源梅尔谱和所述样本目标梅尔谱计算转换误差,根据所述转换误差对所述语音转换声学模型的参数进行调整,直至所述语音转换声学模型达到训练收敛条件。5.根据权利要求4所述的语音转换方法,其特征在于,所述语音转换声学模型的损失函数为:其中,为损失值,为第i个样本目标梅尔谱,mel
i
为第i个...

【专利技术属性】
技术研发人员:朱清影缪陈峰陈婷马骏王少军肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1