基于半监督特征学习的语音转换方法技术

技术编号:32221500 阅读:23 留言:0更新日期:2022-02-09 17:26
本发明专利技术提供了一种基于半监督特征学习的语音转换方法。首先,利用开源语音包librosa对训练集中的语音数据进行预处理,得到扩展的声学特征段集合,并采用广义端到端损失编码器预先提取得到表示说话人身份信息的声学特征;然后,构建语音转换网络,包括变分自编码器、解码器和后置网络,并利用构建的数据集合对网络进行训练,其中,网络损失设置采用监督信息下的均方误差约束;最后,利用训练好的网络对待转换的源语音数据和目标语音数据进行处理,得到转换后的语音数据。本发明专利技术以变分自编码器结构为基础,引入半监督特征学习,能够准确提取到说话人身份信息,解决了在非并行语料数据下多说话人之间的语音转换问题,具有很好的泛化能力。力。力。

【技术实现步骤摘要】
基于半监督特征学习的语音转换方法


[0001]本专利技术属深度学习领域,具体涉及一种基于半监督特征学习的语音转换方法。

技术介绍

[0002]语音转换方法旨在实现将源说话人的音色转化为目标说话人的音色,同时保持源说话人的语言内容不变。语音转换系统最通用的做法是:仅提供一条目标说话人语音数据和一条源说话人语音数据,系统自动从源说话人数据提取语言内容,从目标说话人数据提取说话人嵌入(即说话人音色信息),将这两种信息重新结合生成新的目标语音。在语音转换中,如果数据来自于不同说话人,且语言内容不同,则这种数据属于非平行语料数据。因其成本低、易获取、贴近真实应用场景等特性,非平行语料数据在语音转换中得到广泛应用。目前,在非平行语料数据中,由于转换的目标说话人与源说话人之间语言内容不同,需要保持语言内容不变的同时,将源说话人音色转换为目标说话人的音色。因此利用非并行语料数据做转换时会面临两个挑战:首先,若在非并行语料数据集上建立模型,很难准确学习从源说话人到目标说话人的映射,导致语音转换效果不佳的问题;其次,对于多说话人之间的语音转换,如果参加测试的说话人语音数据从未出现在训练数据集中,则转换出的语音效果无论在自然度还是相似度方面都偏低。以上两点成为非并行语音转换亟待解决的问题。
[0003]为准确学习源说话人与目标说话人之间的映射关系,Takuhiro等人在文献“T.Kaneko and H.Kameoka,CycleGAN

VC:Non

parallel Voice Conversion Using Cycle

Consistent Adversarial Networks,European Signal Processing Conference(EUSIPCO),pp.2100

2104,2018.”中首次将CycleGAN(循环生成对抗网络)方法引入语音转换任务。循环生成对抗网络解决了源域与目标域难以映射的问题。该方法以对抗损失和循环一致性损失为准则,实现从源说话人到目标说话人的音色转换。
[0004]为实现任意说话人之间的语音转换,Chou等人在文献“Ju

chieh Chou,Cheng

chieh Yeh,and Hung

yi Lee,One

Shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization,in Proc.Interspeech,pp.664

668,2019.”中提出利用变自分编码器进行语音转换的方法。这种方法以均方误差为准则,利用变分自编码器结构,在输入端利用两个编码器通过无监督学习分别提取语音中的语言内容和说话人嵌入,并在输出端使用一个解码器,将语言内容和说话人嵌入进行结合,从而生成新的语音,即目标说话人语音。由于编码器通过训练学习到了分离语言内容与说话人嵌入信息的能力,若给定目标说话人语音数据与源说话人语音数据,内容编码器便可自动的从源说话人语音中提取语言内容表示,说话人编码器自动从目标语音中提取说话人嵌入表示,在解码器端,语言内容表示和说话人嵌入表示被结合为新的语音数据。这种方法可以扩展到多说话人之间的语音转换。
[0005]上述两种方法解决了非并行语音转换存在的部分问题,但仍存在局限性。第一种方法虽然可以准确地学习从源说话人到目标说话人的映射,但是通常只能做两个说话人之
间的语音转换,且训练过程复杂,容易出现梯度骤降为零的情况,无法拓展到多说话人之间的语音转换。第二种方法,尽管变分自编码器结构简单易于实现,但是其提取出的语言内容表示会包含少量说话人嵌入信息,最终导致语音转换的结果相似度不佳。

技术实现思路

[0006]为了克服现有技术的不足,本专利技术提供一种基于半监督特征学习的语音转换方法。首先,利用开源语音包librosa对训练集中的语音数据进行预处理,得到扩展的声学特征段集合,并采用广义端到端损失编码器预先提取得到表示说话人身份信息的声学特征;然后,构建语音转换网络,包括变分自编码器、解码器和后置网络,并利用构建的数据集合对网络进行训练,其中,网络损失设置采用监督信息下的均方误差约束;最后,利用训练好的网络对待转换的源语音数据和目标语音数据进行处理,得到转换后的语音数据。本专利技术以变分自编码器结构为基础,引入半监督特征学习,能够准确提取到说话人身份信息,解决了在非并行语料数据下多说话人之间的语音转换问题,具有很好的泛化能力。
[0007]一种基于半监督特征学习的语音转换方法,其特征在于步骤如下:
[0008]步骤1:利用开源语音包librosa对训练集中的每一条语音数据进行预处理,包括读入语音数据,对每一条语音数据进行预加重、加窗和分帧处理,对已分帧的语音数据的每一帧进行短时傅里叶变换,将其从时域信号转换为频域信号,再对转换为频域信号的语音数据进行筛选处理,得到符合长度的语音段,训练集中所有经过预处理的语音段构成声学特征段集合;
[0009]从训练集随机选取不超过半数的说话人,并将这些说话人的语音数据输入到广义端对端损失设计的编码器,提取得到表示说话人身份信息的声学特征;所述的编码器由长短期记忆网络层和线性层构成,长短期记忆网络层的输入、输出和隐藏层维度分别为80、256、256,线性层的输入、输出维度均为256,线性层的激活函数为ReLu函数,编码器采用端对端损失约束;
[0010]步骤2:构建语音转换网络,包括变分自编码器、解码器和后置网络,其中,变分自编码器包括说话人编码器和内容编码器两个分支,说话人编码器由两个单元大小为768的长短期记忆网络层组成,从输入的语音数据中提取得到说话人身份信息;内容编码器由3个5
×
1卷积层、2个单元大小为32的双向长短期记忆网络层和1个实例归一化层组成,从输入的语音数据中提取得到语音内容表示;解码器由3个5
×
1卷积层和3个单元维度为1024的长短期记忆网络层组成,将说话人编码器提取到的说话人身份信息和内容编码器提取到的语言内容表示输入到解码器,得到新的语音数据;后置网络由5个5
×
1的卷积层组成,对解码器的输出进行残差信号提取,提取到的信号与解码器的输出相加,得到重建后的语音数据;
[0011]所述的语音转换网络的损失函数设置如下:
[0012]L=L
con
+L
spe
+L
reco
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0013]其中,L表示网络总损失,L
con
表示内容编码器损失,L
spe
表示说话人身份信息损失,L
reco
表示自重建损失,分别按以下公式计算得到:
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督特征学习的语音转换方法,其特征在于步骤如下:步骤1:利用开源语音包librosa对训练集中的每一条语音数据进行预处理,包括读入语音数据,对每一条语音数据进行预加重、加窗和分帧处理,对已分帧的语音数据的每一帧进行短时傅里叶变换,将其从时域信号转换为频域信号,再对转换为频域信号的语音数据进行筛选处理,得到符合长度的语音段,训练集中所有经过预处理的语音段构成声学特征段集合;从训练集随机选取不超过半数的说话人,并将这些说话人的语音数据输入到广义端对端损失设计的编码器,提取得到表示说话人身份信息的声学特征;所述的编码器由长短期记忆网络层和线性层构成,长短期记忆网络层的输入、输出和隐藏层维度分别为80、256、256,线性层的输入、输出维度均为256,线性层的激活函数为ReLu函数,编码器采用端对端损失约束;步骤2:构建语音转换网络,包括变分自编码器、解码器和后置网络,其中,变分自编码器包括说话人编码器和内容编码器两个分支,说话人编码器由两个单元大小为768的长短期记忆网络层组成,从输入的语音数据中提取得到说话人身份信息;内容编码器由3个5
×
1卷积层、2个单元大小为32的双向长短期记忆网络层和1个实例归一化层组成,从输入的语音数据中提取得到语音内容表示;解码器由3个5
×
1卷积层和3个单元维度为1024的长短期记忆网络层组成,将说话人编码器提取到的说话人身份信息和内容编码器提取到的语言内容表示输入到解码器,得到新的语音数据;后置网络由5个5
×
1的卷积层组成,对解码器的输出进行残差信号提取,提取到的信号与解码器的输出相加,得到重建后的语音数据;所述的语音转换网络的损失函数设置如下:L=L
con
+L
spe
+L
reco
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,L表示网络总损失,L
con
表示内容编码器损失,L
spe
表示说话人身份信息损失,L
reco
表示自重建损失...

【专利技术属性】
技术研发人员:李学龙张强陈穆林
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1