基于半监督特征学习的语音转换方法技术

技术编号：32221500 阅读：23 留言：0更新日期：2022-02-09 17:26

本发明专利技术提供了一种基于半监督特征学习的语音转换方法。首先，利用开源语音包librosa对训练集中的语音数据进行预处理，得到扩展的声学特征段集合，并采用广义端到端损失编码器预先提取得到表示说话人身份信息的声学特征；然后，构建语音转换网络，包括变分自编码器、解码器和后置网络，并利用构建的数据集合对网络进行训练，其中，网络损失设置采用监督信息下的均方误差约束；最后，利用训练好的网络对待转换的源语音数据和目标语音数据进行处理，得到转换后的语音数据。本发明专利技术以变分自编码器结构为基础，引入半监督特征学习，能够准确提取到说话人身份信息，解决了在非并行语料数据下多说话人之间的语音转换问题，具有很好的泛化能力。力。力。

全部详细技术资料下载

【技术实现步骤摘要】
基于半监督特征学习的语音转换方法

[0001]本专利技术属深度学习领域，具体涉及一种基于半监督特征学习的语音转换方法。

技术介绍

[0002]语音转换方法旨在实现将源说话人的音色转化为目标说话人的音色，同时保持源说话人的语言内容不变。语音转换系统最通用的做法是：仅提供一条目标说话人语音数据和一条源说话人语音数据，系统自动从源说话人数据提取语言内容，从目标说话人数据提取说话人嵌入(即说话人音色信息)，将这两种信息重新结合生成新的目标语音。在语音转换中，如果数据来自于不同说话人，且语言内容不同，则这种数据属于非平行语料数据。因其成本低、易获取、贴近真实应用场景等特性，非平行语料数据在语音转换中得到广泛应用。目前，在非平行语料数据中，由于转换的目标说话人与源说话人之间语言内容不同，需要保持语言内容不变的同时，将源说话人音色转换为目标说话人的音色。因此利用非并行语料数据做转换时会面临两个挑战：首先，若在非并行语料数据集上建立模型，很难准确学习从源说话人到目标说话人的映射，导致语音转换效果不佳的问题；其次，对于多说话人之间的语音转换，如果参加测试的说话人语音数据从未出现在训练数据集中，则转换出的语音效果无论在自然度还是相似度方面都偏低。以上两点成为非并行语音转换亟待解决的问题。
[0003]为准确学习源说话人与目标说话人之间的映射关系，Takuhiro等人在文献“T.Kaneko and H.Kameoka,CycleGAN
‑
VC:Non
‑
parallel Voice Conve

【技术保护点】

【技术特征摘要】
1.一种基于半监督特征学习的语音转换方法，其特征在于步骤如下：步骤1：利用开源语音包librosa对训练集中的每一条语音数据进行预处理，包括读入语音数据，对每一条语音数据进行预加重、加窗和分帧处理，对已分帧的语音数据的每一帧进行短时傅里叶变换，将其从时域信号转换为频域信号，再对转换为频域信号的语音数据进行筛选处理，得到符合长度的语音段，训练集中所有经过预处理的语音段构成声学特征段集合；从训练集随机选取不超过半数的说话人，并将这些说话人的语音数据输入到广义端对端损失设计的编码器，提取得到表示说话人身份信息的声学特征；所述的编码器由长短期记忆网络层和线性层构成，长短期记忆网络层的输入、输出和隐藏层维度分别为80、256、256，线性层的输入、输出维度均为256，线性层的激活函数为ReLu函数，编码器采用端对端损失约束；步骤2：构建语音转换网络，包括变分自编码器、解码器和后置网络，其中，变分自编码器包括说话人编码器和内容编码器两个分支，说话人编码器由两个单元大小为768的长短期记忆网络层组成，从输入的语音数据中提取得到说话人身份信息；内容编码器由3个5
×
1卷积层、2个单元大小为32的双向长短期记忆网络层和1个实例归一化层组成，从输入的语音数据中提取得到语音内容表示；解码器由3个5
×
1卷积层和3个单元维度为1024的长短期记忆网络层组成，将说话人编码器提取到的说话人身份信息和内容编码器提取到的语言内容表示输入到解码器，得到新的语音数据；后置网络由5个5
×
1的卷积层组成，对解码器的输出进行残差信号提取，提取到的信号与解码器的输出相加，得到重建后的语音数据；所述的语音转换网络的损失函数设置如下：L＝L
con
+L
spe
+L
reco
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中，L表示网络总损失，L
con
表示内容编码器损失，L
spe
表示说话人身份信息损失，L
reco
表示自重建损失...

【专利技术属性】
技术研发人员：李学龙，张强，陈穆林，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人