当前位置: 首页 > 专利查询>广东顺德中山大学卡内基梅隆大学国际联合研究院专利>正文

一种基于深度神经网络音素信息的语音转换方法技术

技术编号：14828283 阅读：113 留言：0更新日期：2017-03-16 14:50

本发明专利技术公开一种基于深度神经网络音素信息的语音转换方法，包括：训练阶段：步骤101：获得一个目标说话人预料，分别提取PPP特征和频谱低维特征；步骤102：去除频谱低维特征0阶系数，直接拼接PPP特征和频谱低维特征；步骤103：将联合特征训练成一个JD‑GMM模型；步骤104：计算源说话人F0和目标说话人F0的均值和方差；转换阶段：步骤105：对源说话人新的语音提取同样配置的PPP特征；步骤106：输入到JD‑GMM模型，得到估算出来的目标低维特征；步骤107：计算目标说话人的F0，做一个向目标说话人靠近的线性变换；步骤108：利用估算的频谱，线性变换后的F0，该语音的原0阶系数，一起还原成语音。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及统计学实现的语音转换方法，更具体地，涉及一种基于深度神经网络音素信息的语音转换方法，主要在传统高斯混合模型GMM(GaussianMixtureModel，GMM)语音转换的基础上进行改进，利用深度神经网络(DeepNeuralNetwork，DNN)提取的音素信息和频谱低维特征实现非平行语料的转换。
技术介绍
语音转换是目前用来捕捉这些非语言特征并且利用它们合成特定人语音的一种有效方法。我们可以通过把语音分解成多个不同成分单独处理，能把一个人的声音变成另外一个人的声音。通常我们把前者称为源说话人，后者称为目标说话人。通过输入新的语音就可以达到合成特定人语音的目的，因此受到了各个领域的关注，并且被尝试运用到不同的方面去，例如医学辅助仪器，Text-To-Speech设备(TTS)，敏感通信，保护关键证人和工作人员不被报复等等。学术界中早期的语音转换技术研究大概源于上世纪90年代初，线性参数统计的映射方法是相对主流的语音转换方法，最后不少研究为了提高音频质量等原因，逐渐也往非线性和非统计参数方法发展了分支，但是大部分方法依然是依赖于相同语义内容的平行语音数据，得到的模型也是一对一的。Kain等人提出了联合分布混合高斯模型(Joint-densityGaussianMixtureModel，JD-GMM)是统计学方法中比较经典和有效的方法。但是这个方法也是基于一个平行的语料数据库来实现语音转换(即要提供源说话人和目标说话人都说了语义内容完全一致的录音数据集)，一方面这样的平行语料是非常难获得，实际应用中操作很不便利，数据量往往不足够，同时如果是...
一种基于深度神经网络音素信息的语音转换方法

【技术保护点】
一种基于深度神经网络音素信息的语音转换方法，其特征在于，包括：训练阶段：步骤101：获得一个目标说话人预料，分别提取PPP特征和频谱低维特征；步骤102：去除频谱低维特征0阶系数，直接拼接PPP特征和频谱低维特征；步骤103：将联合特征训练成一个JD‑GMM模型；步骤104：计算源说话人F0和目标说话人F0的均值和方差；转换阶段：步骤105：对源说话人新的语音提取同样配置的PPP特征；步骤106：输入到JD‑GMM模型，得到估算出来的目标低维特征；步骤107：计算目标说话人的F0，做一个向目标说话人靠近的线性变换；步骤108：利用估算的频谱，线性变换后的F0，该语音的原0阶系数，一起还原成语音。

【技术特征摘要】
1.一种基于深度神经网络音素信息的语音转换方法，其特征在于，包括：训练阶段：步骤101：获得一个目标说话人预料，分别提取PPP特征和频谱低维特征；步骤102：去除频谱低维特征0阶系数，直接拼接PPP特征和频谱低维特征；步骤103：将联合特征训练成一个JD-GMM模型；步骤104：计算源说话人F0和目标说话人F0的均值和方差；转换阶段：步骤105：对源说话人新的语音提取同样配置的PPP特征；步骤106：输入到JD-GMM模型，得到估算出来的目标低维特征；步骤107：计算目标说话人的F0，做一个向目标说话人靠近的线性变换；步骤108：利用估算的频谱，线性变换后的F0，该语音的原0阶系数，一起还原成语音。2.根据权利要求1所述的语音转换方法，其特征在于，PPP特征是基于深度神经网络DNN获取的，其获取过程为：深度神经网络DNN语音模型的训练：步骤201：获得一个语音数据集以及其对应的标注数据；步骤202：提取特征，根据标注信息训练给定配置的DN...

【专利技术属性】
技术研发人员：李明，郑桦迪，蔡炜城，
申请(专利权)人：广东顺德中山大学卡内基梅隆大学国际联合研究院，中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人