一种实时语音转换方法和装置制造方法及图纸

技术编号：13917412 阅读：50 留言：0更新日期：2016-10-27 15:39

本发明专利技术提供了一种实时语音转换方法，所述方法包括：根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数，其中，所述特征信息包括基频数据和共振峰数据；根据所述神经网络参数，对待转换的语音数据实时进行转换。本发明专利技术可以在语音转换过程中不断学习和优化，通过录制少量数据即可实现对目标语音的转换，并且转换韵律一致，不容易出错。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音转换领域，尤其涉及一种实时语音转换方法和装置。
技术介绍
近年来，语音变调和语音转换技术越来越多的受到人们的关注。出于隐私、安全或者娱乐等方面的考虑，越来越多的语音转换类应用得到了普及。目前，简单的语音变调，如：男人语音变成女人语音、老人语音变小孩语音等技术已经比较成熟。常用的方法是在时域内，先对信号进行变长不变调的拼接处理，之后再进行变长又变调的重采样操作，最后实现变调不变长的语音转换。但这种转换只能得到某一种不同频率的声音，无法针对特定目标得到音色相似的转换结果。针对具体目标的语调变换被称为语音转换技术，目前的语音转换技术主要分为模型训练法和基于语义的语音合成技术。其中：模型训练法要求对目标人物和说话者语音进行平行建库，训练对语音特征的映射模型。这种算法需要用户录制大量指定语音数据，根据录制的指定语音数据配合训练，操作较为麻烦，使得该方法难以产品化；基于语义的语音合成技术，需要先对说话者语音进行语音识别，根据识别结果进行语音合成，合成的语音与说话者语音的韵律可能不一致，如果语音识别错误，则会导致语音转换出错。
技术实现思路
本专利技术的目的在于提供一种实时语音转换方法，以解决现有技术在针对特定目标语音进行语音转换时，采用模型训练法需要录制大量的语音数据，操作较为麻烦，方法难以产品化，或者采用基于语义的合成技术，导致说话者语音与合成的语音的韵律可能不一致，或者容易出错的问题。第一方面，本专利技术实施例提供了一种实时语音转换方法，所述方法包括：根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参...

【技术保护点】
一种实时语音转换方法，其特征在于，所述方法包括：根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数，其中，所述特征信息包括基频数据和共振峰数据；根据所述神经网络参数，对待转换的语音数据实时进行转换。

【技术特征摘要】
1.一种实时语音转换方法，其特征在于，所述方法包括：根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数，其中，所述特征信息包括基频数据和共振峰数据；根据所述神经网络参数，对待转换的语音数据实时进行转换。2.根据权利要求1所述方法，其特征在于，所述根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数步骤包括：创建覆盖有多个音素的目标语音的数据库，并接收由输入包括唤醒词的用户语音；对所述目标语音和用户语音进行分帧，计算每帧目标语音和用户语音对应的基频数据和共振峰数据；将分帧后的所述目标语音和用户语音按帧进行对齐；将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练，得到映射后的神经网络参数。3.根据权利要求2所述方法，其特征在于，所述计算每帧目标语音和用户语音对应的基频数据和共振峰数据步骤包括：对目标语音和用户语音的语音信号x(n)进行LPC预测，得到LPC传递函数系数根据所述LPC传递函数系数以及语音信号x(n)得到残差信号；其中，p为LPC线性预测滤波器阶数，ai为：LPC滤波器系数；对所述残差信号进行离散傅立页变换后的绝对值取自然对数，然后进行离散傅立页逆变换，得到残差信号的倒谱，在预定的采样频率下找到所述倒谱的极大值作为所述基频的周期；根据所述LPC传递函数系数求解方程的根共振峰的频率为：Fi＝θi/(2πT)，带宽为：Bi＝-lnri/(πT)，其中：求出任意根为T为采样周期，θi为求解结果中对应的θi，ri为求解结果中对应的ri。4.根据权利要求2所述方法，其特征在于，所述将分帧后的所述目标语音和用户语音按帧进行对齐步骤包括：生成目标语音数据库的目标语音与用户语音的各帧之间的特征矩阵，计算矩阵中每一帧用户语音与每一帧目标语音的欧氏距离；选择用户语音到目标语音的特征的欧氏距...

【专利技术属性】
技术研发人员：李敬源，
申请(专利权)人：TCL集团股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人