本发明专利技术提供了一种实时语音转换方法,所述方法包括:根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息,进行神经网络训练,得到神经网络参数,其中,所述特征信息包括基频数据和共振峰数据;根据所述神经网络参数,对待转换的语音数据实时进行转换。本发明专利技术可以在语音转换过程中不断学习和优化,通过录制少量数据即可实现对目标语音的转换,并且转换韵律一致,不容易出错。
【技术实现步骤摘要】
本专利技术属于语音转换领域,尤其涉及一种实时语音转换方法和装置。
技术介绍
近年来,语音变调和语音转换技术越来越多的受到人们的关注。出于隐私、安全或者娱乐等方面的考虑,越来越多的语音转换类应用得到了普及。目前,简单的语音变调,如:男人语音变成女人语音、老人语音变小孩语音等技术已经比较成熟。常用的方法是在时域内,先对信号进行变长不变调的拼接处理,之后再进行变长又变调的重采样操作,最后实现变调不变长的语音转换。但这种转换只能得到某一种不同频率的声音,无法针对特定目标得到音色相似的转换结果。针对具体目标的语调变换被称为语音转换技术,目前的语音转换技术主要分为模型训练法和基于语义的语音合成技术。其中:模型训练法要求对目标人物和说话者语音进行平行建库,训练对语音特征的映射模型。这种算法需要用户录制大量指定语音数据,根据录制的指定语音数据配合训练,操作较为麻烦,使得该方法难以产品化;基于语义的语音合成技术,需要先对说话者语音进行语音识别,根据识别结果进行语音合成,合成的语音与说话者语音的韵律可能不一致,如果语音识别错误,则会导致语音转换出错。
技术实现思路
本专利技术的目的在于提供一种实时语音转换方法,以解决现有技术在针对特定目标语音进行语音转换时,采用模型训练法需要录制大量的语音数据,操作较为麻烦,方法难以产品化,或者采用基于语义的合成技术,导致说话者语音与合成的语音的韵律可能不一致,或者容易出错的问题。第一方面,本专利技术实施例提供了一种实时语音转换方法,所述方法包括:根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息,进行神经网络训练,得到神经网络参数,其中,所述特征信息包括基频数据和共振峰数据;根据所述神经网络参数,对待转换的语音数据实时进行转换。结合第一方面,在第一方面的第一种可能实现方式中,所述根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息,进行神经网络训练,得到神经网络参数步骤包括:创建覆盖有多个音素的目标语音的数据库,并接收由输入包括唤醒词的用户语音;对所述目标语音和用户语音进行分帧,计算每帧目标语音和用户语音对应的基频数据和共振峰数据;将分帧后的所述目标语音和用户语音按帧进行对齐;将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练,得到映射后的神经网络参数。结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述计算每帧目标语音和用户语音对应的基频数据和共振峰数据步骤包括:对目标语音和用户语音的语音信号x(n)进行LPC预测,得到LPC传递函数系数根据所述LPC传递函数系数以及语音信号x(n)得到残差信号;其中,p为LPC线性预测滤波器阶数,ai为:LPC滤波器系数;对所述残差信号进行离散傅立页变换后的绝对值取自然对数,然后进行离散傅立页逆变换,得到残差信号的倒谱,在预定的采样频率下找到所述倒谱的极大值作为所述基频的周期;根据所述LPC传递函数系数求解方程的根共振峰的频率为:Fi=θi/(2πT),带宽为:Bi=-lnri/(πT),其中:求出任意根为T为采样周期,θi为求解结果中对应的θi,ri为求解结果中对应的ri。结合第一方面的第一种可能实现方式,在第一方面的第三种可能实现方式中,所述将分帧后的所述目标语音和用户语音按帧进行对齐步骤包括:生成目标语音数据库的目标语音与用户语音的各帧之间的特征矩阵,计算矩阵中每一帧用户语音与每一帧目标语音的欧氏距离;选择用户语音到目标语音的特征的欧氏距离之和最小的映射关系,确定每帧用户语音对应的目标语音。结合第一方面的第一种可能实现方式,在第一方面的第四种可能实现方式中,所述将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练,得到映射后的神经网络参数步骤包括:选择对齐的目标语音帧和用户语音帧的基频以及前三个共振峰的频率和带宽输入至神经网络进行训练得到神经网络的参数。结合第一方面的第一种可能实现方式,在第一方面的第五种可能实现方式中,所述目标语音库中的目标语音包括多个由声母、韵母和音调组合发音。结合第一方面,在第一方面的第六种可能实现方式中,所述方法还包括:接收用户输入的修正语音;根据预先设定的目标语音和修正语音提取特征信息,进行神经网络训练得到修正后的神经网络参数;根据修正后的神经网络参数,对待转换的语音数据实时进行转换。第二方面,本专利技术实施例提供了一种实时语音转换装置,所述装置包括:训练单元,用于根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息,进行神经网络训练,得到神经网络参数,其中,所述特征信息包括基频数据和共振峰数据;转换单元,用于根据所述神经网络参数,对待转换的语音数据实时进行转换。结合第二方面,在第二方面的第一种可能实现方式中,所述训练单元包括:数据接收子单元,用于创建覆盖有多个音素的目标语音的数据库,并接收由输入包括唤醒词的用户语音;计算子单元,用于对所述目标语音和用户语音进行分帧,计算每帧目标语音和用户语音对应的基频数据和共振峰数据;对齐子单元,用于将分帧后的所述目标语音和用户语音按帧进行对齐;训练子单元,用于将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练,得到映射后的神经网络参数。结合第二方面,在第二方面的第二种可能实现方式中,所述装置还包括:修正数据接收单元,用于接收用户输入的修正语音;修正训练单元,用于根据预先设定的目标语音和修正语音提取特征信息,进行神经网络训练得到修正后的神经网络参数;修正转换单元,用于根据修正后的神经网络参数,对待转换的语音数据实时进行转换。在本专利技术中,通过从预先设定目标语音和接收包括唤醒词的用户语音中提取特征信息,根据特征信息中的基频和共振峰数据进行神经网络训练,得到神经网络参数,从而可以根据所述神经网络参数对待转换的语音数据进行实时转换。由于用户可以在转换结果不满意时继续输入包括唤醒词的语音进行训练,从而本专利技术可以在语音转换过程中不断学习和优化,通过录制少量数据即可实现对目标语音的转换,并且转换韵律一致,不容易出错。附图说明图1是本专利技术第一实施例提供的实时语音转换方法的实现流程图;图2是本专利技术第二实施例提供的实时语音转换方法的实现流程图;图2a为本专利技术第二实施例提供的用户语音与目标语音的矩阵关系示意图;图3是本专利技术第三实施例提供的实时语音转换方法的实现流程图;图4是本专利技术第四实施例提供的实时语音转换装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例的目的在于提供一种针对目标语音进行实时语音转换的方法和装置,以解决现有技术中对目标语音进行转换时可能出现的转换麻烦或者韵律不一致等问题。比如,现有技术中如果采用现有的模型训练法,需要目标语音的人物与说话者建立平行的语音数据库,需要目标人物和说话者进行大量的语音数据配合训练,操作极为麻烦,而且不容易产品化的问题。以及现有技术中采用基于语义的语音合成技术中,需要先对用户语音进行语义解析,根据解析出的语义生成目标语音,这样可能会导致转换后的目标语音与说话者的语音的韵律不一致,而且一旦语音解析时出错,则会导致生成的目本文档来自技高网...
【技术保护点】
一种实时语音转换方法,其特征在于,所述方法包括:根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息,进行神经网络训练,得到神经网络参数,其中,所述特征信息包括基频数据和共振峰数据;根据所述神经网络参数,对待转换的语音数据实时进行转换。
【技术特征摘要】
1.一种实时语音转换方法,其特征在于,所述方法包括:根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息,进行神经网络训练,得到神经网络参数,其中,所述特征信息包括基频数据和共振峰数据;根据所述神经网络参数,对待转换的语音数据实时进行转换。2.根据权利要求1所述方法,其特征在于,所述根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息,进行神经网络训练,得到神经网络参数步骤包括:创建覆盖有多个音素的目标语音的数据库,并接收由输入包括唤醒词的用户语音;对所述目标语音和用户语音进行分帧,计算每帧目标语音和用户语音对应的基频数据和共振峰数据;将分帧后的所述目标语音和用户语音按帧进行对齐;将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练,得到映射后的神经网络参数。3.根据权利要求2所述方法,其特征在于,所述计算每帧目标语音和用户语音对应的基频数据和共振峰数据步骤包括:对目标语音和用户语音的语音信号x(n)进行LPC预测,得到LPC传递函数系数根据所述LPC传递函数系数以及语音信号x(n)得到残差信号;其中,p为LPC线性预测滤波器阶数,ai为:LPC滤波器系数;对所述残差信号进行离散傅立页变换后的绝对值取自然对数,然后进行离散傅立页逆变换,得到残差信号的倒谱,在预定的采样频率下找到所述倒谱的极大值作为所述基频的周期;根据所述LPC传递函数系数求解方程的根共振峰的频率为:Fi=θi/(2πT),带宽为:Bi=-lnri/(πT),其中:求出任意根为T为采样周期,θi为求解结果中对应的θi,ri为求解结果中对应的ri。4.根据权利要求2所述方法,其特征在于,所述将分帧后的所述目标语音和用户语音按帧进行对齐步骤包括:生成目标语音数据库的目标语音与用户语音的各帧之间的特征矩阵,计算矩阵中每一帧用户语音与每一帧目标语音的欧氏距离;选择用户语音到目标语音的特征的欧氏距...
【专利技术属性】
技术研发人员:李敬源,
申请(专利权)人:TCL集团股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。