语音信号生成方法和装置制造方法及图纸

技术编号:18257974 阅读:29 留言:0更新日期:2018-06-20 09:15
本申请实施例公开了语音信号生成方法和装置。该方法的一具体实施方式包括:获取待转换为语音信号的合成文本;采用已训练的参数合成模型对合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,声学特征包括基频信息和频谱特征;将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出合成文本对应的语音信号;语音信号生成模型是基于参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从第一样本语音信号中提取出的基频信息训练得出的;参数合成模型是基于第二样本语音库训练得出的。该实施方式提升了合成语音的质量。

Speech signal generation method and device

The application embodiment discloses a voice signal generation method and device. The method includes: obtaining the synthetic text to be converted to voice signal; using the trained parameter synthesis model to predict the acoustic characteristics of the speech signal corresponding to the synthetic text and the state of the States contained in each speech state. The acoustic features include the basic frequency information and the spectrum characteristics; The measured acoustic characteristics and state time information input the trained speech signal generation model to output the speech signal corresponding to the synthetic text, and the speech signal generation model is based on the state length information and the first sample of each speech state contained in the first sample speech signal of the first sample speech library. The prediction results of the spectral features of the speech signal and the basic frequency information extracted from the first sample speech signal are trained. The parameter synthesis model is based on the second sample speech library. This implementation improves the quality of synthetic speech.

【技术实现步骤摘要】
语音信号生成方法和装置
本申请实施例涉及计算机
,具体涉及语音
,尤其涉及语音信号生成方法和装置。
技术介绍
人工智能(ArtificialIntelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式·做出反应的智能机器,该领域的研究包括机器人、语音识别、语音合成、图像识别、自然语言处理和专家系统等。其中,语音合成技术是计算机科学领域与人工智能领域中的一个重要方向。语音合成的目的实现从文本到语音,是将计算机合成的、或者外部输入的文本转变为口语输出的技术,具体是将文本转换为对应的语音信号波形的技术。在语音合成过程中,需要采用声码器对语音信号的波形建模。通常声码器训练时采用从自然语音中提取的声学特征作为条件信息,模拟出满足自然语音的声学特征的语音信号波形。
技术实现思路
本申请实施例提出了语音信号生成方法和装置。第一方面,本申请实施例提供了一种语音信号生成方法,包括:获取待转换为语音信号的合成文本;采用已训练的参数合成模型对合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,声学特征包括基频信息和频谱特征;将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出合成文本对应的语音信号;其中,语音信号生成模型是基于参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从第一样本语音信号中提取出的基频信息训练得出的;参数合成模型是基于第二样本语音库训练得出的,第二样本语音库包括多条第二样本语音信号、各第二样本语音信号对应的文本、各第二样本语音信号对应的声学特征的标记结果以及各第二样本语音信号所包含的各语音状态的状态时长信息的标记结果。在一些实施例中,上述方法还包括:基于第一样本语音库,采用机器学习方法训练语音信号生成模型,其中,第一样本语音库包括多条第一样本语音信号以及各第一样本语音信号对应的文本;基于第一样本语音库,采用机器学习方法训练语音信号生成模型,包括:将第一样本语音库中的各第一样本语音信号对应的文本输入已训练的参数合成模型,以对第一样本语音库中的各第一样本语音信号的频谱特征、以及各第一样本语音信号所包含的语音状态的状态时长信息进行预测;获取对第一样本语音信号进行基频提取得到的基频信息;将第一样本语音信号的基频信息、预测出的第一样本语音信号的频谱特征、预测出的第一样本语音信号所包含的各语音状态的状态时长信息作为条件信息,将条件信息输入待训练的语音信号生成模型,生成满足条件信息的目标语音信号;根据目标语音信号与对应的第一样本语音信号之间的差异,迭代调整语音信号生成模型的参数,以使目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件。在一些实施例中,上述根据目标语音信号与对应的第一样本语音信号之间的差异,迭代调整语音信号生成模型的参数,以使目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件,包括:基于目标语音信号与对应的第一样本语音信号之间的差异构建回归损失函数;计算回归损失函数的值是否小于预设的阈值;若否,计算语音信号生成模型中各个参数相对于回归损失函数的梯度,采用反向传播算法迭代更新语音信号生成模型的参数,以使回归损失函数的值小于预设的阈值。在一些实施例中,上述方法还包括:基于第二样本语音库,采用机器学习方法训练参数合成模型,包括:获取第二样本语音库中的第二样本语音的声学特征的标记结果和第二样本语音信号所包含的各语音状态的状态时长信息的标记结果;将第二样本语音库中的第二样本语音信号对应的文本输入待训练的参数合成模型,以对第二样本语音信号的声学特征和第二样本语音信号所包含的各语音状态的状态时长信息进行预测;根据第二样本语音库中所包含的第二样本语音信号的声学特征和第二样本语音信号所包含的语音状态的状态时长信息的标记结果与参数合成模型对第二样本语音信号的声学特征和所包含的语音状态的状态时长信息的预测结果之间的差异,迭代调整待训练的参数合成模型的参数,以使第二样本语音库中所包含的第二样本语音信号的声学特征和第二样本语音信号所包含的语音状态的状态信息的标记结果与参数合成模型对第二样本语音信号的声学特征和所包含的语音状态的状态时长信息的预测结果之间的差异满足预设的第二收敛条件。在一些实施例中,上述第二样本语音库中的第二样本语音信号的声学特征和第二样本语音信号所包含的各语音状态的状态时长信息是按照如下方式标记的:利用隐马尔可夫模型对第二样本语音库中的第二样本语音信号进行语音状态切分,得到第二样本语音信号所包含的各语音状态的状态时长信息的标记结果;提取第二样本语音信号的基频信息和频谱特征,作为第二样本语音信号的基频信息和频谱特征的标记结果。第二方面,本申请实施例提供了一种语音信号生成装置,包括:获取单元,用于获取待转换为语音信号的合成文本;预测单元,用于采用已训练的参数合成模型对合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,声学特征包括基频信息和频谱特征;生成单元,用于将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出合成文本对应的语音信号;其中,语音信号生成模型是基于参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从第一样本语音信号中提取出的基频信息训练得出的;参数合成模型是基于第二样本语音库训练得出的,第二样本语音库包括多条第二样本语音信号、各第二样本语音信号对应的文本、各第二样本语音信号对应的声学特征的标记结果以及各第二样本语音信号所包含的各语音状态的状态时长信息的标记结果。在一些实施例中,上述装置还包括:第一训练单元,用于基于第一样本语音库,采用机器学习方法训练语音信号生成模型,其中,第一样本语音库包括多条第一样本语音信号以及各第一样本语音信号对应的文本;第一训练单元用于按照如下方式训练语音信号生成模型:将第一样本语音库中的各第一样本语音信号对应的文本输入已训练的参数合成模型,以对第一样本语音库中的各第一样本语音信号的频谱特征、以及各第一样本语音信号所包含的语音状态的状态时长信息进行预测;获取对第一样本语音信号进行基频提取得到的基频信息;将第一样本语音信号的基频信息、预测出的第一样本语音信号的频谱特征、预测出的第一样本语音信号所包含的各语音状态的状态时长信息作为条件信息,将条件信息输入待训练的语音信号生成模型,生成满足条件信息的目标语音信号;根据目标语音信号与对应的第一样本语音信号之间的差异,迭代调整语音信号生成模型的参数,以使目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件。在一些实施例中,上述第一训练单元用于按照如下方式迭代调整语音信号生成模型的参数,以使目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件:基于目标语音信号与对应的第一样本语音信号之间的差异构建回归损失函数;计算回归损失函数的值是否小于预设的阈值;若否,计算语音信号生成模型中各本文档来自技高网...
语音信号生成方法和装置

【技术保护点】
1.一种语音信号生成方法,包括:获取待转换为语音信号的合成文本;采用已训练的参数合成模型对所述合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,所述声学特征包括基频信息和频谱特征;将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出所述合成文本对应的语音信号;其中,所述语音信号生成模型是基于所述参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从所述第一样本语音信号中提取出的基频信息训练得出的;所述参数合成模型是基于第二样本语音库训练得出的,所述第二样本语音库包括多条第二样本语音信号、各第二样本语音信号对应的文本、各第二样本语音信号对应的声学特征的标记结果以及各第二样本语音信号所包含的各语音状态的状态时长信息的标记结果。

【技术特征摘要】
1.一种语音信号生成方法,包括:获取待转换为语音信号的合成文本;采用已训练的参数合成模型对所述合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,所述声学特征包括基频信息和频谱特征;将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出所述合成文本对应的语音信号;其中,所述语音信号生成模型是基于所述参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从所述第一样本语音信号中提取出的基频信息训练得出的;所述参数合成模型是基于第二样本语音库训练得出的,所述第二样本语音库包括多条第二样本语音信号、各第二样本语音信号对应的文本、各第二样本语音信号对应的声学特征的标记结果以及各第二样本语音信号所包含的各语音状态的状态时长信息的标记结果。2.根据权利要求1所述的方法,其中,所述方法还包括:基于所述第一样本语音库,采用机器学习方法训练所述语音信号生成模型,其中,所述第一样本语音库包括多条第一样本语音信号以及各第一样本语音信号对应的文本;所述基于所述第一样本语音库,采用机器学习方法训练所述语音信号生成模型,包括:将所述第一样本语音库中的各第一样本语音信号对应的文本输入所述已训练的参数合成模型,以对所述第一样本语音库中的各第一样本语音信号的频谱特征、以及各第一样本语音信号所包含的语音状态的状态时长信息进行预测;获取对所述第一样本语音信号进行基频提取得到的基频信息;将所述第一样本语音信号的基频信息、预测出的所述第一样本语音信号的频谱特征、预测出的所述第一样本语音信号所包含的各语音状态的状态时长信息作为条件信息,将所述条件信息输入待训练的语音信号生成模型,生成满足条件信息的目标语音信号;根据所述目标语音信号与对应的第一样本语音信号之间的差异,迭代调整所述语音信号生成模型的参数,以使所述目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件。3.根据权利要求2所述的方法,其中,所述根据所述目标语音信号与对应的第一样本语音信号之间的差异,迭代调整所述语音信号生成模型的参数,以使所述目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件,包括:基于所述目标语音信号与对应的第一样本语音信号之间的差异构建回归损失函数;计算所述回归损失函数的值是否小于预设的阈值;若否,计算所述语音信号生成模型中各个参数相对于所述回归损失函数的梯度,采用反向传播算法迭代更新所述语音信号生成模型的参数,以使所述回归损失函数的值小于预设的阈值。4.根据权利要求1所述的方法,其中,所述方法还包括:基于所述第二样本语音库,采用机器学习方法训练所述参数合成模型,包括:获取所述第二样本语音库中的第二样本语音的声学特征的标记结果和第二样本语音信号所包含的各语音状态的状态时长信息的标记结果;将所述第二样本语音库中的第二样本语音信号对应的文本输入待训练的参数合成模型,以对所述第二样本语音信号的声学特征和第二样本语音信号所包含的各语音状态的状态时长信息进行预测;根据所述第二样本语音库中所包含的第二样本语音信号的声学特征和所述第二样本语音信号所包含的语音状态的状态时长信息的标记结果与所述参数合成模型对所述第二样本语音信号的声学特征和所包含的语音状态的状态时长信息的预测结果之间的差异,迭代调整所述待训练的参数合成模型的参数,以使所述第二样本语音库中所包含的第二样本语音信号的声学特征和所述第二样本语音信号所包含的语音状态的状态信息的标记结果与所述参数合成模型对所述第二样本语音信号的声学特征和所包含的语音状态的状态时长信息的预测结果之间的差异满足预设的第二收敛条件。5.根据权利1-4任一项所述的方法,其中,所述第二样本语音库中的第二样本语音信号的声学特征和第二样本语音信号所包含的各语音状态的状态时长信息是按照如下方式标记的:利用隐马尔可夫模型对所述第二样本语音库中的第二样本语音信号进行语音状态切分,得到所述第二样本语音信号所包含的各语音状态的状态时长信息的标记结果;提取第二样本语音信号的基频信息和频谱特征,作为所述第二样本语音信号的基频信息和频谱特征的标记结果。6.一种语音信号生成装置,包括:获取单元,用于获取待转换为语音信号的合成文本;预测单元,用于采用已训练的参数合成模型对所述合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行...

【专利技术属性】
技术研发人员:顾宇康永国
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1