文本朗读风格生成模型的训练方法、风格生成方法和设备技术

技术编号:38829303 阅读:23 留言:0更新日期:2023-09-15 20:08
本申请涉及文本朗读风格生成模型的训练方法、风格生成方法、设备和介质,能使文本朗读风格信息与说话人风格解耦,提升语音表现力。包括:根据多个音频句样本及对应的多个句文本样本,获取多个音频句样本对应的多个音频特征和平均说话人朗读特征,将多个句文本样本输入文本编码器,得到多个第一文本朗读风格预测信息,将多个音频特征和平均说话人朗读特征输入音频编码器,得到多个第二文本朗读风格预测信息,基于第一、第二预测信息训练编码器,对应的第一与第二预测信息的相似度大于或等于第一阈值且不对应的第一与第二预测信息的相似度小于第二阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。文本朗读风格生成模型。文本朗读风格生成模型。

【技术实现步骤摘要】
文本朗读风格生成模型的训练方法、风格生成方法和设备


[0001]本申请涉及人工智能及音频
,特别是涉及一种文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质。

技术介绍

[0002]随着人工智能及音频技术的发展,出现了获取文本朗读风格信息的相关技术,文本朗读风格在整体上可以包括高兴、生气、悲伤、惊讶、害怕、厌恶等情感类别及各情感类别对应的情感强度,文本朗读风格信息可用于提升语音合成系统的语音表现力。
[0003]在目前技术中提供的用于获取文本朗读风格信息的相关方法中,需要以特定说话人在录音棚录制的音频数据为基础进行模型训练及文本朗读风格信息预测,其存在文本朗读风格受限于特定说话人而影响语音合成系统的语音表现力的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质。
[0005]第一方面,本申请提供了一种文本朗读风格生成模型的训练方法。所述方法包括:
[0006]获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;
[0007]获取所述多个文本朗读音频句样本的多个音频特征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;
[0008]将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;
[0009]将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;
[0010]基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。
[0011]在其中一个实施例中,所述获取多个文本朗读音频句样本及多个句文本样本,包括:
[0012]获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本;根据所述多个文本朗读音频句样本以及所述对应的文本数据,获取每个所述文本朗读音频句样本对应的句文本样本。
[0013]在其中一个实施例中,所述根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据所述音量均衡处理后的文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本。
[0014]在其中一个实施例中,所述获取多个文本朗读音频句样本及多个句文本样本,包括:获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述对应的文本数据,获取多个句文本样本;根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本。
[0015]在其中一个实施例中,所述根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据所述多个句文本样本以及所述音量均衡处理后的文本朗读音频数据,获取所述多个文本朗读音频句样本。
[0016]在其中一个实施例中,所述获取文本朗读音频数据,包括:获取来自所述文本朗读音频发布平台的原始文本朗读音频数据;确定所述原始文本朗读音频数据的语种分布信息、说话人特性信息和伴奏信息;若根据所述语种分布信息判断所述原始文本朗读音频数据满足预设的语种分布条件,且根据所述说话人特性信息判断所述原始文本朗读音频数据满足预设的说话人条件,以及根据所述伴奏信息确定所述原始文本朗读音频数据满足预设的伴奏条件,则将所述原始文本朗读音频数据确定为所述文本朗读音频数据。
[0017]在其中一个实施例中,所述获取所述多个文本朗读音频句样本的平均说话人朗读特征,包括:根据所述多个文本朗读音频句样本的平均基频和/或平均语速,得到所述多个文本朗读音频句样本的平均说话人朗读特征;其中所述平均基频由所述多个文本朗读音频句样本的多个基频序列进行平均处理后得到,所述平均语速由所述多个文本朗读音频句样本对应的朗读总时长及所述多个句文本样本对应的文本总字数得到。
[0018]在其中一个实施例中,所述将所述多个句文本样本输入待训练的文本编码器,包括:针对所述多个句文本样本中的每一句文本样本,按照第一预设比例对句文本样本中的文本内容进行掩模处理,得到多个掩模处理后的句文本样本;将所述多个掩模处理后的句文本样本输入待训练的文本编码器;和/或,所述将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,包括:针对所述多个音频特征中的每一音频特征,按照第二预设比例对音频特征中的特征内容进行掩模处理,得到多个掩模处理后的音频特征;将所述多个文本朗读音频句样本的多个掩模处理后的音频特征以及所述平均说话人朗读特征输入待训练的音频编码器。
[0019]第二方面,本申请提供了一种文本朗读风格生成方法。所述方法包括:获取待朗读的文本;将所述待朗读的文本输入经训练的文本朗读风格生成模型;所述经训练的文本朗读风格生成模型根据如上任一实施例所述的方法训练得到;获取所述经训练的文本朗读风格生成模型输出的所述待朗读的文本对应的文本朗读风格信息。
[0020]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0021]获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;获取所述多个文本朗读音频句样本的多个音频特
征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本朗读风格生成模型的训练方法,其特征在于,所述方法包括:获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;获取所述多个文本朗读音频句样本的多个音频特征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。2.根据权利要求1所述的方法,其特征在于,所述获取多个文本朗读音频句样本及多个句文本样本,包括:获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本;根据所述多个文本朗读音频句样本以及所述对应的文本数据,获取每个所述文本朗读音频句样本对应的句文本样本。3.根据权利要求2所述的方法,其特征在于,所述根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据所述音量均衡处理后的文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本。4.根据权利要求1所述的方法,其特征在于,所述获取多个文本朗读音频句样本及多个句文本样本,包括:获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述对应的文本数据,获取多个句文本样本;根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本。5.根据权利要求4所述的方法,其特征在于,所述根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数
据;根据所述多个句文本样本...

【专利技术属性】
技术研发人员:庄晓滨
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1