声学特征转换及模型训练方法、装置、设备、介质制造方法及图纸

技术编号:30497008 阅读:10 留言:0更新日期:2021-10-27 22:28
本申请提供了一种声学特征转换及模型训练方法、装置、设备、介质,应用于人工智能领域;其中,所述声学特征转换方法包括:将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;待转换文本序列包括音韵特征信息;将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;第一声学特征用于合成待转换文本序列对应的音频数据。通过本申请提供的声学特征转换方法,能够生成质量较高的声学特征。能够生成质量较高的声学特征。能够生成质量较高的声学特征。

【技术实现步骤摘要】
声学特征转换及模型训练方法、装置、设备、介质


[0001]本申请涉及人工智能
,尤其涉及一种声学特征转换方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,该技术企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]语音合成技术通过一定的规则或模型算法将文本转换为对应的音频内容。传统的语音合成技术主要基于拼接方法或统计参数方法,可以实现文本到语音的特征转换。然而,传统的语音合成技术中文本到语音的特征转换方案得到的声学特征质量较低,无法满足应用场景需求。

技术实现思路

[0004]本申请实施例提供一种声学特征转换方法、装置、设备及计算机可读存储介质,能够生成质量较高的声学特征。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种声学特征转换方法,包括:将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;待转换文本序列包括音韵特征信息;将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;第一声学特征用于合成待转换文本序列对应的音频数据;其中,转换模型在训练过程中的损失函数与至少一个指导注意力网络对应的第一损失值相关;第一损失值用于表征指导注意力网络输出的指导注意力得分矩阵和基础注意力得分矩阵之间的距离。
[0007]在本申请的一些实施例中,所述将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵,包括:根据上一时间步的第二注意力状态、第二上下文向量和第二声学特征,确定当前时间步的第一注意力状态;根据文本表示序列、第一注意力状态和当前时间步的序列位置,确定基础注意力得分矩阵;根据基础注意力得分矩阵和文本表示序列,确定第一上下文向量。
[0008]在本申请的一些实施例中,所述文本表示序列包括多个序列位置对应的文本表示向量;所述根据基础注意力得分矩阵和文本表示序列,确定第一上下文向量,包括:根据基础注意力得分矩阵中每一序列位置对应的注意力权重,对每一序列位置对应的文本表示向
量进行加权求和,得到第一上下文向量。
[0009]在本申请的一些实施例中,所述将当前时间步的第一状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征,包括:获取上一时间步的第二解码器状态;将第二解码器状态、第一上下文向量和第一注意力状态输入至解码器网络,得到第一声学特征。
[0010]在本申请的一些实施例中,所述将第二解码器状态、第一上下文向量和第一注意力状态输入至解码器网络,得到第一声学特征,包括:根据第二解码器状态、第一上下文向量和第一注意力状态,确定第一解码器状态;基于预设的仿射函数,将第一解码器状态转换为第一声学特征。
[0011]在本申请的一些实施例中,所述方法还包括:将第一声学特征输入至转换模型的后处理网络,得到第一待转换特征;将第一待转换特征输入至预设的声码器,得到待转换文本序列对应的音频数据。
[0012]本申请实施例提供一种转换模型训练方法,包括:获取样本数据;样本数据包括样本文本序列;将样本文本序列输入至转换模型的编码器网络,得到样本表示序列;将样本表示序列输入至转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵;将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵;根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第一损失值;第一损失值用于表征指导注意力网络输出的样本指导得分矩阵和样本基础得分矩阵之间的距离;利用每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。
[0013]在本申请的一些实施例中,所述将样本表示序列输入至转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵,包括:根据上一时间步的第四注意力状态、第四上下文向量和第四声学特征,确定当前时间步的第三注意力状态;根据样本表示序列、第三注意力状态和当前时间步的序列位置,确定样本基础得分矩阵。
[0014]在本申请的一些实施例中,所述样本数据还包括样本文本序列对应的样本声学特征;所述方法还包括:根据样本基础得分矩阵和第三注意力状态,确定第三上下文向量;将第三注意力状态和第三上下文向量输入至转换模型的解码器网络,得到第三声学特征;第三声学特征用于合成样本文本序列对应的音频数据;根据第三声学特征和样本声学特征,确定第二损失值;所述利用每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型,包括:利用第二损失值,和每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。
[0015]在本申请的一些实施例中,在指导注意力网络为前向注意力网络的情况下,所述将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵,包括:基于当前时间步的样本基础得分矩阵和上一时间步的第二对齐参数,确定当前时间步的第一对齐参数;对第一对齐参数进行归一化,得到前向注意力网络输出的第一指导得分矩阵;所述根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第一损失值,包括:根据样本基础得分矩阵和第一指导得分矩阵确定前向注意力网络对应的第一损失值。
[0016]在本申请的一些实施例中,所述第一对齐参数包括每一序列位置对应的第一子参
数;所述基于当前时间步的基础注意力得分矩阵和上一时间步的第二对齐参数,确定当前时间步的第一对齐参数,包括:基于样本基础得分矩阵中每一序列位置对应的注意力权重和第二对齐参数中每一序列位置对应的第二子参数,确定当前时间步的每一序列位置对应的第一子参数。
[0017]在本申请的一些实施例中,在指导注意力网络为高斯注意力网络的情况下,所述将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵,包括:根据第三注意力状态,获取当前时间步的第一均值参数、第一方差参数和第一偏移参数;根据第一均值参数、第一方差参数和第一偏移参数确定混合高斯分布;基于混合高斯分布得到高斯注意力网络输出的第二指导得分矩阵;所述根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声学特征转换方法,其特征在于,包括:将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;所述待转换文本序列包括音韵特征信息;将所述文本表示序列输入至所述转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;将所述当前时间步的第一注意力状态和第一上下文向量输入至所述转换模型的解码器网络,得到第一声学特征;所述第一声学特征用于合成所述待转换文本序列对应的音频数据;其中,所述转换模型在训练过程中的损失函数与至少一个指导注意力网络对应的第一损失值相关;所述第一损失值用于表征所述指导注意力网络输出的指导注意力得分矩阵和所述基础注意力得分矩阵之间的距离。2.根据权利要求1所述的方法,其特征在于,所述将所述文本表示序列输入至所述转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵,包括:根据上一时间步的第二注意力状态、第二上下文向量和第二声学特征,确定所述当前时间步的第一注意力状态;根据所述文本表示序列、所述第一注意力状态和所述当前时间步的序列位置,确定所述基础注意力得分矩阵;根据所述基础注意力得分矩阵和所述文本表示序列,确定所述第一上下文向量。3.根据权利要求2所述的方法,其特征在于,所述文本表示序列包括多个序列位置对应的文本表示向量;所述根据所述基础注意力得分矩阵和所述文本表示序列,确定所述第一上下文向量,包括:根据所述基础注意力得分矩阵中每一所述序列位置对应的注意力权重,对每一所述序列位置对应的文本表示向量进行加权求和,得到所述第一上下文向量。4.根据权利要求3所述的方法,其特征在于,所述将所述当前时间步的第一状态和第一上下文向量输入至所述转换模型的解码器网络,得到第一声学特征,包括:获取所述上一时间步的第二解码器状态;将所述第二解码器状态、所述第一上下文向量和第一注意力状态输入至所述解码器网络,得到所述第一声学特征。5.根据权利要求4所述的方法,其特征在于,所述将所述第二解码器状态、所述第一上下文向量和第一注意力状态输入至所述解码器网络,得到所述第一声学特征,包括:根据所述第二解码器状态、所述第一上下文向量和第一注意力状态,确定第一解码器状态;基于预设的仿射函数,将所述第一解码器状态转换为所述第一声学特征。6.一种转换模型训练方法,其特征在于,包括:获取样本数据;所述样本数据包括样本文本序列;将所述样本文本序列输入至转换模型的编码器网络,得到样本表示序列;将所述样本表示序列输入至所述转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵;
将所述样本表示序列输入至所述转换模型的至少一个指导注意力网络,得到每一所述指导注意力网络输出的所述当前时间步的样本指导得分矩阵;根据所述样本基础得分矩阵和每一所述指导注意力网络输出的样本指导得分矩阵,确定每一所述指导注意力网络对应的第一损失值;所述第一损失值用于表征所述指导注意力网络输出的样本指导得分矩阵和所述样本基础得分矩阵之间的距离;利用每一所述指导注意力网络对应的第一损失值对所述转换模型的模型参数进行调整,以得到训练后的转换模型。7.根据权利要求6所述的方法,其特征在于,所述将所述样本表示序列输入至所述转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵,包括:根据上一时间步的第四注意力状态、第四上下文向量和第四声学特征,确定所述当前时间步的第三注意力状态;根据所述样本表示序列、所述第三注意力状态和所述当前时间步的序列位置,确定所述样本基础得分矩阵。8.根据权利要求7所述的方法,其特征在于,所述样本数据还包括样本文本序列对应的样本声学特征;所述方法还包括:根据所述样本基础得分矩阵和所述第三注意力状态,确定第三上下文向量;将所述第三注意力状态和所述第三上下文向量输入至所述转换模型的解码器网络,得到第三声学特征;所述第三声学特征用于合成所述样本文本序列对应的音频数据;根据所述第三声学特征和所述样本声学特征,确定第二损失值;所述利用每...

【专利技术属性】
技术研发人员:林诗伦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1