声学特征转换及模型训练方法、装置、设备、介质制造方法及图纸

技术编号：30497008 阅读：10 留言：0更新日期：2021-10-27 22:28

本申请提供了一种声学特征转换及模型训练方法、装置、设备、介质，应用于人工智能领域；其中，所述声学特征转换方法包括：将待转换文本序列输入至转换模型的编码器网络，得到文本表示序列；待转换文本序列包括音韵特征信息；将文本表示序列输入至转换模型的基础注意力网络，得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵；将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络，得到第一声学特征；第一声学特征用于合成待转换文本序列对应的音频数据。通过本申请提供的声学特征转换方法，能够生成质量较高的声学特征。能够生成质量较高的声学特征。能够生成质量较高的声学特征。

全部详细技术资料下载

【技术实现步骤摘要】
声学特征转换及模型训练方法、装置、设备、介质

[0001]本申请涉及人工智能
，尤其涉及一种声学特征转换方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，该技术企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
[0003]语音合成技术通过一定的规则或模型算法将文本转换为对应的音频内容。传统的语音合成技术主要基于拼接方法或统计参数方法，可以实现文本到语音的特征转换。然而，传统的语音合成技术中文本到语音的特征转换方案得到的声学特征质量较低，无法满足应用场景需求。

技术实现思路

[0004]本申请实施例提供一种声学特征转换方法、装置、设备及计算机可读存储介质，能够生成质量较高的声学特征。
[0005]本申请实施例的技术方案是这样实现的：
[0006]本申请实施例提供一种声学特征转换方法，包括：将待转换文本序列输入至转换模型的编码器网络，得到文本表示序列；待转换文本序列包括音韵特征信息；将文本表示序列输入至转换模型的基础注意力网络，得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵；将当前时间步的...

【技术保护点】

【技术特征摘要】
1.一种声学特征转换方法，其特征在于，包括：将待转换文本序列输入至转换模型的编码器网络，得到文本表示序列；所述待转换文本序列包括音韵特征信息；将所述文本表示序列输入至所述转换模型的基础注意力网络，得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵；将所述当前时间步的第一注意力状态和第一上下文向量输入至所述转换模型的解码器网络，得到第一声学特征；所述第一声学特征用于合成所述待转换文本序列对应的音频数据；其中，所述转换模型在训练过程中的损失函数与至少一个指导注意力网络对应的第一损失值相关；所述第一损失值用于表征所述指导注意力网络输出的指导注意力得分矩阵和所述基础注意力得分矩阵之间的距离。2.根据权利要求1所述的方法，其特征在于，所述将所述文本表示序列输入至所述转换模型的基础注意力网络，得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵，包括：根据上一时间步的第二注意力状态、第二上下文向量和第二声学特征，确定所述当前时间步的第一注意力状态；根据所述文本表示序列、所述第一注意力状态和所述当前时间步的序列位置，确定所述基础注意力得分矩阵；根据所述基础注意力得分矩阵和所述文本表示序列，确定所述第一上下文向量。3.根据权利要求2所述的方法，其特征在于，所述文本表示序列包括多个序列位置对应的文本表示向量；所述根据所述基础注意力得分矩阵和所述文本表示序列，确定所述第一上下文向量，包括：根据所述基础注意力得分矩阵中每一所述序列位置对应的注意力权重，对每一所述序列位置对应的文本表示向量进行加权求和，得到所述第一上下文向量。4.根据权利要求3所述的方法，其特征在于，所述将所述当前时间步的第一状态和第一上下文向量输入至所述转换模型的解码器网络，得到第一声学特征，包括：获取所述上一时间步的第二解码器状态；将所述第二解码器状态、所述第一上下文向量和第一注意力状态输入至所述解码器网络，得到所述第一声学特征。5.根据权利要求4所述的方法，其特征在于，所述将所述第二解码器状态、所述第一上下文向量和第一注意力状态输入至所述解码器网络，得到所述第一声学特征，包括：根据所述第二解码器状态、所述第一上下文向量和第一注意力状态，确定第一解码器状态；基于预设的仿射函数，将所述第一解码器状态转换为所述第一声学特征。6.一种转换模型训练方法，其特征在于，包括：获取样本数据；所述样本数据包括样本文本序列；将所述样本文本序列输入至转换模型的编码器网络，得到样本表示序列；将所述样本表示序列输入至所述转换模型的基础注意力网络，得到当前时间步的样本基础得分矩阵；
将所述样本表示序列输入至所述转换模型的至少一个指导注意力网络，得到每一所述指导注意力网络输出的所述当前时间步的样本指导得分矩阵；根据所述样本基础得分矩阵和每一所述指导注意力网络输出的样本指导得分矩阵，确定每一所述指导注意力网络对应的第一损失值；所述第一损失值用于表征所述指导注意力网络输出的样本指导得分矩阵和所述样本基础得分矩阵之间的距离；利用每一所述指导注意力网络对应的第一损失值对所述转换模型的模型参数进行调整，以得到训练后的转换模型。7.根据权利要求6所述的方法，其特征在于，所述将所述样本表示序列输入至所述转换模型的基础注意力网络，得到当前时间步的样本基础得分矩阵，包括：根据上一时间步的第四注意力状态、第四上下文向量和第四声学特征，确定所述当前时间步的第三注意力状态；根据所述样本表示序列、所述第三注意力状态和所述当前时间步的序列位置，确定所述样本基础得分矩阵。8.根据权利要求7所述的方法，其特征在于，所述样本数据还包括样本文本序列对应的样本声学特征；所述方法还包括：根据所述样本基础得分矩阵和所述第三注意力状态，确定第三上下文向量；将所述第三注意力状态和所述第三上下文向量输入至所述转换模型的解码器网络，得到第三声学特征；所述第三声学特征用于合成所述样本文本序列对应的音频数据；根据所述第三声学特征和所述样本声学特征，确定第二损失值；所述利用每...

【专利技术属性】
技术研发人员：林诗伦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人