音频数据处理方法、模型训练方法、电子设备和存储介质技术

技术编号：38646446 阅读：25 留言：0更新日期：2023-09-02 22:37

本申请涉及人工智能领域的语音合成方向，本申请实施例提供了一种音频数据处理方法、模型训练方法、电子设备和存储介质。该方法应用于电子设备，方法包括：获取待处理声学特征对应的音频类别；获取音频类别对应的聚类中心向量；将待处理声学特征对应的文本、持续时间以及聚类中心向量输入到声学模型的音频编码器，其中，声学模型为，基于音频类别样本以及对应音频类别样本的聚类中心向量样本进行模型训练所获取的模型；获取声学模型的输出。本申请实施例提供的技术方案中，基于音频类别和聚类中心向量训练出声学模型，在降低模型复杂度的同时保证了音频效果。同时保证了音频效果。同时保证了音频效果。

全部详细技术资料下载

【技术实现步骤摘要】
音频数据处理方法、模型训练方法、电子设备和存储介质

[0001]本申请涉及人工智能
，尤其涉及一种音频数据处理方法、模型训练方法、电子设备和存储介质。

技术介绍

[0002]语音合成技术，即将输入的文字信息转化为可听的声音信息，可以通过不同的音色说出想表达的内容。
[0003]端到端的语音合成(Text To Speech，简称TTS)系统成为了主流的语音合成系统框架。终端设备通过预装、采购的方式需要使用多家供应商的TTS技术能力，音色未进行统一，且同一终端设备上不同业务的语音播报效果不一致，不同终端设备上的语音播报效果也不一致，终端设备安装的TTS引擎合成的语音的音质较差，机械感较强。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种音频数据处理方法、模型训练方法、电子设备和存储介质，用以在降低模型复杂度的同时保证音频效果。
[0005]第一方面，本申请实施例提供了一种音频数据处理方法，方法应用于电子设备，方法包括：
[0006]获取待处理声学特征对应的音频类别；
[0007]获取音频类别对应的聚类中心向量；
[0008]将待处理声学特征对应的文本、持续时间以及聚类中心向量输入到声学模型的音频编码器，其中，声学模型为，基于音频类别样本以及对应音频类别样本的聚类中心向量样本进行模型训练所获取的模型；
[0009]获取声学模型的输出。
[0010]根据本申请实施例所提出的上述实现方式，基于音频类别对声学特征进行分类，能够...

【技术保护点】

【技术特征摘要】
1.一种音频数据处理方法，其特征在于，所述方法应用于电子设备，所述方法包括：获取待处理声学特征对应的音频类别；获取所述音频类别对应的聚类中心向量；将所述待处理声学特征对应的文本、持续时间以及所述聚类中心向量输入到声学模型的音频编码器，其中，所述声学模型为，基于音频类别样本以及对应所述音频类别样本的聚类中心向量样本进行模型训练所获取的模型；获取所述声学模型的输出。2.根据权利要求1所述的方法，其特征在于，所述获取待处理声学特征对应的音频类别，包括：获取所述待处理声学特征以及所述待处理声学特征对应的所述文本、所述持续时间；结合所述文本和所述持续时间，对所述待处理声学特征进行平均化，生成声学特征均值；基于聚类算法，根据所述声学特征均值生成所述待处理声学特征对应的音频类别。3.根据权利要求1所述的方法，其特征在于，所述声学模型的训练过程包括：获取第一音频类别样本；获取所述第一音频类别样本对应的第一聚类中心向量样本；将所述第一聚类中心向量样本输入到所述声学模型的音频编码器，获取针对所述第一聚类中心向量样本的第一编码输出；根据所述第一编码输出预测对应所述第一编码输出的第一预测音频类别；根据所述第一预测音频类别以及所述第一音频类别样本训练所述声学模型的解码器。4.根据权利要求3所述的方法，其特征在于，所述根据所述第一预测音频类别以及所述第一音频类别样本训练所述声学模型的解码器，包括：针对所述第一音频类别样本与所述第一预测音频类别进行损失计算，获取损失值；根据所述损失值训练所述声学模型的解码器。5.根据权利要求3所述的方法，其特征在于，所述方法还包括：根据所述第一编码输出计算对应所述第一预测音频类别的第一预测聚类中心向量；根据所述第一编码输出以及所述第一预测聚类中心向量推理所述声学模型的解码器。6.根据权利要求3所述的方法，其特征在于，所述获取第一音频类别样本，包括：获取样本声学特征以及所述样本声学特征对应的文本、持续时间；结合所述文本和所述持续时间，对所述样本声学特征进行平均化，生成声学特征均值；基于聚类算法，根据所述声学特征均值生成所述第一音频类别样本以及所述第一聚类中心向量样本。7.根据权利要求1
‑
6中任一项所述的方法，其特征在于，所述获取待处理声学特征对应的音频类别之前，所述方法还包括：获取文本，所述文本的内容包括第一语种以及第二语种；对所述文本进行拆分，生成多个文本词和每个文本词对应的词性，包括：基于所述第一语种以及所述第二语种间的语种差异对所述文本进行拆分；针对所述文本词以及所述词性进行向量化，获取向量化结果；针对所述第一语种对应的所述向量化结果，进行韵律预测计算，获取第一韵律预测结
果；针对所述第二语种对应的所述向量化结果，进行韵律预测计算，获取第二韵律预测结果；将所述第一韵律预测结果以及所述第二韵律预测结果进行混合输出，输出多语种混合的韵律预测结果。8.根据权利要求7所述的方法，其特征在于，所述对所述文本进行拆分，生成多个文本词和每个文本词对应的词性，还包括：为所述文本词添加对应的语种标记。9.根据权利要求7所述的方法，其特征在于，所述针对所述文本词以及所述词性进行向量化，获取向量化结果，包括：对所述文本词进行文本向量化，生成文本...

【专利技术属性】
技术研发人员：龚雪飞，
申请(专利权)人：荣耀终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人