音频数据处理方法、模型训练方法、电子设备和存储介质技术

技术编号:38646446 阅读:15 留言:0更新日期:2023-09-02 22:37
本申请涉及人工智能领域的语音合成方向,本申请实施例提供了一种音频数据处理方法、模型训练方法、电子设备和存储介质。该方法应用于电子设备,方法包括:获取待处理声学特征对应的音频类别;获取音频类别对应的聚类中心向量;将待处理声学特征对应的文本、持续时间以及聚类中心向量输入到声学模型的音频编码器,其中,声学模型为,基于音频类别样本以及对应音频类别样本的聚类中心向量样本进行模型训练所获取的模型;获取声学模型的输出。本申请实施例提供的技术方案中,基于音频类别和聚类中心向量训练出声学模型,在降低模型复杂度的同时保证了音频效果。同时保证了音频效果。同时保证了音频效果。

【技术实现步骤摘要】
音频数据处理方法、模型训练方法、电子设备和存储介质


[0001]本申请涉及人工智能
,尤其涉及一种音频数据处理方法、模型训练方法、电子设备和存储介质。

技术介绍

[0002]语音合成技术,即将输入的文字信息转化为可听的声音信息,可以通过不同的音色说出想表达的内容。
[0003]端到端的语音合成(Text To Speech,简称TTS)系统成为了主流的语音合成系统框架。终端设备通过预装、采购的方式需要使用多家供应商的TTS技术能力,音色未进行统一,且同一终端设备上不同业务的语音播报效果不一致,不同终端设备上的语音播报效果也不一致,终端设备安装的TTS引擎合成的语音的音质较差,机械感较强。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种音频数据处理方法、模型训练方法、电子设备和存储介质,用以在降低模型复杂度的同时保证音频效果。
[0005]第一方面,本申请实施例提供了一种音频数据处理方法,方法应用于电子设备,方法包括:
[0006]获取待处理声学特征对应的音频类别;
[0007]获取音频类别对应的聚类中心向量;
[0008]将待处理声学特征对应的文本、持续时间以及聚类中心向量输入到声学模型的音频编码器,其中,声学模型为,基于音频类别样本以及对应音频类别样本的聚类中心向量样本进行模型训练所获取的模型;
[0009]获取声学模型的输出。
[0010]根据本申请实施例所提出的上述实现方式,基于音频类别对声学特征进行分类,能够在降低声学模型复杂度的同时保证音频效果。
[0011]在第一方面的一种实现方式中,获取待处理声学特征对应的音频类别,包括:
[0012]获取待处理声学特征以及待处理声学特征对应的文本、持续时间;
[0013]结合文本和持续时间,对待处理声学特征进行平均化,生成声学特征均值;
[0014]基于聚类算法,根据声学特征均值生成待处理声学特征对应的音频类别。
[0015]根据本申请实施例所提出的上述实现方式,能够提升语音合成的表现力,增加合成音频的韵律感,从而提升语音合成的语音质量。
[0016]在第一方面的一种实现方式中,声学模型的训练过程包括:
[0017]获取第一音频类别样本;
[0018]获取第一音频类别样本对应的第一聚类中心向量样本;
[0019]将第一聚类中心向量样本输入到声学模型的音频编码器,获取针对第一聚类中心向量样本的第一编码输出;
[0020]根据第一编码输出预测对应第一编码输出的第一预测音频类别;
[0021]根据第一预测音频类别以及第一音频类别样本训练声学模型的解码器。
[0022]在第一方面的一种实现方式中,根据第一预测音频类别以及第一音频类别样本训练声学模型的解码器,包括:
[0023]针对第一音频类别样本与第一预测音频类别进行损失计算,获取损失值;
[0024]根据损失值训练声学模型的解码器。
[0025]根据本申请实施例所提出的上述实现方式,基于损失值训练声学模型,提高了声学模型的准确度。
[0026]在第一方面的一种实现方式中,方法还包括:
[0027]根据第一编码输出计算对应第一预测音频类别的第一预测聚类中心向量;
[0028]根据第一编码输出以及第一预测聚类中心向量推理声学模型的解码器。
[0029]根据本申请实施例所提出的上述实现方式,基于音素类别对声学特征进行分类,能够降低声学模型复杂度。
[0030]在第一方面的一种实现方式中,获取第一音频类别样本,包括:
[0031]获取样本声学特征以及样本声学特征对应的文本、持续时间;
[0032]结合文本和持续时间,对样本声学特征进行平均化,生成声学特征均值;
[0033]基于聚类算法,根据声学特征均值生成第一音频类别样本以及第一聚类中心向量样本。
[0034]在第一方面的一种实现方式中,获取待处理声学特征对应的音频类别之前,方法还包括:
[0035]获取文本,文本的内容包括第一语种以及第二语种;
[0036]对文本进行拆分,生成多个文本词和每个文本词对应的词性,包括:基于第一语种以及第二语种间的语种差异对文本进行拆分;
[0037]针对文本词以及词性进行向量化,获取向量化结果;
[0038]针对第一语种对应的向量化结果,进行韵律预测计算,获取第一韵律预测结果;
[0039]针对第二语种对应的向量化结果,进行韵律预测计算,获取第二韵律预测结果;
[0040]将第一韵律预测结果以及第二韵律预测结果进行混合输出,输出多语种混合的韵律预测结果。
[0041]根据本申请实施例所提出的上述实现方式,能够实现韵律预测模型的小型化,以及输出多语种混合的韵律预测结果。
[0042]在第一方面的一种实现方式中,对文本进行拆分,生成多个文本词和每个文本词对应的词性,还包括:
[0043]为文本词添加对应的语种标记。
[0044]在第一方面的一种实现方式中,针对文本词以及词性进行向量化,获取向量化结果,包括:
[0045]对文本词进行文本向量化,生成文本向量;
[0046]对文本词进行语言识别码向量化,生成语言向量;
[0047]对词性进行词性向量化,生成词性向量。
[0048]在第一方面的一种实现方式中,针对第一语种对应的向量化结果,进行韵律预测
计算,获取第一韵律预测结果,包括:
[0049]针对第一语种对应的向量化结果,通过双向长短时记忆进行计算,生成第一预测向量;
[0050]将第一预测向量通过模糊神经网络进行计算,生成第一训练向量;
[0051]将第一训练向量通过归一化指数函数进行计算,生成第一韵律预测结果。
[0052]在第一方面的一种实现方式中,文本的内容还包括第三语种;
[0053]对文本进行拆分,生成多个文本词和每个文本词对应的词性,包括:基于第一语种、第二语种以及第三语种间的语种差异对文本进行拆分;
[0054]方法还包括:
[0055]针对第三语种对应的向量化结果,进行韵律预测计算,获取第三韵律预测结果;
[0056]将第一韵律预测结果、第二韵律预测结果以及第三韵律预测结果进行混合输出,输出多语种混合的韵律预测结果。
[0057]根据本申请实施例所提出的上述实现方式,能够实现韵律预测模型的小型化,以及输出多语种混合的韵律预测结果。
[0058]第二方面,本申请实施例提供了一种模型训练方法,方法应用于电子设备,方法包括:
[0059]获取第一音频类别样本;
[0060]获取第一音频类别样本对应的第一聚类中心向量样本;
[0061]将第一聚类中心向量样本输入到声学模型的音频编码器,获取针对第一聚类中心向量样本的第一编码输出;
[0062]根据第一编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据处理方法,其特征在于,所述方法应用于电子设备,所述方法包括:获取待处理声学特征对应的音频类别;获取所述音频类别对应的聚类中心向量;将所述待处理声学特征对应的文本、持续时间以及所述聚类中心向量输入到声学模型的音频编码器,其中,所述声学模型为,基于音频类别样本以及对应所述音频类别样本的聚类中心向量样本进行模型训练所获取的模型;获取所述声学模型的输出。2.根据权利要求1所述的方法,其特征在于,所述获取待处理声学特征对应的音频类别,包括:获取所述待处理声学特征以及所述待处理声学特征对应的所述文本、所述持续时间;结合所述文本和所述持续时间,对所述待处理声学特征进行平均化,生成声学特征均值;基于聚类算法,根据所述声学特征均值生成所述待处理声学特征对应的音频类别。3.根据权利要求1所述的方法,其特征在于,所述声学模型的训练过程包括:获取第一音频类别样本;获取所述第一音频类别样本对应的第一聚类中心向量样本;将所述第一聚类中心向量样本输入到所述声学模型的音频编码器,获取针对所述第一聚类中心向量样本的第一编码输出;根据所述第一编码输出预测对应所述第一编码输出的第一预测音频类别;根据所述第一预测音频类别以及所述第一音频类别样本训练所述声学模型的解码器。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一预测音频类别以及所述第一音频类别样本训练所述声学模型的解码器,包括:针对所述第一音频类别样本与所述第一预测音频类别进行损失计算,获取损失值;根据所述损失值训练所述声学模型的解码器。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据所述第一编码输出计算对应所述第一预测音频类别的第一预测聚类中心向量;根据所述第一编码输出以及所述第一预测聚类中心向量推理所述声学模型的解码器。6.根据权利要求3所述的方法,其特征在于,所述获取第一音频类别样本,包括:获取样本声学特征以及所述样本声学特征对应的文本、持续时间;结合所述文本和所述持续时间,对所述样本声学特征进行平均化,生成声学特征均值;基于聚类算法,根据所述声学特征均值生成所述第一音频类别样本以及所述第一聚类中心向量样本。7.根据权利要求1

6中任一项所述的方法,其特征在于,所述获取待处理声学特征对应的音频类别之前,所述方法还包括:获取文本,所述文本的内容包括第一语种以及第二语种;对所述文本进行拆分,生成多个文本词和每个文本词对应的词性,包括:基于所述第一语种以及所述第二语种间的语种差异对所述文本进行拆分;针对所述文本词以及所述词性进行向量化,获取向量化结果;针对所述第一语种对应的所述向量化结果,进行韵律预测计算,获取第一韵律预测结
果;针对所述第二语种对应的所述向量化结果,进行韵律预测计算,获取第二韵律预测结果;将所述第一韵律预测结果以及所述第二韵律预测结果进行混合输出,输出多语种混合的韵律预测结果。8.根据权利要求7所述的方法,其特征在于,所述对所述文本进行拆分,生成多个文本词和每个文本词对应的词性,还包括:为所述文本词添加对应的语种标记。9.根据权利要求7所述的方法,其特征在于,所述针对所述文本词以及所述词性进行向量化,获取向量化结果,包括:对所述文本词进行文本向量化,生成文本...

【专利技术属性】
技术研发人员:龚雪飞
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1