一种音频合成方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：27509016 阅读：14 留言：0更新日期：2021-03-02 18:37

本申请公开了一种音频合成方法、装置、设备及介质，获取干声音频；获取与干声音频对应的原始音素数据；获取对原始音素数据进行错误修复后得到的校准音素数据；将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据；将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声；基于互验音素数据及互验干声对神经网络模型进行训练，以基于训练好的神经网络模型进行音频合成。本申请可以本申请通过音素互验技术对不同类型的音素数据进行技术处理，获得更有效的音素结果以及干声音频，从而有利于神经网络模型的训练，提升训练效率与合成音频的音质。合成音频的音质。合成音频的音质。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频合成方法、装置、设备及计算机可读存储介质

[0001]本申请涉及音频合成
，更具体地说，涉及一种音频合成方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]当前，在录制歌曲的过程中，会收集用户的干声，干声也即纯人声。音素，是人类语言中能够区别意义的最小声音单位。在歌词文本的先验信息，通过语音分析可以获得用户演唱每个音素的起止时间，即得到干声对应的音素结果，该音素结果可以用于神经网络模型的训练与合成，服务于音频的自动合成场景。在此过程中，需要有高精度的音素起止时间数据、干声音频及合适的数据处理方法，然而，申请人发现在合成音频的过程中至少存在如下问题：音素起止时间不够精确，合成的音频的质量较低。
[0003]综上所述，如何提高合成的音频的质量是目前本领域技术人员亟待解决的问题。

技术实现思路

[0004]有鉴于此，本申请的目的在于提供一种音频合成方法、装置、设备及计算机可读存储介质，能够提高合成的音频的质量。其具体方案如下：
[0005]第一方面，本申请公开了一种音频合成方法，包括：
[0006]获取干声音频；
[0007]获取与所述干声音频对应的原始音素数据，所述原始音素数据包括所述干声音频中音素的起止时间，所述起止时间包括开始时间与结束时间；
[0008]获取对所述原始音素数据进行错误修复后得到的校准音素数据；
[0009]将所述原始音素数据与所述校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据；
>[0010]将所述互验音素数据与所述干声音频进行处理，得到所述互验音素数据对应的互验干声；
[0011]基于所述互验音素数据及所述互验干声对神经网络模型进行训练，以基于训练好的所述神经网络模型进行音频合成。
[0012]可选的，所述将所述原始音素数据与所述校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据，包括：
[0013]在所述原始音素数据中，将持续时长小于预设时长的音素数据置为sil音素，得到筛除后原始音素数据；
[0014]在所述校准音素数据中，将持续时长小于所述预设时长的音素数据置为所述sil音素，得到筛除后校准音素数据；
[0015]在所述筛除后校准音素数据中，将起止时间与所述筛除后原始音素数据中的起止时间相同、但音素不同的音素置为所述sil音素，得到处理后的校准音素数据；
[0016]将所述处理后的校准音素数据确定为所述互验音素数据。
[0017]可选的，所述将所述处理后的校准音素数据确定为所述互验音素数据，包括：
[0018]确定出所述处理后的校准音素数据中的相邻音素数据；
[0019]若所述相邻音素数据的起止时间不连续，则在所述处理后的校准音素数据中，将所述相邻音素数据的起止时间调整为连续，将调整后的校准音素数据确定为所述互验音素数据；
[0020]若所述相邻音素数据的起止时间连续，则直接将所述处理后的校准音素数据确定为所述互验音素数据。
[0021]可选的，所述将所述互验音素数据与所述干声音频进行处理，得到所述互验音素数据对应的互验干声，包括：
[0022]获取所述互验音素数据中内容为sil的音素的目标起止时间；
[0023]在所述干声音频中，将起止时间与所述目标起止时间相同的干声内容置为静音，将调整后的所述干声音频作为所述互验干声。
[0024]可选的，所述将起止时间与所述目标起止时间相同的干声内容置为静音，包括：
[0025]确定出起止时间与所述目标起止时间相同的所述干声内容；
[0026]按照所述干声内容的生成顺序，将所述干声内容分为起始段干声内容、中间段干声内容及结束段干声内容；
[0027]对所述起始段干声内容进行淡出处理，将淡出处理结果作为所述起始段干声内容的静音结果；
[0028]直接将所述中间段干声内容置为静音；
[0029]对所述结束段干声内容进行淡入处理，将淡入处理结果作为所述结束段干声内容的静音结果。
[0030]可选的，所述对所述起始段干声内容进行淡出处理，包括：
[0031]将所述起始段干声内容的音频与预设cos函数相乘，得到所述淡出处理结果；
[0032]所述对所述结束段干声内容进行淡入处理，包括：
[0033]将所述结束段干声内容的音频与预设sin函数相乘，得到所述淡入处理结果。
[0034]可选的，所述获取干声音频，包括：
[0035]获取音频格式为WAV的所述干声音频。
[0036]第二方面，本申请公开了一种音频合成装置，包括：
[0037]干声音频获取模块，用于获取干声音频；
[0038]原始音素获取模块，用于获取与所述干声音频对应的原始音素数据，所述原始音素数据包括所述干声音频中音素的起止时间，所述起止时间包括开始时间与结束时间；
[0039]校准音素获取模块，用于获取对所述原始音素数据进行错误修复后得到的校准音素数据；
[0040]互验音素获取模块，用于将所述原始音素数据与所述校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据；
[0041]互验干声获取模块，用于将所述互验音素数据与所述干声音频进行处理，得到所述互验音素数据对应的互验干声；
[0042]模型训练模块，用于基于所述互验音素数据及所述互验干声对神经网络模型进行训练，以基于训练好的所述神经网络模型进行音频合成。
[0043]第三方面，本申请公开了一种电子设备，包括：
[0044]存储器，用于保存计算机程序；
[0045]处理器，用于执行所述计算机程序，以实现如上任一所述的音频合成方法。
[0046]第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现如上任一所述的音频合成方法。
[0047]本申请中，在获取干声音频、原始音素数据及校准音素数据之后，并不是直接应用校准音素数据或者原始音素数据对神经网络模型进行训练，而是先将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据，由于互验音素数据是原始音素数据与校准音素数据中起止时间相同且内容相同的音素数据，所以互验音素数据为原始音素数据与校准音素数据中最准确的音素，也即本申请可以获取准确的互验音素数据，相应的，在干声音频中，将互验音素数据对应的干声确定为互验干声之后，可以得到与互验音素数据对应的准确的互验干声，这样，后续再基于互验音素数据及互验干声对神经网络模型进行训练的话，由于互验音素数据和互验干声的准确性高，所以可以使得神经网络模型的音频合成准确性高，如此基于训练好的神经网络模型进行音频合成的话，能够使得合成的音频的质量较高。此外，由于本申请中互验音素与互验干声的数据量小，所以本申请还可以加快神经网络模型的训练效率，进而提高音频合成的效率，也即本申本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频合成方法，其特征在于，包括：获取干声音频；获取与所述干声音频对应的原始音素数据，所述原始音素数据包括所述干声音频中音素的起止时间，所述起止时间包括开始时间与结束时间；获取对所述原始音素数据进行错误修复后得到的校准音素数据；将所述原始音素数据与所述校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据；将所述互验音素数据与所述干声音频进行处理，得到所述互验音素数据对应的互验干声；基于所述互验音素数据及所述互验干声对神经网络模型进行训练，以基于训练好的所述神经网络模型进行音频合成。2.根据权利要求1所述的方法，其特征在于，所述将所述原始音素数据与所述校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据，包括：在所述原始音素数据中，将持续时长小于预设时长的音素数据置为sil音素，得到筛除后原始音素数据；在所述校准音素数据中，将持续时长小于所述预设时长的音素数据置为所述sil音素，得到筛除后校准音素数据；在所述筛除后校准音素数据中，将起止时间与所述筛除后原始音素数据中的起止时间相同、但音素不同的音素置为所述sil音素，得到处理后的校准音素数据；将所述处理后的校准音素数据确定为所述互验音素数据。3.根据权利要求2所述的方法，其特征在于，所述将所述处理后的校准音素数据确定为所述互验音素数据，包括：确定出所述处理后的校准音素数据中的相邻音素数据；若所述相邻音素数据的起止时间不连续，则在所述处理后的校准音素数据中，将所述相邻音素数据的起止时间调整为连续，将调整后的校准音素数据确定为所述互验音素数据；若所述相邻音素数据的起止时间连续，则直接将所述处理后的校准音素数据确定为所述互验音素数据。4.根据权利要求3所述的方法，其特征在于，所述将所述互验音素数据与所述干声音频进行处理，得到所述互验音素数据对应的互验干声，包括：获取所述互验音素数据中内容为sil的音素的目标起止时间；在所述干声音频中，将起止时间与所述目标起止时间相同的干声内容置为静音，将调整后的所述干声音频作为所述互验干声。5.根据权利要求4...

【专利技术属性】
技术研发人员：徐东，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人