语速调整方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：37330270 阅读：27 留言：0更新日期：2023-04-21 23:08

本公开涉及一种语速调整方法、装置、电子设备及可读存储介质，其中，该方法包括：获取待合成文本，将待合成文本输入至语音合成模型，语音合成模型包括编码网络、注意力网络和解码网络，编码网络将输入的待合成文本转换为声学特征序列；注意力网络用于输出注意力向量，解码网络用于根据注意力向量、声学特征序列以及状态转移控制因子，输出待合成文本对应的目标频谱；通过待合成文本对应的目标频谱，获得具有目标语速的目标音频。通过在语音合成模型中引入状态转移控制因子，利用状态转移控制因子动态地控制待合成文本对应的目标频谱的数量，在语音合成过程中实现灵活的语速调整。且通过本方法合成的音频的声音自然度较高，有利于提升用户体验。升用户体验。升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
语速调整方法、装置、电子设备及可读存储介质

[0001]本公开涉及互联网
，尤其涉及一种语速调整方法、装置、电子设备及可读存储介质。

技术介绍

[0002]电子设备常常需要对音频进行语速调整，例如，用户使用电子设备播放视频时，常常会以1.25倍、1.5倍、2.0倍等速度进行倍速播放，则需要对视频中的音频进行语速调整，以适应倍速播放。
[0003]现有技术中，针对音频的语速调整通常是利用数字信号处理(digital siginal processing，DSP)技术，对音频进行丢弃、重采样、插值等处理，从而对音频的时长进行延长或缩短，实现音频的语速调整。然而，采用上述方式，无法实现灵活的语速调整。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语速调整方法、装置、电子设备及可读存储介质。
[0005]第一方面，本公开提供了一种语速调整方法，包括：
[0006]获取待合成文本；
[0007]将所述待合成文本输入至语音合成模型，获取所述语音合成模型输出的所述待合成文本对应的目标频谱；其中，所述语音合成模型包括编码网络、注意力网络以及解码网络，所述编码网络用于将输入的所述待合成文本转换为声学特征序列；所述注意力网络用于输出注意力向量，所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子，输出所述待合成文本对应的目标频谱；所述状态转移控制因子用于控制所述待合成文本对应的目标频谱的数量；
[00...

【技术保护点】

【技术特征摘要】
1.一种语速调整方法，其特征在于，包括：获取待合成文本；将所述待合成文本输入至语音合成模型，获取所述语音合成模型输出的所述待合成文本对应的目标频谱；其中，所述语音合成模型包括编码网络、注意力网络以及解码网络，所述编码网络用于将输入的所述待合成文本转换为声学特征序列；所述注意力网络用于输出注意力向量，所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子，输出所述待合成文本对应的目标频谱；所述状态转移控制因子用于控制所述待合成文本对应的目标频谱的数量；根据所述待合成文本对应的目标频谱，获取目标音频，所述目标音频具有目标语速。2.根据权利要求1所述的方法，其特征在于，若所述状态转移控制因子小于预设阈值，则所述目标音频的目标语速小于参考语速；若所述状态转移控制因子大于所述预设阈值，则所述目标音频的目标语速大于所述参考语速；若所述状态转移控制因子等于所述预设阈值，则所述目标音频的目标语速等于所述参考语速。3.根据权利要求1所述的方法，其特征在于，所述解码网络包括第一全连接层、第二全连接层、线性层以及循环神经网络层；所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子，输出所述待合成文本对应的目标频谱，包括：将所述注意力向量与所述声学特征序列进行加权计算，获得当前步的目标向量，将所述当前步的目标向量输入至所述循环神经网络层；所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量；将所述当前步的目标状态量输入至所述第一全连接层，获取所述第一全连接层输出的所述当前步的目标频谱；将所述当前步的目标状态量输入至所述第二全连接层，获取所述第二全连接层输出的停止符；若所述停止符指示未达到所述待合成文本的结束位置，则通过所述线性层提取所述当前步的目标频谱输入至所述注意力网络，以使所述注意力网络更新所述注意力向量；返回执行将所述注意力向量与所述声学特征序列进行加权计算，获得所述当前步的目标向量，且将所述当前步的目标向量输入至所述循环神经网络层；所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量；以及，将所述当前步的目标状态量输入至所述第一全连接层，获取所述第一全连接层输出的所述当前步的目标频谱；将所述当前步的目标状态量输入至所述第二全连接层，获取所述第二全连接层输出的停止符，直至所述停止符指...

【专利技术属性】
技术研发人员：吴梦林，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人