本公开涉及一种语速调整方法、装置、电子设备及可读存储介质,其中,该方法包括:获取待合成文本,将待合成文本输入至语音合成模型,语音合成模型包括编码网络、注意力网络和解码网络,编码网络将输入的待合成文本转换为声学特征序列;注意力网络用于输出注意力向量,解码网络用于根据注意力向量、声学特征序列以及状态转移控制因子,输出待合成文本对应的目标频谱;通过待合成文本对应的目标频谱,获得具有目标语速的目标音频。通过在语音合成模型中引入状态转移控制因子,利用状态转移控制因子动态地控制待合成文本对应的目标频谱的数量,在语音合成过程中实现灵活的语速调整。且通过本方法合成的音频的声音自然度较高,有利于提升用户体验。升用户体验。升用户体验。
【技术实现步骤摘要】
语速调整方法、装置、电子设备及可读存储介质
[0001]本公开涉及互联网
,尤其涉及一种语速调整方法、装置、电子设备及可读存储介质。
技术介绍
[0002]电子设备常常需要对音频进行语速调整,例如,用户使用电子设备播放视频时,常常会以1.25倍、1.5倍、2.0倍等速度进行倍速播放,则需要对视频中的音频进行语速调整,以适应倍速播放。
[0003]现有技术中,针对音频的语速调整通常是利用数字信号处理(digital siginal processing,DSP)技术,对音频进行丢弃、重采样、插值等处理,从而对音频的时长进行延长或缩短,实现音频的语速调整。然而,采用上述方式,无法实现灵活的语速调整。
技术实现思路
[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种语速调整方法、装置、电子设备及可读存储介质。
[0005]第一方面,本公开提供了一种语速调整方法,包括:
[0006]获取待合成文本;
[0007]将所述待合成文本输入至语音合成模型,获取所述语音合成模型输出的所述待合成文本对应的目标频谱;其中,所述语音合成模型包括编码网络、注意力网络以及解码网络,所述编码网络用于将输入的所述待合成文本转换为声学特征序列;所述注意力网络用于输出注意力向量,所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子,输出所述待合成文本对应的目标频谱;所述状态转移控制因子用于控制所述待合成文本对应的目标频谱的数量;
[0008]根据所述待合成文本对应的目标频谱,获取目标音频,所述目标音频具有目标语速。
[0009]作为一种可能的实施方式,若所述状态转移控制因子小于预设阈值,则所述目标音频的目标语速小于参考语速;
[0010]若所述状态转移控制因子大于所述预设阈值,则所述目标音频的目标语速大于所述参考语速;
[0011]若所述状态转移控制因子等于所述预设阈值,则所述目标音频的目标语速等于所述参考语速。
[0012]作为一种可能的实施方式,所述解码网络包括第一全连接层、第二全连接层、线性层以及循环神经网络层;
[0013]所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子,输出所述待合成文本对应的目标频谱,包括:
[0014]将所述注意力向量与所述声学特征序列进行加权计算,获得当前步的目标向量,
将所述当前步的目标向量输入至所述循环神经网络层;
[0015]所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量,获取当前步的目标状态量;
[0016]将所述当前步的目标状态量输入至所述第一全连接层,获取所述第一全连接层输出的所述当前步的目标频谱;将所述当前步的目标状态量输入至所述第二全连接层,获取所述第二全连接层输出的停止符;
[0017]若所述停止符指示未达到所述待合成文本的结束位置,则通过所述线性层提取所述当前步的目标频谱输入至所述注意力网络,以使所述注意力网络更新所述注意力向量;
[0018]返回执行将所述注意力向量与所述声学特征序列进行加权计算,获得所述当前步的目标向量,且将所述当前步的目标向量输入至所述循环神经网络层;所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量,获取当前步的目标状态量;以及,将所述当前步的目标状态量输入至所述第一全连接层,获取所述第一全连接层输出的所述当前步的目标频谱;将所述当前步的目标状态量输入至所述第二全连接层,获取所述第二全连接层输出的停止符,直至所述停止符指示达到所述待合成文本的结束位置。
[0019]作为一种可能的实施方式,所述根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量,获取当前步的目标状态量,包括:
[0020]根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量进行掩模加权融合,获取所述当前步的目标状态量。
[0021]作为一种可能的实施方式,所述根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量进行掩模加权融合,获取所述当前步的目标状态量,包括:
[0022]根据所述目标向量,获取当前步的初始状态量;
[0023]根据所述状态转移控制因子生成掩模,根据所述掩模对所述当前步的初始状态量和上一步的目标状态量进行加权融合,获取所述当前步的目标状态量。
[0024]作为一种可能的实施方式,所述根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量,获取当前步的目标状态量之前,所述方法还包括:
[0025]更新所述当前步对应的状态转移控制因子的大小。
[0026]作为一种可能的实施方式,所述更新所述当前步对应的状态转移控制因子的大小,包括:
[0027]根据所述目标语速、所述待合成文本对应的声学特征序列以及所述当前步对应的文本内容的重要性中的一项或多项,更新所述当前步对应的状态转移控制因子的大小。
[0028]第二方面,本公开提供了一种语速调整装置,包括:
[0029]获取模块,用于获取待合成文本;
[0030]频谱特征提取模块,用于将所述待合成文本输入至语音合成模型,获取所述语音合成模型输出的所述待合成文本对应的目标频谱;其中,所述语音合成模型包括编码网络、注意力网络以及解码网络,所述编码网络用于将输入的所述待合成文本转换为声学特征序列;所述注意力网络用于输出注意力向量,所述解码网络用于根据输入的所述注意力向量、声学特征序列以及状态转移控制因子,输出所述待合成文本对应的目标频谱;所述状态转移控制因子用于控制所述目标频谱的数量;
[0031]音频处理模块,用于根据所述待合成文本对应的目标频谱,获取目标音频,所述目标音频具有目标语速。
[0032]作为一种可能的实施方式,若所述状态转移控制因子小于预设阈值,则所述目标音频的目标语速小于参考语速;若所述状态转移控制因子大于所述预设阈值,则所述目标音频的目标语速大于所述参考语速;若所述状态转移控制因子等于所述预设阈值,则所述目标音频的目标语速等于所述参考语速。
[0033]作为一种可能的实施方式,所述解码网络包括第一全连接层、第二全连接层、线性层以及循环神经网络层;
[0034]频谱特征提取模块,具体用于将所述注意力向量与所述声学特征序列进行加权计算,获得目标向量,且通过所述循环神经网络将所述目标向量分别输入至所述第一全连接层和所述第二全连接层;
[0035]所述第一全连接层根据输入的所述目标向量、状态转移控制因子以及已存在的目标频谱,获取当前步的目标频谱;所述第二全连接层根据输入的所述目标向量,获取停止符;
[0036]若根据所述停止符确定不满足预设停止条件,则通过所述线性层和所述循环神经网络层,将所述当前步的目标频谱输入至所述注意力网络,以使所述注意力网络更新所述注意力向量;
[0037]返回执本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语速调整方法,其特征在于,包括:获取待合成文本;将所述待合成文本输入至语音合成模型,获取所述语音合成模型输出的所述待合成文本对应的目标频谱;其中,所述语音合成模型包括编码网络、注意力网络以及解码网络,所述编码网络用于将输入的所述待合成文本转换为声学特征序列;所述注意力网络用于输出注意力向量,所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子,输出所述待合成文本对应的目标频谱;所述状态转移控制因子用于控制所述待合成文本对应的目标频谱的数量;根据所述待合成文本对应的目标频谱,获取目标音频,所述目标音频具有目标语速。2.根据权利要求1所述的方法,其特征在于,若所述状态转移控制因子小于预设阈值,则所述目标音频的目标语速小于参考语速;若所述状态转移控制因子大于所述预设阈值,则所述目标音频的目标语速大于所述参考语速;若所述状态转移控制因子等于所述预设阈值,则所述目标音频的目标语速等于所述参考语速。3.根据权利要求1所述的方法,其特征在于,所述解码网络包括第一全连接层、第二全连接层、线性层以及循环神经网络层;所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子,输出所述待合成文本对应的目标频谱,包括:将所述注意力向量与所述声学特征序列进行加权计算,获得当前步的目标向量,将所述当前步的目标向量输入至所述循环神经网络层;所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量,获取当前步的目标状态量;将所述当前步的目标状态量输入至所述第一全连接层,获取所述第一全连接层输出的所述当前步的目标频谱;将所述当前步的目标状态量输入至所述第二全连接层,获取所述第二全连接层输出的停止符;若所述停止符指示未达到所述待合成文本的结束位置,则通过所述线性层提取所述当前步的目标频谱输入至所述注意力网络,以使所述注意力网络更新所述注意力向量;返回执行将所述注意力向量与所述声学特征序列进行加权计算,获得所述当前步的目标向量,且将所述当前步的目标向量输入至所述循环神经网络层;所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量,获取当前步的目标状态量;以及,将所述当前步的目标状态量输入至所述第一全连接层,获取所述第一全连接层输出的所述当前步的目标频谱;将所述当前步的目标状态量输入至所述第二全连接层,获取所述第二全连接层输出的停止符,直至所述停止符指...
【专利技术属性】
技术研发人员:吴梦林,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。