【技术实现步骤摘要】
语音合成方法、装置、设备和计算机存储介质
[0001]本公开涉及计算机应用
,尤其涉及人工智能
下的语音和深度学习等技术。
技术介绍
[0002]语音合成是将输入的文本合成自然可懂的语音的技术。语音合成的流畅度、表现力和音质直接影响了用户体验。因此,高实时率就成为语音合成技术中亟待解决的问题。
技术实现思路
[0003]有鉴于此,本公开提供了一种语音合成方法、装置、设备和计算机存储介质,用以提高语音合成技术的实时率。
[0004]根据本公开的第一方面,提供了一种语音合成方法,包括:
[0005]获取待合成的文本;
[0006]获取从所述文本中提取的韵律特征;
[0007]将所述文本和所述韵律特征输入语音合成模型,得到声码器特征;
[0008]将所述声码器特征输入声码器,得到合成的语音。
[0009]根据本公开的第二方面,提供了一种语音合成装置,包括:
[0010]文本获取单元,用于获取待合成的文本;
[0011]韵律提取单元,用于获取从所述文本中提取的韵律特征;
[0012]语音合成单元,用于将所述文本和所述韵律特征输入语音合成模型,得到声码器特征;将所述声码器特征输入声码器,以得到合成的语音。
[0013]根据本公开的第三方面,提供了一种电子设备,包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,包括:获取待合成的文本;获取从所述文本中提取的韵律特征;将所述文本和所述韵律特征输入语音合成模型,得到声码器特征;将所述声码器特征输入声码器,得到合成的语音。2.根据权利要求1所述的方法,其中,所述获取从所述文本中提取的韵律特征包括:将所述文本输入韵律预测模型,得到所述韵律特征;其中所述韵律预测模型包括第一编码器和第一解码器;所述第一编码器从所述文本中提取语言特征后,将所述语言特征输出至所述第一解码器;所述第一解码器利用预测的上一帧的韵律特征和所述语言特征,预测得到当前帧的韵律特征;或者,所述第一解码器从所述文本中提取语言特征后,将从所述文本中提取的播报风格特征与所述语言特征进行拼接,将得到的第一拼接特征输入所述第一解码器;所述第一解码器利用预测的上一帧的韵律特征和所述第一拼接特征,预测得到当前帧的韵律特征。3.根据权利要求1所述的方法,其中,所述语音合成模型包括第二编码器、第二解码器和后预测网络;所述第二编码器从所述文本中提取语言特征后,将所述语言特征和所述韵律特征进行拼接,或者将所述语言特征、韵律特征和说话人特征进行拼接,将拼接得到的第二拼接特征输出至所述第二解码器;所述第二解码器利用预测的上一帧的声学特征、所述第二拼接特征,预测当前帧的声学特征并输出至所述后预测网络;其中,所述声学特征包括语音频谱特征;所述后预测网络利用声学特征预测得到声码器特征。4.根据权利要求3所述的方法,其中,所述第二解码器利用预测的上一帧的声学特征、所述第二拼接特征,预测当前帧的声学特征包括:所述第二解码器将所述上一帧的声学特征经过前预测网络后得到的特征以及进行注意力处理后的所述第二拼接特征进行拼接,得到第三拼接特征;所述第三拼接特征经过长短期记忆网络LSTM处理后输入线性预测层,由线性预测层预测得到当前帧的声学特征。5.根据权利要求3所述的方法,其中,所述后预测网络利用声学特征预测得到声码器特征包括:所述后预测网络将声学特征经过CBHG模块的处理后,再经过N个预测模块的预测,由预测结果构成声码器特征,其中所述预测模块包括双向门控循环单元GRU和线性投影层,所述N为正整数。6.根据权利要求1所述的方法,其中,所述语音合成模型采用如下方式预先训练得到:获取训练样本,各训练样本包括文本样本以及对所述文本样本标注的韵律特征和声码器特征;将所述文本样本、标注的所述韵律特征作为语音合成模型的输入,将标注的所述声码器特征作为所述语音合成模型的目标输出,训练所述语音合成模型。7.根据权利要求1所述的方法,其中,所述语音合成模型采用如下方式预先训练得到:获取训练样本,各训练样本包括文本样本以及对所述文本样本标注的声学特征和声码
器特征;将标注的所述声学特征作为韵律提取模型的输入,所述韵律提取模型输出的韵律特征以及所述文本样本作为语言合成模型的输入,将标注的所述声码器特征作为所述语言合成模型的目标输出,训练所述韵律提取模型和所述语音合成模型。8.根据权利要求1所述的方法,其中,所述语音合成模型采用如下方式预先训练得到:获取训练样本,各训练样本包括文本样本以及对所述文本样本标注的声码器特征;将所述文本样本作为韵律预测模型的输入,所述韵律预测模型输出的韵律特征以及所述文本样本作为语言合成模型的输入,将标注的所述声码器特征作为所述语言合成模型的目标输出,训练所述韵律预测模型和所述语音合成模型。9.根据权利要求1所述的方法,其中,所述语音合成模型采用如下方式预先训练得到:获取训练样本,各训练样本包括文本样本以及对所述文本样本标注的声学特征和声码器特征;将标注的所述声学特征作为韵律提取模型的输入,所述韵律提取模型输出的韵律特征以及所述文本样本作为语言合成模型的输入,将标注的所述声码器特征作为所述语言合成模型的目标输出,将所述文本样本作为韵律预测模型的输入,所述韵律提取模型输出的韵律特征作为所述韵律预测模型的目标输出,训练所述韵律预测模型、韵律提取模型和所述语音合成模型。10.根据权利要求7或9所述的方法,其中,所述韵律提取模型包括:卷基层、双向GRU层和注意力层;标注的所述声学特征经过卷积层和双向GRU层后,将得到的特征与所述语音合成模型中所述第二编码器提取的语言特征输入注意力层进行注意力处理,得到韵律特征。11.根据权利要求6至9中任一项所述的方法,其中,所述获取训练样本包括:获取标准语音,确定所述标准语音对应的文本作为文本样本;从所述标准语音中提取声学特征和声码器特征中至少一种以所述文本样本进行标注;和/或,从所述文本样本中提取韵律特征以对所述文本样本进行标注。12.一种语音合成装置,包括:文本获取单元,用于获取待合成的文本;韵律提取单元,用于获取从所述文本中提取的韵律特征;语音合成单元,用于将所述文本和所述韵律特征输入语音合成模型,得到声码器特征;将所述声码器特征输入声码器,以得到合成的语音。13.根据权利要...
【专利技术属性】
技术研发人员:张立强,侯建康,孙涛,贾磊,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。