语音合成方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:31569711 阅读:20 留言:0更新日期:2021-12-25 11:09
本公开公开了一种语音合成方法、装置、设备和计算机存储介质,涉及人工智能领域下的语音和深度学习等技术。具体实现方案为:获取待合成的文本;获取从所述文本中提取的韵律特征;将所述文本和所述韵律特征输入语音合成模型,得到声码器特征;将所述声码器特征输入声码器,得到合成的语音。本公开能够提高语音合成的效率,保证高实时率和小计算量,为离线语音合成的应用场景提供技术基础。音合成的应用场景提供技术基础。音合成的应用场景提供技术基础。

【技术实现步骤摘要】
语音合成方法、装置、设备和计算机存储介质


[0001]本公开涉及计算机应用
,尤其涉及人工智能
下的语音和深度学习等技术。

技术介绍

[0002]语音合成是将输入的文本合成自然可懂的语音的技术。语音合成的流畅度、表现力和音质直接影响了用户体验。因此,高实时率就成为语音合成技术中亟待解决的问题。

技术实现思路

[0003]有鉴于此,本公开提供了一种语音合成方法、装置、设备和计算机存储介质,用以提高语音合成技术的实时率。
[0004]根据本公开的第一方面,提供了一种语音合成方法,包括:
[0005]获取待合成的文本;
[0006]获取从所述文本中提取的韵律特征;
[0007]将所述文本和所述韵律特征输入语音合成模型,得到声码器特征;
[0008]将所述声码器特征输入声码器,得到合成的语音。
[0009]根据本公开的第二方面,提供了一种语音合成装置,包括:
[0010]文本获取单元,用于获取待合成的文本;
[0011]韵律提取单元,用于获取从所述文本中提取的韵律特征;
[0012]语音合成单元,用于将所述文本和所述韵律特征输入语音合成模型,得到声码器特征;将所述声码器特征输入声码器,以得到合成的语音。
[0013]根据本公开的第三方面,提供了一种电子设备,包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
[0017]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
[0018]根据本公开的第五方面,一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1是本公开所涉及的基本架构的示意图;
[0022]图2是本公开实施例提供的语音合成方法的流程图;
[0023]图3a和图3b是本公开实施例提供的韵律预测模型的结构示意图;
[0024]图4为本公开实施例提供的语音合成模型的结构示意图;
[0025]图5为本公开实施例提供的后预测网络的结构示意图;
[0026]图6为本公开实施例提供的UV纠正的方法流程图;
[0027]图7a为本公开实施例提供的第一种语音合成模型的训练方法流程图;
[0028]图7b为本公开实施例提供的第一种语音合成模型的训练架构示意图;
[0029]图8a为本公开实施例提供的第二种语音合成模型的训练方法流程图;
[0030]图8b为本公开实施例提供的第二种语音合成模型的训练架构示意图;
[0031]图8c为本公开实施例提供的韵律提取模型的结构示意图;
[0032]图9a为本公开实施例提供的第三种语音合成模型的训练方法流程图;
[0033]图9b为本公开实施例提供的第三种语音合成模型的训练架构示意图;
[0034]图10a为本公开实施例提供的第四种语音合成模型的训练方法流程图;
[0035]图10b为本公开实施例提供的第四种语音合成模型的训练架构示意图;
[0036]图11为公开实施例提供的语音合成装置的结构示意图;
[0037]图12为本公开实施例中提供的后处理装置的结构示意图;
[0038]图13是用来实现本公开实施例的电子设备的框图。
具体实施方式
[0039]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0040]为了方便对本公开所提供技术方案的理解,首先对本公开所涉及的基本架构进行简单介绍。如图1所示,本公开所涉及的基本架构包括语音合成装置和声码器,在语音合成装置和声码器之间还可以进一步包括后处理装置。
[0041]其中语音合成装置用以对待合成的文本进行处理,转化为声码器特征输出。后处理装置为本公开实施例中语音处理方法的主要执行主体,用以对语音合成装置输出的声码器特征进行优化处理后,输出给声码器。由声码器利用声码器特征得到最终合成的语音。
[0042]图2为本公开实施例提供的语音合成方法的流程图,该方法的执行主体是图1中所示的语音合成装置。该装置可以是位于用户终端的应用,或者还可以是位于用于终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者,还可以位于服务器端,本公开对此不加以限制。如图2中所示,该方法可以包括:
[0043]在201中,获取待合成的文本。
[0044]在202中,获取从文本中提取的韵律特征。
[0045]在203中,将文本和韵律特征输入语音合成模型,得到声码器特征。
[0046]在204中,将声码器特征输入声码器,得到合成的语音。
[0047]可以看出,本公开提供的技术方案在从文本中提取韵律特征后,语音合成模型利用韵律特征结合文本得到声码器特征,供声码器直接利用声码器特征合成语音,从而提高
语音合成技术的效率,继而保证了高实时率。
[0048]下面结合实施例对上述各步骤进行详细描述。首先对上述步骤201进行详细描述。
[0049]本公开中涉及的待合成的文本可以是预设的内容,例如开机语的内容、欢迎语的内容、特定场景下固定播报的内容等等。例如在用户终端定位到某个新的地区时,播报“XX地区欢迎您”(其中“XX”表示某个具体的地区名字)。再例如在导航场景下的导航文本“在前方XXX处左转”(其中“XXX”表示某个具体的建筑物名字),等等。
[0050]待合成的文本也可以是从第三方获得的文本内容,例如从第三方获取到的新闻内容、文章内容等等。
[0051]待合成的文本还可以是与用户进行交互过程中,响应于用户输入的语音生成的文本。例如用户输入语音“请问XXXX在什么地方”,响应于用户输入的该语音生成播报文本“XXXX在建设中路三号”。
[0052]下面结合实施例对上述步骤202即“获取从文本中提取的韵律特征”进行详细描述。
[0053]在本公开实施例中,韵律特征可以通过韵律预测模型从文本中提取。由韵律预测模型从文本中提取韵律特征,将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,包括:获取待合成的文本;获取从所述文本中提取的韵律特征;将所述文本和所述韵律特征输入语音合成模型,得到声码器特征;将所述声码器特征输入声码器,得到合成的语音。2.根据权利要求1所述的方法,其中,所述获取从所述文本中提取的韵律特征包括:将所述文本输入韵律预测模型,得到所述韵律特征;其中所述韵律预测模型包括第一编码器和第一解码器;所述第一编码器从所述文本中提取语言特征后,将所述语言特征输出至所述第一解码器;所述第一解码器利用预测的上一帧的韵律特征和所述语言特征,预测得到当前帧的韵律特征;或者,所述第一解码器从所述文本中提取语言特征后,将从所述文本中提取的播报风格特征与所述语言特征进行拼接,将得到的第一拼接特征输入所述第一解码器;所述第一解码器利用预测的上一帧的韵律特征和所述第一拼接特征,预测得到当前帧的韵律特征。3.根据权利要求1所述的方法,其中,所述语音合成模型包括第二编码器、第二解码器和后预测网络;所述第二编码器从所述文本中提取语言特征后,将所述语言特征和所述韵律特征进行拼接,或者将所述语言特征、韵律特征和说话人特征进行拼接,将拼接得到的第二拼接特征输出至所述第二解码器;所述第二解码器利用预测的上一帧的声学特征、所述第二拼接特征,预测当前帧的声学特征并输出至所述后预测网络;其中,所述声学特征包括语音频谱特征;所述后预测网络利用声学特征预测得到声码器特征。4.根据权利要求3所述的方法,其中,所述第二解码器利用预测的上一帧的声学特征、所述第二拼接特征,预测当前帧的声学特征包括:所述第二解码器将所述上一帧的声学特征经过前预测网络后得到的特征以及进行注意力处理后的所述第二拼接特征进行拼接,得到第三拼接特征;所述第三拼接特征经过长短期记忆网络LSTM处理后输入线性预测层,由线性预测层预测得到当前帧的声学特征。5.根据权利要求3所述的方法,其中,所述后预测网络利用声学特征预测得到声码器特征包括:所述后预测网络将声学特征经过CBHG模块的处理后,再经过N个预测模块的预测,由预测结果构成声码器特征,其中所述预测模块包括双向门控循环单元GRU和线性投影层,所述N为正整数。6.根据权利要求1所述的方法,其中,所述语音合成模型采用如下方式预先训练得到:获取训练样本,各训练样本包括文本样本以及对所述文本样本标注的韵律特征和声码器特征;将所述文本样本、标注的所述韵律特征作为语音合成模型的输入,将标注的所述声码器特征作为所述语音合成模型的目标输出,训练所述语音合成模型。7.根据权利要求1所述的方法,其中,所述语音合成模型采用如下方式预先训练得到:获取训练样本,各训练样本包括文本样本以及对所述文本样本标注的声学特征和声码
器特征;将标注的所述声学特征作为韵律提取模型的输入,所述韵律提取模型输出的韵律特征以及所述文本样本作为语言合成模型的输入,将标注的所述声码器特征作为所述语言合成模型的目标输出,训练所述韵律提取模型和所述语音合成模型。8.根据权利要求1所述的方法,其中,所述语音合成模型采用如下方式预先训练得到:获取训练样本,各训练样本包括文本样本以及对所述文本样本标注的声码器特征;将所述文本样本作为韵律预测模型的输入,所述韵律预测模型输出的韵律特征以及所述文本样本作为语言合成模型的输入,将标注的所述声码器特征作为所述语言合成模型的目标输出,训练所述韵律预测模型和所述语音合成模型。9.根据权利要求1所述的方法,其中,所述语音合成模型采用如下方式预先训练得到:获取训练样本,各训练样本包括文本样本以及对所述文本样本标注的声学特征和声码器特征;将标注的所述声学特征作为韵律提取模型的输入,所述韵律提取模型输出的韵律特征以及所述文本样本作为语言合成模型的输入,将标注的所述声码器特征作为所述语言合成模型的目标输出,将所述文本样本作为韵律预测模型的输入,所述韵律提取模型输出的韵律特征作为所述韵律预测模型的目标输出,训练所述韵律预测模型、韵律提取模型和所述语音合成模型。10.根据权利要求7或9所述的方法,其中,所述韵律提取模型包括:卷基层、双向GRU层和注意力层;标注的所述声学特征经过卷积层和双向GRU层后,将得到的特征与所述语音合成模型中所述第二编码器提取的语言特征输入注意力层进行注意力处理,得到韵律特征。11.根据权利要求6至9中任一项所述的方法,其中,所述获取训练样本包括:获取标准语音,确定所述标准语音对应的文本作为文本样本;从所述标准语音中提取声学特征和声码器特征中至少一种以所述文本样本进行标注;和/或,从所述文本样本中提取韵律特征以对所述文本样本进行标注。12.一种语音合成装置,包括:文本获取单元,用于获取待合成的文本;韵律提取单元,用于获取从所述文本中提取的韵律特征;语音合成单元,用于将所述文本和所述韵律特征输入语音合成模型,得到声码器特征;将所述声码器特征输入声码器,以得到合成的语音。13.根据权利要...

【专利技术属性】
技术研发人员:张立强侯建康孙涛贾磊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1