韵律预测方法、训练方法、装置、电子设备和介质制造方法及图纸

技术编号:27456988 阅读:20 留言:0更新日期:2021-02-25 05:01
本申请公开了一种韵律预测方法、训练方法、装置、电子设备和介质,涉及语音合成、自然语言处理NLP、深度学习领域。实现方案为:获取包含第一语言的文本片段和第二语言的文本片段的混合文本;分别对第一语言的文本片段和第二语言的文本片段中各字符编码,得到各第一字符向量及各第二字对符向量;根据各字符在混合文本中的语序对第一字符向量和第二字符向量排序,得到向量序列;将向量序列输入经过训练的韵律预测模型,得到第一字符向量和第二字符向量切换位置处的过渡韵律;将过渡韵律拼接在第一语言的文本片段对应的韵律和第二语言的文本片段对应的韵律之间,以得到混合文本的韵律。由此,可以改善混合文本语音合成的韵律效果。果。果。

【技术实现步骤摘要】
韵律预测方法、训练方法、装置、电子设备和介质


[0001]本申请涉及语音合成、NLP(Natural Language Processing,自然语言处理)、深度学习等AI(Artificial Intelligence,人工智能)
,具体地,本申请提供了一种韵律预测方法、训练方法、装置、电子设备和介质。

技术介绍

[0002]语音合成技术,又称TTS(Text to Speech,文语转换)技术,能够将任意文字信息实时转化为标准且流畅的语音朗读出来。语音合成的一个关键步骤是韵律预测,韵律预测又可以细分为韵律层级预测、时长预测和音高预测等,韵律层级在TTS中直接影响合成语音的自然度和流畅度。
[0003]随着世界经济的快速发展、国际文化交流的日益频繁,以及互联网技术的高速发展,全球信息化程度迅速提高,在一个语言的文本中经常会出现其他语言的文本,上述文本称为混语文本或混合文本。如何对混合文本的韵律进行预测至关重要。

技术实现思路

[0004]本申请提供了一种用于韵律预测方法、训练方法、装置、电子设备和介质。
[0005]根据本申请的一方面,提供了一种韵律预测方法,包括:
[0006]获取混合文本;其中,所述混合文本中包含第一语言的文本片段,和包含第二语言的文本片段;
[0007]对所述第一语言的文本片段中各字符编码得到对应的第一字符向量,对所述第二语言的文本片段中各所述字符编码得到对应的第二字符向量;
[0008]根据各所述字符在所述混合文本中的语序,对所述第一字符向量和所述第二字符向量排序,得到向量序列;
[0009]将所述向量序列输入经过训练的韵律预测模型,得到所述第一字符向量和所述第二字符向量切换位置处的过渡韵律;
[0010]将所述过渡韵律拼接在所述第一语言的文本片段对应的韵律和所述第二语言的文本片段对应的韵律之间,以得到所述混合文本的韵律。
[0011]根据本申请的另一方面,提供了一种韵律预测模型的训练方法,所述韵律预测模型应用于如前述实施例所述韵律预测方法,所述训练方法包括:
[0012]获取训练样本,其中,所述训练样本包括参考文本和韵律标注,所述参考文本包括第一语言的文本片段和第二语言的文本片段,所述韵律标注,用于表征所述参考文本中所述第一语言的文本片段和所述第二语言的文本片段之间的过渡韵律;
[0013]采用所述训练样本,对所述韵律预测模型进行训练,以使韵律预测模型输出得到的韵律与所述韵律标注之间的差异最小化。
[0014]根据本申请的又一方面,提供了一种韵律预测装置,包括:
[0015]获取模块,用于获取混合文本;其中,所述混合文本中包含第一语言的文本片段,
和包含第二语言的文本片段;
[0016]编码模块,用于对所述第一语言的文本片段中各字符编码得到对应的第一字符向量,对所述第二语言的文本片段中各所述字符编码得到对应的第二字符向量;
[0017]排序模块,用于根据各所述字符在所述混合文本中的语序,对所述第一字符向量和所述第二字符向量排序,得到向量序列;
[0018]输入模块,用于将所述向量序列输入经过训练的韵律预测模型,得到所述第一字符向量和所述第二字符向量切换位置处的过渡韵律;
[0019]拼接模块,用于将所述过渡韵律拼接在所述第一语言的文本片段对应的韵律和所述第二语言的文本片段对应的韵律之间,以得到所述混合文本的韵律。
[0020]根据本申请的再一方面,提供了一种韵律预测模型的训练装置,所述韵律预测模型应用于如前述实施例所述韵律预测装置,所述训练装置包括:
[0021]获取模块,用于获取训练样本,其中,所述训练样本包括参考文本和韵律标注,所述参考文本包括第一语言的文本片段和第二语言的文本片段,所述韵律标注,用于表征所述参考文本中所述第一语言的文本片段和所述第二语言的文本片段之间的过渡韵律;
[0022]训练模块,用于采用所述训练样本,对所述韵律预测模型进行训练,以使韵律预测模型输出得到的韵律与所述韵律标注之间的差异最小化。
[0023]根据本申请的再一方面,提供了一种电子设备,包括:
[0024]至少一个处理器;以及
[0025]与所述至少一个处理器通信连接的存储器;其中,
[0026]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请上述实施例提出的韵律预测方法,或者,执行本申请上述实施例提出的韵律预测模型的训练方法。
[0027]根据本申请的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请上述实施例提出的韵律预测方法,或者,执行本申请上述实施例提出的韵律预测模型的训练方法。
[0028]根据本申请的再一方面,提供了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行本申请上述实施例提出的韵律预测方法,或者,执行本申请上述实施例提出的韵律预测模型的训练方法。
[0029]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0031]图1为本申请实施例一所提供的韵律预测方法的流程示意图;
[0032]图2为本申请实施例二所提供的韵律预测方法的流程示意图;
[0033]图3为本申请实施例三所提供的韵律预测方法的流程示意图;
[0034]图4为本申请实施例中的韵律预测流程示意图;
[0035]图5为本申请实施例四所提供的韵律预测模型的训练方法的流程示意图;
[0036]图6为本申请实施例五所提供的韵律预测装置的结构示意图;
[0037]图7为本申请实施例六所提供的韵律预测模型的训练装置的结构示意图;
[0038]图8是根据本申请实施例的韵律预测方法或韵律预测模型的训练方法的电子设备的框图。
具体实施方式
[0039]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0040]现有技术中,在中英文混合语言的语音合成中,通常中文和英文各自采用独立的模型来实现韵律的预测。这种方式下,在中英文交界处,预测的韵律效果欠佳,而韵律在语音合成中直接影响合成语音的自然度和流畅度,在韵律效果不佳时,将严重影响合成语音的自然度和流畅度。
[0041]因此,本申请主要针对现有技术中预测的韵律效果欠佳,严重影响合成语音的自然度和流畅度的技术问题,提出一种韵律预测方法。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种韵律预测方法,所述方法包括:获取混合文本;其中,所述混合文本中包含第一语言的文本片段,和包含第二语言的文本片段;对所述第一语言的文本片段中各字符编码得到对应的第一字符向量,对所述第二语言的文本片段中各所述字符编码得到对应的第二字符向量;根据各所述字符在所述混合文本中的语序,对所述第一字符向量和所述第二字符向量排序,得到向量序列;将所述向量序列输入经过训练的韵律预测模型,得到所述第一字符向量和所述第二字符向量切换位置处的过渡韵律;将所述过渡韵律拼接在所述第一语言的文本片段对应的韵律和所述第二语言的文本片段对应的韵律之间,以得到所述混合文本的韵律。2.根据权利要求1所述的韵律预测方法,其中,所述获取混合文本,包括:获取待预测文本;识别所述待预测文本中包含所述第二语言的文本片段;对所述待预测文本从位于所述第二语言的文本片段之前设定个数的第一语言字符开始截取,截取至位于所述第二语言的文本片段之后的设定个数的所述第一语言字符,以得到所述混合文本。3.根据权利要求1所述的韵律预测方法,其中,所述将所述向量序列输入经过训练的韵律预测模型,得到所述第一字符向量和所述第二字符向量切换位置处的过渡韵律之后,所述方法还包括:在所述第一语言的文本片段与所述第二语言的文本片段之间具有标点的情况下,查询预设的韵律规则,以确定与所述标点匹配的韵律规则;根据所述标点匹配的韵律规则,对所述过渡韵律进行修正。4.根据权利要求1所述的韵律预测方法,其中,所述韵律预测模型包括双向长短期记忆网络LSTM层和全连接层;其中,双向LSTM层,用于对输入的所述向量序列进行双向特征提取;所述全连接层,用于对所述双向LSTM提取的特征进行分类,得到所述过渡韵律。5.根据权利要求4所述的韵律预测方法,其中,所述全连接层为至少两个;其中,一个所述全连接层,用于对所述双向LSTM提取的特征分类得到所述第一字符向量切换为所述第二字符向量的位置处的所述过渡韵律;另一个所述全连接层,用于对所述双向LSTM提取的特征分类得到所述第二字符向量切换为所述第一字符向量的位置处的所述过渡韵律。6.一种韵律预测模型的训练方法,所述韵律预测模型应用于如权利要求1-5任一项所述韵律预测方法,所述训练方法包括:获取训练样本,其中,所述训练样本包括参考文本和韵律标注,所述参考文本包括第一语言的文本片段和第二语言的文本片段,所述韵律标注,用于表征所述参考文本中所述第一语言的文本片段和所述第二语言的文本片段之间的过渡韵律;采用所述训练样本,对所述韵律预测模型进行训练,以使韵律预测模型输出得到的韵律与所述韵律标注之间的差异最小化。
7.一种韵律预测装置,所述装置包括:获取模块,用于获取混合文本;其中,所述混合文本中包含第一语言的文本片段,和包含第二语言的文本片段;编码模块,用于对所述第一语言的文本片段中各字符编码得到对应的第一字符向量,对所述第二语言的文本片段中各所述字符编码得到对应的第二字符向量;排序模块,用于根据各所述字符在所述混合文本中的语序,对所述第一字符向量和所...

【专利技术属性】
技术研发人员:聂志朋高占杰陈昌滨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1