多语言语音合成方法、系统、设备和存储介质技术方案

技术编号:31706584 阅读:19 留言:0更新日期:2022-01-01 11:08
本发明专利技术公开了一种多语言语音合成方法、系统、设备和存储介质,可应用于人工智能技术领域。本发明专利技术方法包括:获取多种类型的语言文本和语言编号,每种语言文本对应一种所述语言编号;将多种类型的语言编号输入语言编码模型,生成与语言文本对应的参数向量;将多种类型的语言文本输入文本编码模型,从语言编码模型提取语言文本对应的参数向量;每个文本编码组根据参数向量对语言文本进行编码,得到语言文本的输出向量;将语音合成参数信息和输出向量进行拼接,得到目标语言向量;对目标语言向量进行梅尔谱解码,得到梅尔谱图;将梅尔谱图转换成目标语音。本发明专利技术无需依赖一个人多种语言的能力,即能提高多语言语音转换结果的准确率。即能提高多语言语音转换结果的准确率。即能提高多语言语音转换结果的准确率。

【技术实现步骤摘要】
多语言语音合成方法、系统、设备和存储介质


[0001]本专利技术涉及人工智能
,尤其是一种多语言语音合成方法、系统、设备和存储介质。

技术介绍

[0002]端到端语音合成已经能够实时产生听感自然的似人语音。当扩展这些端到端的语音合成模型以应用于多种语言时,扩展后的语音合成模型无法较好地进行多种语言语音合成,例如在多种语言之间的训练不平衡时,语音合成模型无法将训练量较少的语言转换成语音。相关技术中,多语言语音合成主要采取迁移学习、知识共享和语音克隆三个思路。迁移学习是通过迁移高质量的数据语言训练得到的合成模型以训练低质量数据资源对应的语音合成模型。知识共享考虑使用多语言数据联合训练单一的共享合成模型。语音克隆需要同一说话人录制多种语言的语音,即跨语言语音克隆。而上述三种多语言语音合成方式只同时支持2

3种语言,或需要大量训练数据。

技术实现思路

[0003]本专利技术的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
[0004]为此,本专利技术实施例提供了一种多语言语音合成方法、系统、设备和存储介质,无需大量训练数据,即能提高多语言语音转换结果的准确率。
[0005]一方面,本专利技术实施例提供了一种多语言语音合成方法,包括以下步骤:
[0006]获取多种类型的语言文本和语言编号,每种所述语言文本对应一种所述语言编号;
[0007]将多种类型的所述语言编号输入语言编码模型,以生成与所述语言文本对应的参数向量;
[0008]将多种类型的所述语言文本输入文本编码模型,以提取所述语言文本对应的所述参数向量,其中,所述文本编码模型包括多个文本编码组;
[0009]每个所述文本编码组根据所述参数向量对所述语言文本进行编码,得到所述语言文本的输出向量;
[0010]将预先获取的语音合成参数信息和所述输出向量进行拼接,得到目标语言向量;
[0011]对所述目标语言向量进行梅尔谱解码,得到梅尔谱图;
[0012]将所述梅尔谱图转换成目标语音。
[0013]另一方面,本专利技术实施例提供了一种多语言语音合成系统,包括:
[0014]获取模块,用于获取多种类型的语言文本和语言编号,每种所述语言文本对应一种所述语言编号;
[0015]第一输入模块,用于将多种类型的所述语言编号输入语言编码模型,以生成与所述语言文本对应的参数向量;
[0016]第二输入模块,用于将多种类型的所述语言文本输入文本编码模型,以提取所述
语言文本对应的所述参数向量,其中,所述文本编码模型包括多个文本编码组;
[0017]编码模块,用于每个所述文本编码组根据所述参数向量对所述语言文本进行编码,得到所述语言文本的输出向量;
[0018]拼接模块,用于将预先获取的语音合成参数信息和所述输出向量进行拼接,得到目标语言向量;
[0019]解码模块,用于对所述目标语言向量进行梅尔谱解码,得到梅尔谱图;
[0020]转换模块,用于将所述梅尔谱图转换成目标语音。
[0021]另一方面,本专利技术实施例提供了一种多语言语音合成设备,包括:
[0022]至少一个存储器,用于存储程序;
[0023]至少一个处理器,用于加载所述程序以执行前面实施例的多语言语音合成方法。
[0024]另一方面,本专利技术实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行前面实施例的多语言语音合成方法。
[0025]本专利技术实施例的有益效果包括:本实施例通过获取具有对应关系的语言文本和语言编号,将语言编号输入语言编码模型,并控制语言编码模型生成语言编号对应的所述语言文本的参数向量,接着将多种类型的语言文本输入文本编码模型,控制文本编码模型内的多个文本编码组从语言编码模型提取语言文本对应的参数向量,并控制每个文本编码组根据参数向量对语言文本进行编码,得到语言文本对应的输出向量,然后将预先获取的语音合成参数信息和输出向量进行拼接后得到目标语言向量,对目标语言向量进行梅尔谱解码后得到梅尔谱图,将梅尔谱图转换成目标语音,本实施例通过多个文本编码组分别对不同的语言文本进行处理,从而无需依赖一个人多种语言的能力,也无需大量的训练数据,即能提高多语言语音转换结果的准确率。
[0026]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易将,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0027]附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。
[0028]图1为本专利技术实施例的一种多语言语音合成方法的流程图;
[0029]图2为本专利技术实施例的一种多语言语音合成模型的结构示意图;
[0030]图3为本专利技术实施例的一种多语言语音合成系统的模块示意图;
[0031]图4为本专利技术实施例的一种多语言语音合成设备的模块示意图;
[0032]图5为本专利技术实施例的一种多语言语音合成设备的结构示意图。
具体实施方式
[0033]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0034]需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻
辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0035]语音合成又称为文语转换(Text to Speech)技术,指将任意文字信息实时转化为标准流畅的语音朗读出来。在语音合成的过程中,需要先对语言合成模型进行训练。目前,对于多语音合成模型的训练过程,主要依赖于说话人具有多种类型的语言说话能力,例如,对于多语言合成模型A,当需要训练中文语音合成、英文语音合成、法语语音合成时,需要说话人能够同时具备录制中文语音、英文语音和法语语音的能力。具体地,模型在训练过程中,将中文文本、英文文本和法语文本分与该说话人的语音建立联系,并训练学习这种关联联系,比如学习中文文本转换成中文语音的联系、中文文本转换成英语语音的联系、英文文本转换成英文语音的联系、英文文本转换成中文的联系,这种联系依赖于这些语音来自于同一个说话人的语音,从而使得多语言模型过于依赖说话人的语言能力。
[0036]基于此,本专利技术实施例提供了一种多语言语音合成方法、系统、设备和存储介质。本实施例的方法通过在文本编码模型内设置多个文本编码组,以通过多个文本编码组分别对不同的语言文本进行处理,从而无需依赖一个人多种语言的能力,也无需大量的训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语言语音合成方法,其特征在于,包括以下步骤:获取多种类型的语言文本和语言编号,每种所述语言文本对应一种所述语言编号;将多种类型的所述语言编号输入语言编码模型,以生成与所述语言文本对应的参数向量;将多种类型的所述语言文本输入文本编码模型,以提取所述语言文本对应的所述参数向量,其中,所述文本编码模型包括多个文本编码组;每个所述文本编码组根据所述参数向量对所述语言文本进行编码,得到所述语言文本的输出向量;将预先获取的语音合成参数信息和所述输出向量进行拼接,得到目标语言向量;对所述目标语言向量进行梅尔谱解码,得到梅尔谱图;将所述梅尔谱图转换成目标语音。2.根据权利要求1所述的一种多语言语音合成方法,其特征在于,每个所述文本编码组包括分组卷积层和双向门控循环层,所述分组卷积层用于提取所述语言文本的局部信息,所述双向门控循环层用于提取所述语言文本的上下文信息。3.根据权利要求2所述的一种多语言语音合成方法,其特征在于,每个所述文本编码组还包括批归一化层、第一激活层和筛选层,所述批归一化层的输入端连接所述分组卷积层的输出层,所述批归一化层的输出端连接所述第一激活层的输入端,所述第一激活层的输出端连接所述筛选层的输入端,所述筛选层的输出端连接所述双向门控循环层的输入端;所述批归一化层用于将所述分组卷积层输出的所述局部信息输入到所述第一激活层的敏感区;所述第一激活层用于在所述局部信息增加非线性特征;所述筛选层用于确定当前工作的神经元。4.根据权利要求1所述的一种多语言语音合成方法,其特征在于,所述语言编码模型包括嵌入层、全连接层和第二激活层;所述嵌入层用于将所述语言编号转换成嵌入向量;所述全连接层用于对所述嵌入向量进行分类;所述第二激活层用于...

【专利技术属性】
技术研发人员:郭洋王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1