语音合成模型生成方法和装置制造方法及图纸

技术编号:16781322 阅读:29 留言:0更新日期:2017-12-13 00:55
本申请公开了语音合成模型生成方法和装置。该方法的一具体实施方式包括:获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。实现了仅利用多个播报员的各自的不同的单一风格的语音对语音合成模型对应神经网络进行训练,得到可以合成每一个播报员的多个不同风格的语音的语音合成模型,降低训练开销。

【技术实现步骤摘要】
语音合成模型生成方法和装置
本申请涉及计算机领域,具体涉及语音领域,尤其涉及语音合成模型生成方法和装置。
技术介绍
语音合成模型通过对语音合成模型对应神经网络进行训练生成。为了向用户提供多个播报员的多个不同风格的合成的语音,需要针对每一个播报员,分别利用一个播报员的多个不同风格的语音用于训练,分别生成用于合成一个播报员的单一风格的语音合成模型,训练开销大。专利技术信息本申请提供了一种语音合成模型生成方法和装置,用于解决上述
技术介绍
部分存在的技术问题。第一方面,本申请提供了语音合成模型生成方法,该方法包括:获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。第二方面,本申请提供了语音合成模型生成装置,该装置包括:获取单元,配置用于获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;训练单元,配置用于利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。本申请提供的语音合成模型生成方法和装置,通过获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。实现了仅利用多个播报员的各自的不同的单一风格的语音对语音合成模型对应神经网络进行训练,得到可以合成每一个播报员的多个不同风格的语音的语音合成模型,降低训练开销。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出了根据本申请的语音合成模型生成方法的一个实施例的流程图;图2示出了根据本申请的语音合成模型生成装置的一个实施例的结构示意图;图3示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。请参考图1,其示出了根据本申请的语音合成模型生成方法的一个实施例的流程。该方法包括以下步骤:步骤101,获取多个类型的训练样本。在本实施例中,语音合成模型通过利用训练样本语音合成模型对应的神经网络进行训练而生成。为了对语音合成模型对应的神经网络进行训练,可以首先获取用于对语音合成模型对应的神经网络进行训练的多个类型的训练样本。在对语音合成模型对应的神经网络进行训练时,分别在将文本的特征设置在语音合成模型对应的神经网络的输入端,将语音的声学特征设置在语音合成模型对应的神经网络的输出端,对语音合成模型对应的神经网络以端到端的方式进行训练。在本实施例中,一个训练样本中包含文本和文本对应的语音。一个类型的训练样本包括:该类型的文本、该类型的播报员以该类型对应的语音的风格阅读该文本的该类型对应的语音的风格的语音。训练样本的类型与训练样本中的语音的风格可以是一一对应的。例如,新闻类型对应的语音的风格为新闻风格,小说类型对应的语音的风格为小说风格。一个新闻类型的训练样本中包含新闻类型的文本、新闻类型对应的播报员以该新闻类型的风格即读新闻的风格阅读该新闻类型的文本的新闻风格的语音。可以预先由新闻类型对应的播报员读一段新闻类型的文本,将一段新闻类型的文本和该播报员以新闻风格读一段新闻类型的文本作为一个新闻类型的训练样本。在本实施例中,播报员与训练样本的类型也可以是一一对应的。例如,新闻类型的训练样本、小说类型的训练样本各自对应一个播报员。由新闻类型对应的播报员分别读取多段新闻类型的文本,得到多个新闻类型的训练样本。每一个新闻类型的样本中包含一段新闻类型的文本和新闻类型对应的播报员以新闻风格读取一段新闻类型的文本的语音。由小说类型对应的播报员分别读取多段小说类型的文本,得到多个小说类型的训练样本。每一个小说类型的样本中包含一段小说类型的文本和小说类型对应的播报员以新闻风格读取一段小说类型的文本的语音。步骤102,利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练。在本实施例中,利用多个类型的训练样本和每一个类型的训练样本的风格标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型。一个训练样本中的语音的风格的标注信息可以表示该语音的风格。在一次训练过程中,在利用一个训练样本对语音合成模型对应的进行训练时,语音合成模型对应的神经网络可以根据每一个训练样本中的语音的风格的标注信息,确定用于训练的语音的风格,同时,还可以确定训练样本中的语音所属的播报员。利用多个类型的训练样本和每一个类型的训练样本的风格标注信息,对语音合成模型对应的神经网络进行多次训练之后,语音合成模型对应的神经网络可以同时学习到每一个播报员自身的声音的特征和每一个播报员对应的风格的特征。假设利用播报员A对应的新闻类型的训练样本和播报员B对应的小说类型的训练样本对语音合成模型对应的神经网络进行训练,由于语音合成模型对应的神经网络中的参数是利用每一个类型的训练样本进行训练时共享的,因此,在利用利用播报员A对应的新闻类型的训练样本和播报员B对应的小说类型的训练样本对语音合成模型对应的神经网络进行训练之后,语音合成模型对应的神经网络既可以学习出新闻风格的语音的特征即读新闻的特征和小说风格的语音的特征即读小说的特征,又可以学习出播报员A的语音的特征和播报员B的语音的特征。多次训练之后的语音合成模型对应的神经网络可以将学习出的播报员的A的语音的特征和学习出的读小说的特征结合,合成播报员A读小说的语音,可以将学习出的播报员的B的语音的特征和学习出读新闻的特征相结合,合成播报员B读新闻的语音。换言之,多次训练后的语音合成模型对应的神经网络可以称之为语音合成模型,该语音合成模型可以将学习出的播报员的A的语音的特征和学习出的读小说的特征结合,合成播报员A读小说的语音,可以将学习出的播报员的B的语音的特征和学习出读新闻的特征相结合,合成播报员B读新闻的语音。在本实施例的一些可选的实现方式中,语音合成模型对应的神经网络可以包含多个由底至上依次连接的神经网络。每一个语音合成模型对应的神经网络中的神经网络对应语音合成模型对应的神经网络的一层。例如,语音合成模型对应的神经网络由底至上包含多个依次连接的本文档来自技高网...
语音合成模型生成方法和装置

【技术保护点】
一种语音合成模型生成方法,其特征在于,所述方法包括:获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。

【技术特征摘要】
1.一种语音合成模型生成方法,其特征在于,所述方法包括:获取多个类型的训练样本,其中,一个类型的训练样本包括:所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音;利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型,所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。2.根据权利要求1所述的方法,其特征在于,利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息,对语音合成模型对应的神经网络进行训练,得到语音合成模型包括:将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入。3.根据权利要求2所述的方法,其特征在于,将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入包括:将所述类型的训练样本中的语音对应的风格向量与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出向量组合成与选取出的语音合成模型对应的神经网络中的一层的上一层中的神经网络的输入向量。4.根据权利要求2所述的方法,其特征在于,选取出的语音合成模型对应的神经网络中的一层为与语音合成模型对应的神经网络的输出层连接的一层;以及将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入包括:将所述类型的训练样本中的语音对应的风格向量与语音合成模型对应的神经网络的输出层连接的一层的输出向量组合成一个输入向量后输入到语音合成模型对应的神经网络的输出层。5.根据权利要求1-4之一所述的方法,其特征在于,在得到语音合成模型之后,所述方法还包括:接收输入的语音合成指令和文本,所述语音合成指令包括:用户选取的播报员的标识、用户选取的语音的风格的标识;利用语音合成模型合成用户选取的播报员的用户选取的语音的风格的所述文本对...

【专利技术属性】
技术研发人员:康永国
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1