语音合成模型生成方法和装置制造方法及图纸

技术编号：16781322 阅读：29 留言：0更新日期：2017-12-13 00:55

本申请公开了语音合成模型生成方法和装置。该方法的一具体实施方式包括：获取多个类型的训练样本，其中，一个类型的训练样本包括：所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音；利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息，对语音合成模型对应的神经网络进行训练，得到语音合成模型，所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。实现了仅利用多个播报员的各自的不同的单一风格的语音对语音合成模型对应神经网络进行训练，得到可以合成每一个播报员的多个不同风格的语音的语音合成模型，降低训练开销。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型生成方法和装置
本申请涉及计算机领域，具体涉及语音领域，尤其涉及语音合成模型生成方法和装置。
技术介绍
语音合成模型通过对语音合成模型对应神经网络进行训练生成。为了向用户提供多个播报员的多个不同风格的合成的语音，需要针对每一个播报员，分别利用一个播报员的多个不同风格的语音用于训练，分别生成用于合成一个播报员的单一风格的语音合成模型，训练开销大。专利技术信息本申请提供了一种语音合成模型生成方法和装置，用于解决上述
技术介绍
部分存在的技术问题。第一方面，本申请提供了语音合成模型生成方法，该方法包括：获取多个类型的训练样本，其中，一个类型的训练样本包括：所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音；利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息，对语音合成模型对应的神经网络进行训练，得到语音合成模型，所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。第二方面，本申请提供了语音合成模型生成装置，该装置包括：获取单元，配置用于获取多个类型的训练样本，其中，一个类型的训练样本包括：所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音；训练单元，配置用于利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息，对语音合成模型对应的神经网络进行训练，得到语音合成模型，所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。本申请提供的语音合成模型生成方法和装置，通过获取多个类型的训练样本，其中，一个类型的训练样本包括：所述类...

【技术保护点】
一种语音合成模型生成方法，其特征在于，所述方法包括：获取多个类型的训练样本，其中，一个类型的训练样本包括：所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音；利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息，对语音合成模型对应的神经网络进行训练，得到语音合成模型，所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。

【技术特征摘要】
1.一种语音合成模型生成方法，其特征在于，所述方法包括：获取多个类型的训练样本，其中，一个类型的训练样本包括：所述类型的文本、所述类型对应的播报员以所述类型对应的语音的风格阅读所述文本的所述风格的语音；利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息，对语音合成模型对应的神经网络进行训练，得到语音合成模型，所述语音合成模型用于合成每一个类型对应的播报员的多个风格的语音。2.根据权利要求1所述的方法，其特征在于，利用多个类型的训练样本和每一个类型的训练样本中的语音的风格的标注信息，对语音合成模型对应的神经网络进行训练，得到语音合成模型包括：将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入。3.根据权利要求2所述的方法，其特征在于，将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入包括:将所述类型的训练样本中的语音对应的风格向量与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出向量组合成与选取出的语音合成模型对应的神经网络中的一层的上一层中的神经网络的输入向量。4.根据权利要求2所述的方法，其特征在于，选取出的语音合成模型对应的神经网络中的一层为与语音合成模型对应的神经网络的输出层连接的一层；以及将所述类型的训练样本中的语音的风格的标注信息与选取出的语音合成模型对应的神经网络中的一层中的神经网络的输出相结合作为选取出的语音合成模型对应的神经网络中的一层的上一层的神经网络的输入包括:将所述类型的训练样本中的语音对应的风格向量与语音合成模型对应的神经网络的输出层连接的一层的输出向量组合成一个输入向量后输入到语音合成模型对应的神经网络的输出层。5.根据权利要求1-4之一所述的方法，其特征在于，在得到语音合成模型之后，所述方法还包括：接收输入的语音合成指令和文本，所述语音合成指令包括：用户选取的播报员的标识、用户选取的语音的风格的标识；利用语音合成模型合成用户选取的播报员的用户选取的语音的风格的所述文本对...

【专利技术属性】
技术研发人员：康永国，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人