个性化语音合成模型构建、语音合成和测试方法及装置制造方法及图纸

技术编号:28627691 阅读:47 留言:0更新日期:2021-05-28 16:24
本发明专利技术公开了一种个性化语音合成模型的构建方法、语音合成方法和测试方法及装置。其中,个性化语音合成模型的构建方法,包括:从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;从所述多个说话人中除了所述近似的训练数据所属的说话人之外,选择与所述用户属于相同类别的同类说话人;根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。本发明专利技术能够合成用户特定说话风格的语音,提升了用户体验。

【技术实现步骤摘要】
个性化语音合成模型构建、语音合成和测试方法及装置
本专利技术涉及人工智能
,特别涉及一种个性化语音合成模型的构建方法、语音合成方法和测试方法及装置。
技术介绍
人工智能技术中的语音交互场景需要进行个性化语音合成。个性化语音合成是业务上的强需求,也是语音合成领域未来的趋势之一。传统的语音合成技术中,利用上百个说话人的几百小时的训练数据,可以构建基于海量数据的多发言人语音合成系统,具体地,可以利用多说话人的语音合成模型,例如基于神经网络的文本到语音(NeuralTTS(Text-To-Speech))模型,在该模型的训练数据中,单个说话人的语音数据量往往在几个小时到几十小时不等,利用海量发音人的数据构建的语音合成系统,可以提供更稳定的语音合成效果。对于多说话人NeuralTTS模型来说,给定任何一个训练集中的说话人,利用该多说话人NeuralTTS模型,可以合成该说话人的声音,但是对于某个特定说话人(以下简称)而言,该模型无法合成该特定说话人的特定风格的语音。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种个性化语音合成模型的构建方法、语音合成方法和测试方法及装置。第一方面,本专利技术实施例提供一种个性化语音合成模型的构建方法,包括:从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;从所述多个说话人中除了所述近似的训练数据所属的说话人之外,选择与所述用户属于相同类别的同类说话人;根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。在一个或多个可能的实施例中,所述从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户近似的训练数据之前,还包括:对用户的数据进行处理,提取出对应的语言学特征和声学特征;所述根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型,包括:将所述同类说话人在所述多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征和声学特征和所述相近似的训练数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。在一个或多个可能的实施例中,所述从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户近似的训练数据,包括:从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户相近似的预设数量的邻近说话人的训练数据;和/或确定出与所述用户相近似的预设数量的邻近句子对应的训练数据;所述训练数据包括语音数据和对应的文本,以及所述文本的语言学特征和所述语音数据的声学特征。在一个或多个可能的实施例中,与所述用户相近似的预设数量的邻近说话人,通过下述方式确定:针对用户和所述多个说话人中的每个说话人,分别计算对应的矢量;分别确定多个说话人中的每个说话人与所述用户的矢量之间的距离并按大小排序,将从距离最小开始的预设数量的说话人确定为邻近说话人。在一个或多个可能的实施例中,与用户相近似的设定数量的邻近句子,通过下述方式确定:针对用户以及多个说话人中的每个说话人的每个句子,分别计算对应的矢量;分别确定多个说话人中的每个说话人的每个句子与用户的矢量之间的距离并按照大小排序,将从距离最小开始的预设数量的句子确定为邻近句子。在一个或多个可能的实施例中,所述用户的数据包括:语音数据和对应的文本;所述对用户的数据进行处理,提取出对应的语言学特征和声学特征,包括:将所述用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将所述用户语音数据通过语音识别和语音活动检测,确定音速边界;根据所述发音标注、韵律标注和音速边界,提取出对应的语言学特征;对所述用户的语音数据进行声学特征的提取。在一个或多个可能的实施例中,所述对所述用户的语音数据进行声学特征的提取之前,还包括:对所述语音数据进行包括能量规整、解混响和能量增强的预处理操作。在一个或多个可能的实施例中,所述相同类别是指按照说话人的下述条件任一或者组合条件所确定的同一类别:性别、年龄、说话方式和说话环境。第二方面,本专利技术实施例提供一种个性化语音合成模型的构建方法,包括:根据预设的场景,从用户的与所述场景对应的至少一个社交网络中选取与所述用户近似的用户,并获取所述近似的说话人的训练集数据;从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;根据与各场景下所述近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述场景下所述用户的个性化语音合成模型。第三方面,本专利技术实施例提供一种个性化语音合成模型的构建方法,包括:根据预设的各近似用户集合的优先级,按照优先级高低的顺序,依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人;根据查找到的至少一个近似说话人,获取所述至少一个近似说话人的训练集数据;从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。第四方面,本专利技术实施例提供一种个性化语音合成模型的构建方法,包括:根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合;接收所述客户端返回的从各级别的近似说话人集合中选择的近似说话人的标识,并根据所述标识获取所述近似说话人的训练集数据;从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。在一个或多个可能的实施例中,所述各级近似说话人的集合,包括下述一项或多项:所述用户的社交网络的至少一个用户集合;所述用户的属于同一地理区域的至少一个用户集合;用户根据自身偏好选择的至少一个用户集合。第五方面,本专利技术实施例提供一种个性化语音合成方法,包括:对待语音合成的文本进行处理,提取出对应的语言学特征;将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;本文档来自技高网...

【技术保护点】
1.一种个性化语音合成模型的构建方法,其特征在于,包括:/n从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;/n从所述多个说话人中除了所述近似的训练数据所属的说话人之外,选择与所述用户属于相同类别的同类说话人;/n根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。/n

【技术特征摘要】
1.一种个性化语音合成模型的构建方法,其特征在于,包括:
从多说话人语音合成模型的多个说话人的训练集数据中,确定出与用户近似的训练数据;
从所述多个说话人中除了所述近似的训练数据所属的说话人之外,选择与所述用户属于相同类别的同类说话人;
根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。


2.如权利要求1所述的方法,其特征在于,所述从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户近似的训练数据之前,还包括:
对用户的数据进行处理,提取出对应的语言学特征和声学特征;
所述根据与所述用户近似的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型,包括:
将所述同类说话人在所述多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并将用户对应的语言学特征和声学特征和所述相近似的训练数据共同作为训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。


3.如权利要求2所述的方法,其特征在于,所述从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户近似的训练数据,包括:
从多说话人语音合成模型的多个说话人的训练集数据中,确定出与所述用户相近似的预设数量的邻近说话人的训练数据;和/或确定出与所述用户相近似的预设数量的邻近句子对应的训练数据;
所述训练数据包括语音数据和对应的文本,以及所述文本的语言学特征和所述语音数据的声学特征。


4.如权利要求1或2所述的方法,其特征在于,与所述用户相近似的预设数量的邻近说话人,通过下述方式确定:
针对用户和所述多个说话人中的每个说话人,分别计算对应的矢量;
分别确定多个说话人中的每个说话人与所述用户的矢量之间的距离并按大小排序,将从距离最小开始的预设数量的说话人确定为邻近说话人。


5.如权利要求3所述的方法,其特征在于,与用户相近似的设定数量的邻近句子,通过下述方式确定:
针对用户以及多个说话人中的每个说话人的每个句子,分别计算对应的矢量;
分别确定多个说话人中的每个说话人的每个句子与用户的矢量之间的距离并按照大小排序,将从距离最小开始的预设数量的句子确定为邻近句子。


6.如权利要求2或3所述的方法,其特征在于,所述用户的数据包括:语音数据和对应的文本;
所述对用户的数据进行处理,提取出对应的语言学特征和声学特征,包括:
将所述用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将所述用户语音数据通过语音识别和语音活动检测,确定音速边界;根据所述发音标注、韵律标注和音速边界,提取出对应的语言学特征;
对所述用户的语音数据进行声学特征的提取。


7.如权利要求2、3或5所述的方法,其特征在于,所述对所述用户的语音数据进行声学特征的提取之前,还包括:
对所述语音数据进行包括能量规整、解混响和能量增强的预处理操作。


8.如权利要求1-3、5任一项所述的方法,其特征在于,所述相同类别是指按照说话人的下述条件任一或者组合条件所确定的同一类别:性别、年龄、说话方式和说话环境。


9.一种个性化语音合成模型的构建方法,其特征在于,包括:
根据预设的场景,从用户的与所述场景对应的至少一个社交网络中选取与所述用户近似的说话人,并获取所述近似的说话人的训练集数据;
从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
根据与各场景下所述近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述场景下所述用户的个性化语音合成模型。


10.一种个性化语音合成模型的构建方法,其特征在于,包括:
根据预设的各近似用户集合的优先级,按照优先级高低的顺序,依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人;
根据查找到的至少一个近似说话人,获取所述至少一个近似说话人的训练集数据;
从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
根据所述至少一个近似的说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。


11.一种个性化语音合成模型的构建方法,其特征在于,包括:
根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合;
接收所述客户端返回的从各级别的近似说话人集合中选择的近似说话人的标识,并根据所述标识获取所述近似说话人的训练集数据;
从多个说话人中除了所述近似的说话人之外,选择与所述用户属于相同类别的同类说话人;所述多个说话人为多说话人语音合成模型的训练集对应的说话人;
根据所述至少一个近似说话人的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。


12.如权利要求11所述的方法,其特征在于,所述各级近似说话人的集合,包括下述一项或多项:
所述用户的社交网络的至少一个用户集合;
所述用户的属于同一地理区域的至少一个用户集合;
用户根据自身偏好选择的至少一个用户集合。


13.一种个性化语音合成方法,其特征在于,包括:
对待语音合成的文本进行处理,提取出对应的语言学特征;
将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中,预测出所述待语音合成的文本对应的声学特征;
...

【专利技术属性】
技术研发人员:黄智颖雷鸣
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1