本发明专利技术公开了一种中英文跨语言语音合成方法、装置、电子设备及存储介质,该方法包括利用深度学习中序列到序列任务构建第一跨语言声学模型;将文本数据集处理成包括音素序列、声调序列和语言序列的基础语句;利用模型编码器将基础语句编码成高级上下文语义表示,同时在模型编码器的多个位置引入语言嵌入和说话人嵌入;利用注意力机制学习高级上下文语义表示和声学特征梅尔谱图的映射关系,得到线性加权后的高级上下文语义表示;利用模型解码器将线性加权后的高级上下文语义表示生成原始谱图。本发明专利技术方法基于多种策略融合,构建了两种跨语言声学模型,使本发明专利技术的中英文跨语言语音合成方法解决了现有的语音合成方法的不足。合成方法解决了现有的语音合成方法的不足。合成方法解决了现有的语音合成方法的不足。
【技术实现步骤摘要】
中英文跨语言语音合成方法、装置、电子设备及存储介质
[0001]本专利技术涉及语音合成
,尤其涉及一种中英文跨语言语音合成方法、装置、电子设备及存储介质。
技术介绍
[0002]随着手机、平板、智能家居及可穿戴设备等都开始接入语音功能,人机交互方式逐渐走入语音时代。与传统的人机交互不同的是,语音交互具有便捷性、智能性,可以使得机器具有像人一样听说读写的综合能力。语音合成是智能语音交互系统的最后一环,负责让机器说出特定文本、特定说话人的语音音频,其分为文本分析和声学模型建模两个部分。文本分析主要是对文本进行特征提取,为后端提供发音、韵律等文本相关的信息;后端的工作是基于前端提取的语言学特征来进行声学建模,从而获得自然可懂的语音输出。从18世纪初的机械模拟简单的单词、短语发音,到依赖大型录音片段数据库的拼接合成方式,再到建模语音参数并重建语音的参数合成系统,再到近十几年基于神经网络端到端建模的神经语音合成系统,语音合成经历了长足的发展。模型的构建方式更加简便、需要的专业知识更少、模型的性能更强,尤其是基于神经网络强大的学习能力,语音合成更加多元化,合成音频更加具有表现力,而且合成更加可控。
[0003]语音合成的发展不仅仅满足于可理解度和自然度两个层面,也诞生出了很多的研究方向,例如个性化语音合成、低资源语音合成,其中如何探索实现跨语言语音合成是非常重要的研究内容。现实生活场景中,夹杂英文词汇的文字和说话表达方式屡见不鲜,尤其是数学等教育场景下,英文字母、希腊字母、三角符号等数学公式的朗读,需要语音合成系统具备跨语言合成的能力,但目前主流的语音合成模型默认仅支持单语种合成。由于熟练掌握多语种的专业录音人员非常稀缺,高质量的中英文混读录音较少,而且混读音频的录制、标注成本高,价格昂贵,增加了跨语言合成任务的难度。幸运的是,大量高质量单语种语音数据的开源,使得跨语言语音合成系统的实现成为可能。因此,探索在单语种录音条件下实现自然流利的跨语言语音合成系统具有非常重要的研究意义。此外,在让机器能说的同时,还要保证机器说的自然,要求语音合成系统具有较高的表现力,因此韵律建模是必不可少的环节。中文的韵律预测以及韵律建模已经有较为成熟的方法,探索如何更好地建模中英文跨语言文本的韵律特征,提高跨语言语音合成系统的自然度和韵律同样是非常重要的研究内容。
技术实现思路
[0004]本专利技术针对上述问题,提供了一种中英文跨语言语音合成方法、装置、电子设备及存储介质,方法基于多种策略融合,构建了两种跨语言声学模型,使本专利技术的中英文跨语言语音合成方法解决了现有的语音合成方法的不足。
[0005]本专利技术的第一方面,一种中英文跨语言语音合成方法,包括以下步骤:
[0006]利用深度学习中序列到序列任务构建第一跨语言声学模型;
[0007]将文本数据集处理成包括音素序列、声调序列和语言序列的基础语句;
[0008]利用第一跨语言声学模型编码器将基础语句编码成高级上下文语义表示,同时在第一跨语言声学模型编码器的多个位置引入语言嵌入和说话人嵌入;
[0009]利用注意力机制学习高级上下文语义表示和声学特征梅尔谱图的映射关系,得到线性加权后的高级上下文语义表示;
[0010]利用第一跨语言声学模型解码器将线性加权后的高级上下文语义表示生成原始谱图。
[0011]进一步的,第一跨语言声学模型基于Tacotron模型,包括:基于CBHG的编码器、基于高斯混合分布的GMMv2b注意力机制模块和解码器。
[0012]进一步的,方法还包括利用基于经验重演的持续学习方法对第一跨语言声学模型进行微调,微调过程中利用基于正则的可塑权重稳固方法,将微调时的第一跨语言声学模型参数固定在微调前第一跨语言声学模型参数的极小误差范围内。
[0013]进一步的,方法还包括将中文的韵律结构扩展到中英文跨语言文本,具体方法包括:将英文单词或单字母作为中文四级韵律结构中的韵律词,根据文本对应音频中不同长度的停顿来标注韵律短语边界和语调短语边界,将韵律短语边界和语调短语边界作为音素混合到音素序列中。
[0014]进一步的,方法还包括根据基础语句的层次韵律构造层次韵律图,将图神经网络融入第一跨语言声学模型编码器中形成第二跨语言声学模型,图神经网络根据层次韵律图在空间域进行多次迭代用于在音素节点表示之间传播韵律信息。
[0015]进一步的,第二跨语言声学模型编码器包括卷积层、高速网络、门控图神经网络以及双向GRU,其中,卷积层用于提取输入基础语句的局部上下文表示;高速网络用于提取高维特征以构建鲁棒的输入节点表示;双向GRU用于学习输入基础语句的前向和后向文本表示。
[0016]本专利技术的第二方面,提供了一种中英文跨语言语音合成装置,所述装置包括:
[0017]第一跨语言声学模型构建单元,用于利用深度学习中序列到序列任务构建第一跨语言声学模型;
[0018]文本数据集处理单元:用于将文本数据集处理成包括音素序列、声调序列和语言序列的基础语句;
[0019]第一跨语言声学模型编码器单元,用于利用第一跨语言声学模型编码器将基础语句编码成高级上下文语义表示,同时在第一跨语言声学模型编码器的多个位置引入语言嵌入和说话人嵌入;
[0020]注意力机制学习单元,用于利用注意力机制学习高级上下文语义表示和声学特征梅尔谱图的映射关系,得到线性加权后的高级上下文语义表示;
[0021]第一跨语言声学模型解码器单元,用于利用第一跨语言声学模型解码器将线性加权后的高级上下文语义表示生成原始谱图。
[0022]进一步的,第一跨语言声学模型编码器单元还用于根据基础语句的层次韵律构造层次韵律图,将图神经网络融入第一跨语言声学模型编码器中形成第二跨语言声学模型,图神经网络根据层次韵律图在空间域进行多次迭代用于在音素节点表示之间传播韵律信息。
[0023]本专利技术的第三方面,提供了一种电子设备,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述中英文跨语言语音合成方法。
[0024]本专利技术的第四方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行上述中英文跨语言语音合成方法。
[0025]本专利技术提供的一种中英文跨语言语音合成方法、装置、电子设备及存储介质,在深入地研究了现有语音合成方法的基础上,设计一种多策略融合的中英文跨语言声学模型和基于图的跨语言声学模型。本专利技术主要包括多种策略融合的跨语言声学模型和基于图的表现力语音合成方法。为了提高跨语言声学模型的鲁棒性和合成语音的自然度,引入多种优化策略,在Tacotron模型的基础上提出了第一跨语言声学模型CS
‑
Tacotron:通过将模型输入优化为音素序列、音调序列和语言序列三部分来实现信息解耦并减少音素个数;通过在模型多个位置引入语言嵌入以更好地建模中英文语言切换时的自然度;通过在模型多个位置引入说话本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种中英文跨语言语音合成方法,其特征在于,包括以下步骤:利用深度学习中序列到序列任务构建第一跨语言声学模型;将文本数据集处理成包括音素序列、声调序列和语言序列的基础语句;利用第一跨语言声学模型编码器将基础语句编码成高级上下文语义表示,同时在第一跨语言声学模型编码器的多个位置引入语言嵌入和说话人嵌入;利用注意力机制学习高级上下文语义表示和声学特征梅尔谱图的映射关系,得到线性加权后的高级上下文语义表示;利用第一跨语言声学模型解码器将线性加权后的高级上下文语义表示生成原始谱图。2.根据权利要求1所述的中英文跨语言语音合成方法,其特征在于,第一跨语言声学模型基于Tacotron模型,包括:基于CBHG的编码器、基于高斯混合分布的GMMv2b注意力机制模块和解码器。3.根据权利要求1所述的中英文跨语言语音合成方法,其特征在于,方法还包括利用基于经验重演的持续学习方法对第一跨语言声学模型进行微调,微调过程中利用基于正则的可塑权重稳固方法,将微调时的第一跨语言声学模型参数固定在微调前第一跨语言声学模型参数的极小误差范围内。4.根据权利要求1所述的中英文跨语言语音合成方法,其特征在于,方法还包括将中文的韵律结构扩展到中英文跨语言文本,具体方法包括:将英文单词或单字母作为中文四级韵律结构中的韵律词,根据文本对应音频中不同长度的停顿来标注韵律短语边界和语调短语边界,将韵律短语边界和语调短语边界作为音素混合到音素序列中。5.根据权利要求1所述的中英文跨语言语音合成方法,其特征在于,方法还包括根据基础语句的层次韵律构造层次韵律图,将图神经网络融入第一跨语言声学模型编码器中形成第二跨语言声学模型,图神经网络根据层次韵律图在空间域进行多次迭代用于在音素节点表示之间传播韵律信息。6.根据权利要求5所述的中英文跨语言语音合成方法,其特征在于...
【专利技术属性】
技术研发人员:汤步洲,刘超,
申请(专利权)人:哈尔滨工业大学深圳,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。