本申请实施例公开了一种合成语音处理方法及相关装置,方法包括:获取针对第一用户的原始合成语音;提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。本申请提供的合成语音处理方法,能够改善合成语音的自然度、相似度,使之更接近自然语音,提升用户的交互体验。
【技术实现步骤摘要】
合成语音处理方法及相关装置
本申请涉及电子设备
,具体涉及一种合成语音处理方法及相关装置。
技术介绍
语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。近年来,随着人工智能技术的发展落地,人机交互变得越来越频繁,以语音为媒介的交互方式逐渐成为人机交互领域的主流形式,语音合成技术在其中的重要性也变得越来越凸显。
技术实现思路
本申请实施例提供了一种合成语音处理方法及相关装置,以期改善合成语音的自然度和相似度,使之更接近自然录音。第一方面,本申请实施例提供一种合成语音处理方法,包括:获取针对第一用户的原始合成语音;提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。第二方面,本申请实施例提供一种合成语音处理装置,包括处理单元和通信单元,其中,所述处理单元,用于通过所述通信单元获取针对第一用户的原始合成语音;以及用于提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;以及用于通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;以及用于根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。可以看出,本申请实施例中,首先获取针对第一用户的原始合成语音;然后提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;再然后通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;最后根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。可见,本申请提供的合成语音处理方法,能够改善合成语音的自然度、相似度,使之更接近自然语音,提升用户的交互体验。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种合成语音处理系统的示意图;图2a是本申请实施例提供的一种合成语音处理方法的流程示意图;图2b是本申请实施例提供的一种生成器模型架构示意图;图3a是本申请实施例提供的一种正向训练模型的结构示意图;图3b是本申请实施例提供的一种全向训练模型的结构示意图图3c本申请实施例提供的一种循环一致性损失计算流程示意图;图4本申请实施例提供的一种电子设备的结构示意图;图5本申请实施例提供的一种合成语音处理装置的功能单元组成框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。目前,对于合成语音的增强处理,现有技术一般采用前馈神经网络对幅度谱建模,将合成语音的幅度谱映射到自然语音幅度谱,计算两者的最小均方误差(MinimumMeanSquareError,MMSE)作为损失函数,训练幅度谱增强模型,由于没有考虑幅度谱的时频相关性,因此模型精度不够,且模型增强的幅度谱存在一定的过平滑效应,增强后的语音存在模糊现象,音质不够清脆自然。针对上述问题,本申请实施例提供了一种合成语音处理方法及相关装置,下面结合附图对本实施例进行详细介绍。如图1所示,图1是本申请实施例提供的一种合成语音处理系统的示意图,该合成语音处理系统100包括模型训练设备110和模型应用设备120,所述模型训练设备110用于全向训练模型或者正向训练模型的模型训练,该模型训练设备110可以是服务器、分布式数据处理系统等数据处理设备,此处不做唯一限定。所述模型应用设备120内置有预先训练好的正向生成器模型,该模型应用设备120可以是移动终端、笔记本等电子设备,此处不做唯一限定。所述模型训练设备110与所述模型应用设备120通信连接,模型训练设备110根据样本数据训练模型得到训练好的正向生成器模型,并将正向生成器模型下发给模型应用设备120进行应用。此外,模型训练设备和模型应用设备也有可能集成为一体式设备,该一体式设备的具体设备形态不做唯一限定。请参阅图2a,图2a是本申请实施例提供的一种合成语音处理方法的流程示意图,该合成语音处理方法应用于如图1所示的合成语音处理系统,如图所示,本合成语音处理方法包括如下步骤。S201,获取针对第一用户的原始合成语音。其中,第一用户为本次语音合成事本文档来自技高网...
【技术保护点】
1.一种合成语音处理方法,其特征在于,包括:/n获取针对第一用户的原始合成语音;/n提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;/n通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;/n根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。/n
【技术特征摘要】
1.一种合成语音处理方法,其特征在于,包括:
获取针对第一用户的原始合成语音;
提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;
通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;
根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。
2.根据权利要求1所述的方法,其特征在于,所述获取针对第一用户的原始合成语音,包括:
获取待合成的文本;
根据所述待合成的文本生成针对所述第一用户的原始合成语音。
3.根据权利要求1所述的方法,其特征在于,所述获取针对第一用户的原始合成语音,包括:
获取第二用户的原始自然语音;
根据预先训练好的音色转换模型处理所述原始自然语音,得到针对所述第一用户的原始合成语音。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述正向生成器模型包括输入层、隐层、输出层;所述隐层包括顺序连接的下采样层、残差连接块、上采样层;
所述输入层连接所述下采样层,所述上采样层连接所述输出层;
所述输入层还连接所述输出层。
5.根据权利要求4所述的方法,其特征在于,所述正向生成器模型的训练模型包括以下任意一种:
全向训练模型,所述全向训练模型包括正向训练模型和反向训练模型;以及,
所述正向训练模型;
其中,所述正向训练模型和所述反向训练模型均采用对抗训练机制。
6.根据权利要5所述的方法,其特征在于,所述正向生成器模型的训练模型包括所述全向训练模型;
所述正向训练模型包括所述正向生成器模型和正向判别器模型...
【专利技术属性】
技术研发人员:伍宏传,江源,王智国,胡国平,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。