数据转换方法及计算机存储介质技术

技术编号:31986461 阅读:17 留言:0更新日期:2022-01-20 02:08
本申请实施例提供了一种数据转换方法及计算机存储介质,其中,数据转换方法包括:获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述待转换文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述待转换文本对应的语音频谱信息。通过本申请实施例,能够使得为待转换为语音的文本确定的韵律更为准确。换为语音的文本确定的韵律更为准确。换为语音的文本确定的韵律更为准确。

【技术实现步骤摘要】
数据转换方法及计算机存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种数据转换方法及计算机存储介质。

技术介绍

[0002]语音合成技术又称文语转换(Text to Speech)技术,其能将文字信息转化为标准流畅的语音,相当于给机器装上了人工嘴巴。而要达到更近似人声的效果,则需要高表现力语音合成,该种语音合成需要对韵律进行建模,通过韵律模型提升语音合成的表现力。
[0003]一般来说,韵律成分包含:基频、能量和时长。现有的韵律建模通常基于韵律的基频特征构建,但一方面,由于基频提取不准,导致韵律建模效果差,进一步导致由此获取到的韵律信息也不准确;另一方面,未考虑到影响韵律的因素之间的关联性,也造成韵律建模效果差,获取的韵律信息不准确。
[0004]因此,如何提供一种有效的韵律建模方式,获得更贴合实际人声的韵律效果,成为亟待解决的问题。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种数据转换方案,以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面,提供了一种数据转换方法,包括:获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述待转换文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述待转换文本对应的语音频谱信息。
[0007]根据本申请实施例的第二方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的数据转换方法。
[0008]根据本申请实施例提供的数据转换方案,在获取需要转换为语音的待转换文本的频谱时,综合考虑了待转换文本的音素、文本和目标人声的声纹特征。其中,基于音素和文本可以获得待转换文本的语言学特征,该特征携带有文本所对应的级别(如字符级别、词级别、句子级别等)的发音特征;基于文本和声纹特征可以预测获得待转换文本的隐藏韵律矢量,该矢量主要包含韵律的信息,采用这种方式下的韵律基于文本对应的特征获得,更为关注韵律自身的特性。而基于语言学特征、隐藏韵律矢量和声纹特征经处理最终获得的语音频谱信息,则更为贴合实际的声纹特征对应的目标人声的语音特点,与实际的目标人声的韵律更为接近。由此,使得后续基于获得的语音频谱信息生成的语音也更与实际人声相近。
[0009]可见,通过本申请实施例的方案,一方面,不再基于基频进行韵律建模,而是依据与韵律相关的多种信息进行韵律信息的提取,能够使得提取出的韵律更为准确;另一方面,综合考虑了影响韵律的多种因素(如音素、文本、目标人声的声纹等)之间的关系,也使得由此获得的韵律更为准确。
附图说明
[0010]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0011]图1为适用本申请实施例的数据转换方法的示例性系统的示意图;图2A为根据本申请实施例一的一种数据转换方法的步骤流程图;图2B为图2A所示实施例中的一种模型示例的示意图;图2C为图2A所示实施例中的一种场景示例的示意图;图3A为根据本申请实施例二的一种数据转换方法的步骤流程图;图3B为图3A所示实施例中的一种模型及其训练过程示例的示意图;图4为根据本申请实施例三的一种电子设备的结构示意图。
具体实施方式
[0012]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0013]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0014]图1示出了一种适用本申请实施例的数据转换方法的示例性系统。如图1所示,该系统100可以包括服务器102、通信网络104和/或一个或多个用户设备106,图1中示例为多个用户设备。
[0015]服务器102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中,服务器102可以执行任何适当的功能。例如,在一些实施例中,服务器102可以用于确定语音合成过程中需要使用的语音频谱信息。作为可选的示例,在一些实施例中,服务器102可以被用于基于待转换文本确定其对应的语音频谱信息,进而基于语音频谱信息进行语音合成。作为另一示例,在一些实施例中,服务器102可以基于待转换文本对应的音素、文本和目标人声的声纹确定其对应的语音频谱信息。
[0016]在一些实施例中,通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络104能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如,通信链路112)连接到通信网络104,该通信网络104能够经由一个或多个通信链路(例如,通信链路114)被链接到服务器102。通信链路可以是适合于在用户设备106和服务器102之间传送数据的任何通信链路,诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。
[0017]用户设备106可以包括适合于呈现界面以进行信息输入和输出、播放语音的任何一个或多个用户设备。在一些实施例中,用户设备106可以包括任何合适类型的设备。例如,在一些实施例中,用户设备106可以包括IOT设备、移动设备、平板计算机、膝上型计算机、台
式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。注意,在一些实施例中,用户设备106若具有较高的软硬件性能,也可替代实现服务器102的功能。
[0018]尽管将服务器102图示为一个设备,但是在一些实施例中,可以使用任何适当数量的设备来执行由服务器102执行的功能。例如,在一些实施例中,可以使用多个设备来实现由服务器102执行的功能。或者,可使用云服务实现服务器102的功能。
[0019]基于上述系统,本申请实施例提供了一种数据转换方法,以下通过多个实施例进行说明。
[0020]实施例一参照图2A,示出了根据本申请实施例一的一种数据转换方法的步骤流程图。
[0021]本实施例的数据转换方法包括以下步骤:步骤S202:获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量。
[0022]其中,音素是根据语音的自然属性划分出来的最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据转换方法,包括:获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述待转换文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述待转换文本对应的语音频谱信息。2.根据权利要求1所述的方法,其中,所述文本向量为所述待转换文本中的每个字符对应的字符文本向量。3.根据权利要求1或2所述的方法,其中,所述数据转换方法通过韵律模型执行,所述韵律模型至少包括:音素编码网络、文本编码网络、隐藏韵律矢量预测网络、向量拼接层和解码网络;所述音素编码网络,用于获取待转换文本对应的音素向量;所述文本编码网络,用于获取待转换文本对应的文本向量;所述隐藏韵律矢量预测网络,用于根据所述待转换文本对应的文本向量和获取的目标人声的声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;所述向量拼接层,用于对所述音素向量和所述文本向量进行加和,获得所述待转换文本对应的语言学特征向量;以及,对所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量进行拼接,生成拼接向量;所述解码网络,用于对所述拼接向量进行解码,获得所述待转换文本对应的语音频谱信息。4.根据权利要求3所述的方法,其中,所述文本编码网络包括字符编码网络和上下文编码网络;所述字符编码网络,用于对所述待转换文本进行字符级别的编码,生成用于和所述音素向量进行加和的字符文本向量;所述上下文编码网络,用于对所述待转换文本进行字符级别的编码,生成用于与所述声纹特征向量一起输入所述隐藏韵律矢量预测网络的字符文本向量。5.根据权利要求4所述的方法,其中,所述方法还包括:获取训练样本,所述训练样本包括待转换文本样本及对应的语音样本、和声纹特征样本向量,所述语音样本为频段为0

2KHz频段的语音样本;使用所述训练样本对所述韵律模型进行训练。6.根据权利要求5所述的方法,其中,所述韵律模型还包括韵律编码网络;所述使用所述训练样本对所述韵律模型进行训练,包括:将所述待转换文本样本对应的音素输入音素编码网络,获得对应的音素样本向量;将所述待转换文本样本的字符输入文本编码网络,获得对应的字符样本文本向量;将所述语音样本、所述音素样本向量、所述字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量;基于所述音素样本向量、所述字符样本文本向量、所述声纹特征样本向量和所述第一隐藏韵律样本矢量,对所述韵律模型进行训练。7.根据权利要求6所述的方法,其中,
所述将所述待转换文本样本的字符输入文本编码网络,获得对应的字符样本文本向量,包括:将所述待转换文本的字符分别输入字符编码网络和上下文编码网络,获得对应的第一字符样本文本向量和第二字符样本文本向量;所述将所述语音样本、所述音素样本向量、所述字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量,包括:将所述语音样本、所述音素样本向量、所述第一字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量。8.根据权利要求7所述的方法,其中,所述将所述语音样本、所述音素样本向量、所述第一字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量包括:通过所述韵律编码网络的第一卷积层基于所述音素样本向量和所述声纹特征...

【专利技术属性】
技术研发人员:任意雷鸣黄智颖张仕良陈谦鄢志杰
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1