【技术实现步骤摘要】
数据转换方法及计算机存储介质
[0001]本申请实施例涉及计算机
,尤其涉及一种数据转换方法及计算机存储介质。
技术介绍
[0002]语音合成技术又称文语转换(Text to Speech)技术,其能将文字信息转化为标准流畅的语音,相当于给机器装上了人工嘴巴。而要达到更近似人声的效果,则需要高表现力语音合成,该种语音合成需要对韵律进行建模,通过韵律模型提升语音合成的表现力。
[0003]一般来说,韵律成分包含:基频、能量和时长。现有的韵律建模通常基于韵律的基频特征构建,但一方面,由于基频提取不准,导致韵律建模效果差,进一步导致由此获取到的韵律信息也不准确;另一方面,未考虑到影响韵律的因素之间的关联性,也造成韵律建模效果差,获取的韵律信息不准确。
[0004]因此,如何提供一种有效的韵律建模方式,获得更贴合实际人声的韵律效果,成为亟待解决的问题。
技术实现思路
[0005]有鉴于此,本申请实施例提供一种数据转换方案,以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面,提供了一种数据转换方法,包括:获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述待转换文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述待转换文本对应的语音频谱信息。
[0007]根据本申请实施例的第二方面,提供了一种计 ...
【技术保护点】
【技术特征摘要】
1.一种数据转换方法,包括:获取待转换文本对应的音素向量、文本向量和目标人声的声纹特征向量;根据所述音素向量和所述文本向量,获得所述待转换文本对应的语言学特征向量;根据所述文本向量和所述声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;根据所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量,生成所述待转换文本对应的语音频谱信息。2.根据权利要求1所述的方法,其中,所述文本向量为所述待转换文本中的每个字符对应的字符文本向量。3.根据权利要求1或2所述的方法,其中,所述数据转换方法通过韵律模型执行,所述韵律模型至少包括:音素编码网络、文本编码网络、隐藏韵律矢量预测网络、向量拼接层和解码网络;所述音素编码网络,用于获取待转换文本对应的音素向量;所述文本编码网络,用于获取待转换文本对应的文本向量;所述隐藏韵律矢量预测网络,用于根据所述待转换文本对应的文本向量和获取的目标人声的声纹特征向量,预测获得所述待转换文本的隐藏韵律矢量;所述向量拼接层,用于对所述音素向量和所述文本向量进行加和,获得所述待转换文本对应的语言学特征向量;以及,对所述语言学特征向量、所述隐藏韵律矢量和所述声纹特征向量进行拼接,生成拼接向量;所述解码网络,用于对所述拼接向量进行解码,获得所述待转换文本对应的语音频谱信息。4.根据权利要求3所述的方法,其中,所述文本编码网络包括字符编码网络和上下文编码网络;所述字符编码网络,用于对所述待转换文本进行字符级别的编码,生成用于和所述音素向量进行加和的字符文本向量;所述上下文编码网络,用于对所述待转换文本进行字符级别的编码,生成用于与所述声纹特征向量一起输入所述隐藏韵律矢量预测网络的字符文本向量。5.根据权利要求4所述的方法,其中,所述方法还包括:获取训练样本,所述训练样本包括待转换文本样本及对应的语音样本、和声纹特征样本向量,所述语音样本为频段为0
‑
2KHz频段的语音样本;使用所述训练样本对所述韵律模型进行训练。6.根据权利要求5所述的方法,其中,所述韵律模型还包括韵律编码网络;所述使用所述训练样本对所述韵律模型进行训练,包括:将所述待转换文本样本对应的音素输入音素编码网络,获得对应的音素样本向量;将所述待转换文本样本的字符输入文本编码网络,获得对应的字符样本文本向量;将所述语音样本、所述音素样本向量、所述字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量;基于所述音素样本向量、所述字符样本文本向量、所述声纹特征样本向量和所述第一隐藏韵律样本矢量,对所述韵律模型进行训练。7.根据权利要求6所述的方法,其中,
所述将所述待转换文本样本的字符输入文本编码网络,获得对应的字符样本文本向量,包括:将所述待转换文本的字符分别输入字符编码网络和上下文编码网络,获得对应的第一字符样本文本向量和第二字符样本文本向量;所述将所述语音样本、所述音素样本向量、所述字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量,包括:将所述语音样本、所述音素样本向量、所述第一字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量。8.根据权利要求7所述的方法,其中,所述将所述语音样本、所述音素样本向量、所述第一字符样本文本向量和所述声纹特征样本向量输入韵律编码网络,获得对应的第一隐藏韵律样本矢量包括:通过所述韵律编码网络的第一卷积层基于所述音素样本向量和所述声纹特征...
【专利技术属性】
技术研发人员:任意,雷鸣,黄智颖,张仕良,陈谦,鄢志杰,
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。