System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及语音合成,特别是涉及一种调核位置预测方法、装置、设备和存储介质。
技术介绍
1、语音合成又称tts(text to speech,文语转换),包括前端模块和后端模块。其中,前端模块用于从输入文本中提取与发音相关的语言学与声学特征。前端模块的优劣将直接影响合成音频的各项准确度指标,进而影响整体表现,因此前端模块是语音合成全流程中重要的一环。
2、日语是一种音高重音语言,日语的调核位置(即语调核心或重音位置)不仅决定了句子中音节的高低升降变化,还反映了句子的语义重点和情感表达。在日语语音合成的过程中,通常需要前端模块预测日语文本的调核位置。对于日语语音合成来说,调核位置预测的准确与否,直接影响合成语音的自然度和可懂度。
3、因此,如何提高日语调核位置预测的准确性,成为亟待解决的技术问题。
技术实现思路
1、本申请主要解决的技术问题是提供一种调核位置预测方法、装置、设备和计算机可读存储介质,能够提高目标日语文本的调核位置预测结果的准确性。
2、为解决上述技术问题,本申请采用的一个技术方案是:提供一种调核位置预测方法,该方法包括:获取目标日语文本对应的目标短语停顿特征、目标音素特征和目标文本特征;对目标短语停顿特征、目标音素特征和目标文本特征进行融合,得到目标融合特征;利用目标融合特征进行调核位置预测,得到目标日语文本对应的调核位置预测结果。
3、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种调核位置预测装置,该装置包括
4、为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,存储器存储有程序指令;处理器用于执行存储器中存储的程序指令,以实现上述调核位置预测方法。
5、为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,程序指令能够被处理器执行以实现上述调核位置预测方法。
6、以上方案,通过融合目标日语文本对应的目标短语停顿特征、目标音素特征和目标文本特征,得到目标融合特征,并利用目标融合特征进行调核位置预测,得到目标日语文本对应的调核位置预测结果。由于日语调核位置和短语停顿边界内的文本和发音相关,并且,目标短语停顿特征、目标音素特征和目标文本特征能够分别反映目标日语文本的短语停顿信息、发音信息和文本语义信息,因此,利用目标融合特征进行调核位置预测,能够综合目标日语文本的短语停顿、发音以及文本语义这三个不同维度的信息,从而使得预测得到的调核位置预测结果准确性较高。
本文档来自技高网...【技术保护点】
1.一种调核位置预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取目标日语文本对应的目标短语停顿特征、目标音素特征和目标文本特征,包括:
3.根据权利要求2所述的方法,其特征在于,确定所述目标短语停顿特征的步骤由韵律预测网络执行,所述韵律预测网络包括第一特征提取子网络、第二特征提取子网络和短语停顿预测子网络;
4.根据权利要求3所述的方法,其特征在于,所述韵律预测网络还包括长停顿预测子网络,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,
6.根据权利要求5所述的方法,其特征在于,
7.根据权利要求3所述的方法,其特征在于,确定所述目标文本特征的步骤包括:
8.根据权利要求1所述的方法,其特征在于,
9.根据权利要求8所述的方法,其特征在于,所述第三特征提取子网络包括第一嵌入子网络、第二嵌入子网络和循环神经子网络;利用所述第三特征提取子网络对音节粒度的所述目标短语停顿特征和音节粒度的所述目标音素特征进行特征提取,得到所述第一提取特征,包
10.根据权利要求1所述的方法,其特征在于,所述利用所述目标融合特征进行调核位置预测,得到所述目标日语文本对应的调核位置预测结果,包括:
11.根据权利要求1所述的方法,其特征在于,获取所述目标融合特征以及利用所述目标融合特征进行调核位置预测的步骤均由调核位置预测网络执行,所述调核位置预测网络的训练步骤包括:
12.一种调核位置预测装置,其特征在于,所述装置包括:
13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序指令,所述程序指令能够被处理器执行以实现权利要求1-11任一项所述的方法。
...【技术特征摘要】
1.一种调核位置预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取目标日语文本对应的目标短语停顿特征、目标音素特征和目标文本特征,包括:
3.根据权利要求2所述的方法,其特征在于,确定所述目标短语停顿特征的步骤由韵律预测网络执行,所述韵律预测网络包括第一特征提取子网络、第二特征提取子网络和短语停顿预测子网络;
4.根据权利要求3所述的方法,其特征在于,所述韵律预测网络还包括长停顿预测子网络,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,
6.根据权利要求5所述的方法,其特征在于,
7.根据权利要求3所述的方法,其特征在于,确定所述目标文本特征的步骤包括:
8.根据权利要求1所述的方法,其特征在于,
9.根据权利要求8所述的方法,其特征在于,所述第三特征提取子网络包括...
【专利技术属性】
技术研发人员:陈迪,倪嘉禾,蔡明琦,方昕,吴江照,高建清,
申请(专利权)人:合肥智能语音创新发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。