多音字消歧和韵律控制联合方法、系统以及电子设备技术方案

技术编号:29490601 阅读:21 留言:0更新日期:2021-07-30 19:02
本申请提供多音字消歧和韵律控制联合方法、系统以及电子设备;获取待处理文本和其词性,转换为字符向量和词性向量并拼接得到成拼接向量;通过交替训练策略训练获取联合模型、第一组权重和第二组权重;联合模型包括第一神经网络和第二神经网络,通过联合模型对拼接向量进行编码,得到字符的第一句中编码和第二句中编码;按照第一组权重得到多音加权和,通过第一全连接层,得到多音字的读音概率分布;通过掩码去除多音字的读音概率分布中不正确的读音,得到最终读音预测;按照第二组权重得到韵律加权和,通过第二全连接层和条件随机场,得到韵律停顿等级。消除流式结构处理导致误差累积,提高文本转语音的计算速度。

【技术实现步骤摘要】
多音字消歧和韵律控制联合方法、系统以及电子设备
本申请涉及中文语音合成
,尤其涉及一种多音字消歧和韵律控制联合方法、系统以及电子设备。
技术介绍
为了避免使用文本转语音技术所生成的多音字读音错误或语音过于平淡,使合成的语音更加准确且更加“拟人化”,往往会在处理过程中加入控制语音的多音字消歧和韵律停顿。传统的处理方式中,文本转语音主要包括前端的文本/音素转换处理和后端的音素/语音信号转换处理两部分。后端的处理以声学特征为过度,用于实现端到端的训练与合成;而前端依次包括子句切分模型、文本正则模型、自然变调模型、多音字消歧模型和韵律预测模型,前端的处理是多模块构成的流式结构,如子句切分模型的输出作为文本正则模型的输入,其中子句切分模型、文本正则模型、自然变调模型通常可基于规则实现,而多音字消歧模型和韵律预测模型多为数据驱动的深度学习统计。目前,通用的做法是在前端的处理中使用两个独立的多音字消歧模型和韵律预测模型分别实现多音字消歧和韵律预测,由于前端的各个模型之间为流式结构,通过流式结构处理导致各个模块误差产生累积,影响最终的语音合成效果。
技术实现思路
本申请提供了一种多音字消歧和韵律控制联合方法及系统,可用于解决两个独立的多音字消歧和韵律预测模型计算量大、流式结构处理导致误差累积的技术问题。第一方面,本申请提供一种多音字消歧和韵律控制联合方法,所述多音字消歧和韵律控制联合方法包括:获取待处理文本,以及,文本的词性;将所述待处理文本转换为字符向量,所述词性转换为词性向量;将所述字符向量和所述词性向量拼接,得到拼接向量;通过交替训练策略训练获取联合模型,以及第一组权重和第二组权重,所述联合模型具有多音字消歧分支和韵律预测分支,所述第一组权重对应所述多音字消歧分支,所述第二组权重对应所述韵律预测分支;所述联合模型包括第一神经网络和第二神经网络,通过联合模型对所述拼接向量进行编码,通过所述第一神经网络得到第一句中编码,通过所述第二神经网络得到第二句中编码;按照第一组权重将第一句中编码和第二句中编码求和,得到所述多音字消歧分支中拼接向量的多音加权和;将所述多音加权和通过第一全连接层,得到多音字的读音概率分布;通过掩码去除所述多音字的读音概率分布中不正确的读音,得到拼接向量的最终读音预测结果;按照第二组权重将第一句中编码和第二句中编码求和,得到所述韵律预测分支中拼接向量的韵律加权和;将所述韵律加权和通过第二全连接层和条件随机场,得到拼接向量的韵律停顿等级。结合第一方面,在一种可能的实现方式中,通过交替训练策略训练获取联合模型,包括:预训练多音字消歧分支,得到预训练权重;将训练数据划分为多组数据;通过单组数据和预训练权重依次训练所述多音字消歧分支和所述韵律预测分支,得到多音字误差和多音字误差;当相邻两次的多音字误差和多音字误差均小于预设误差值时,得到联合模型。结合第一方面,在一种可能的实现方式中,所述预训练多音字消歧分支,包括:将训练数据根据预设值迭代训练。结合第一方面,在一种可能的实现方式中,所述多音字消歧和韵律控制联合方法还包括:根据韵律停顿等级确定停顿类型,所述停顿类型包括短停顿和一般停顿。结合第一方面,在一种可能的实现方式中,所述停顿类型通过韵律停顿等级得到的分数值确定,所述分数值score与韵律停顿等级L的关系如下:score=(N-p)×w+L式中,p是惩罚参数,N为当前累积的无停顿字数,w是累计无静音长度的权重,L为停顿等级;若分数值score大于等于第一阈值时,插入一般停顿;若分数值score小于第一阈值且大于等于第二阈值时,插入短停顿。结合第一方面,在一种可能的实现方式中,将所述多音加权和通过第一全连接层,得到多音字的读音概率分布,包括;将所述多音加权和通过第一全连接层,得到第一关键特征;根据第一关键特征,得到多音字的读音概率分布。结合第一方面,在一种可能的实现方式中,将所述韵律加权和通过第二全连接层,包括:将所述韵律加权和通过第二全连接层,得到第二关键特征,所述第二关键特征为条件随机场的输入项。结合第一方面,在一种可能的实现方式中,所述第一神经网络为双向长短记忆神经网络,所述第二神经网络为卷积神经网络。由以上技术方案可知,本申请提供一种多音字消歧和韵律控制联合方法,所述多音字消歧和韵律控制联合方法包括:获取获取待处理文本和文本的词性;将所述待处理文本转换为字符向量,所述词性转换为词性向量;将所述字符向量和所述词性向量拼接,得到拼接向量;通过联合模型对所述拼接向量进行编码,得到字符的第一句中编码和第二句中编码;其中,所述联合模型包括第一神经网络和第二神经网络,且具有多音字消歧分支和韵律预测分支;所述联合模型通过交替训练策略训练获得,且得到所述多音字消歧分支对应的第一组权重和所述韵律预测分支对应的第二组权重;在多音字消歧分支中,按照第一组权重将第一句中编码和第二句中编码求和,得到多音加权和;将所述多音加权和通过第一全连接层,得到多音字的读音概率分布;通过掩码去除所述多音字的读音概率分布中不正确的读音,得到最终读音预测结果;在韵律预测分支中,按照第二组权重将第一句中编码和第二句中编码求和,得到韵律加权和;将所述韵律加权和通过第二全连接层和条件随机场,得到韵律停顿等级。消除流式结构处理导致误差累积,提高文本转语音的计算速度。第二方面,本申请还提供一种多音字消歧和韵律控制联合系统,包括:数据输入单元,用于获取待处理文本和文本的词性,将所述待处理文本转换为字符向量,所述词性转换为词性向量;向量频接单元,用于将所述字符向量和所述词性向量拼接,得到拼接向量;联合模型控制单元,用于通过交替训练策略训练获取联合模型,以及第一组权重和第二组权重,所述联合模型具有多音字消歧分支和韵律预测分支,所述第一组权重对应所述多音字消歧分支,所述第二组权重对应所述韵律预测分支;所述联合模型包括第一神经网络和第二神经网络,通过联合模型对所述拼接向量进行编码,通过所述第一神经网络得到第一句中编码,通过所述第二神经网络得到第二句中编码;联合模型控制单元包括多音字消歧分支子单元和韵律预测分支子单元;多音字消歧分支子单元,用于按照第一组权重将第一句中编码和第二句中编码求和,得到所述多音字消歧分支中拼接向量的多音加权和;将所述多音加权和通过第一全连接层,得到多音字的读音概率分布;通过掩码去除所述多音字的读音概率分布中不正确的读音,得到拼接向量的最终读音预测结果;韵律预测分支子单元,用于按照第二组权重将第一句中编码和第二句中编码求和,得到所述韵律预测分支中拼接向量的韵律加权和;将所述韵律加权和通过第二全连接层和条件随机场,得到拼接向量的韵律停顿等级。由以上技术方案可知,本申请提供一种多音字消歧和韵律控制联合系统,包括:数据输入单元用于获取待处理文本和文本的本文档来自技高网...

【技术保护点】
1.一种多音字消歧和韵律控制联合方法,其特征在于,所述多音字消歧和韵律控制联合方法包括:/n获取待处理文本,以及,文本的词性;/n将所述待处理文本转换为字符向量,所述词性转换为词性向量;/n将所述字符向量和所述词性向量拼接,得到拼接向量;/n通过交替训练策略训练获取联合模型,以及第一组权重和第二组权重,所述联合模型具有多音字消歧分支和韵律预测分支,所述第一组权重对应所述多音字消歧分支,所述第二组权重对应所述韵律预测分支;/n所述联合模型包括第一神经网络和第二神经网络,通过联合模型对所述拼接向量进行编码,通过所述第一神经网络得到第一句中编码,通过所述第二神经网络得到第二句中编码;/n按照第一组权重将第一句中编码和第二句中编码求和,得到所述多音字消歧分支中拼接向量的多音加权和;/n将所述多音加权和通过第一全连接层,得到多音字的读音概率分布;/n通过掩码去除所述多音字的读音概率分布中不正确的读音,得到拼接向量的最终读音预测结果;/n按照第二组权重将第一句中编码和第二句中编码求和,得到所述韵律预测分支中拼接向量的韵律加权和;/n将所述韵律加权和通过第二全连接层和条件随机场,得到拼接向量的韵律停顿等级。/n...

【技术特征摘要】
1.一种多音字消歧和韵律控制联合方法,其特征在于,所述多音字消歧和韵律控制联合方法包括:
获取待处理文本,以及,文本的词性;
将所述待处理文本转换为字符向量,所述词性转换为词性向量;
将所述字符向量和所述词性向量拼接,得到拼接向量;
通过交替训练策略训练获取联合模型,以及第一组权重和第二组权重,所述联合模型具有多音字消歧分支和韵律预测分支,所述第一组权重对应所述多音字消歧分支,所述第二组权重对应所述韵律预测分支;
所述联合模型包括第一神经网络和第二神经网络,通过联合模型对所述拼接向量进行编码,通过所述第一神经网络得到第一句中编码,通过所述第二神经网络得到第二句中编码;
按照第一组权重将第一句中编码和第二句中编码求和,得到所述多音字消歧分支中拼接向量的多音加权和;
将所述多音加权和通过第一全连接层,得到多音字的读音概率分布;
通过掩码去除所述多音字的读音概率分布中不正确的读音,得到拼接向量的最终读音预测结果;
按照第二组权重将第一句中编码和第二句中编码求和,得到所述韵律预测分支中拼接向量的韵律加权和;
将所述韵律加权和通过第二全连接层和条件随机场,得到拼接向量的韵律停顿等级。


2.根据权利要求1所述的一种多音字消歧和韵律控制联合方法,其特征在于,通过交替训练策略训练获取联合模型,包括:
预训练多音字消歧分支,得到预训练权重;
将训练数据划分为多组数据;
通过单组数据和预训练权重依次训练所述多音字消歧分支和所述韵律预测分支,得到多音字误差和多音字误差;
当相邻两次的多音字误差和多音字误差均小于预设误差值时,得到联合模型。


3.根据权利要求2所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述预训练多音字消歧分支,包括:
将训练数据根据预设值迭代训练。


4.根据权利要求1所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述多音字消歧和韵律控制联合方法还包括:
根据韵律停顿等级确定停顿类型,所述停顿类型包括短停顿和一般停顿。


5.根据权利要求4所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述停顿类型通过韵律停顿等级得到的分数值确定,所述分数值score与韵律停顿等级L的关系如下:
score=(N-p)×w+L
式中,p是惩罚参数,N为当前累积的无停顿字数,w是累计无静音长度的权重,L为停顿等级;
若分数值score大于等于第一阈值...

【专利技术属性】
技术研发人员:马明刘宇
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1