【技术实现步骤摘要】
多音字消歧和韵律控制联合方法、系统以及电子设备
本申请涉及中文语音合成
,尤其涉及一种多音字消歧和韵律控制联合方法、系统以及电子设备。
技术介绍
为了避免使用文本转语音技术所生成的多音字读音错误或语音过于平淡,使合成的语音更加准确且更加“拟人化”,往往会在处理过程中加入控制语音的多音字消歧和韵律停顿。传统的处理方式中,文本转语音主要包括前端的文本/音素转换处理和后端的音素/语音信号转换处理两部分。后端的处理以声学特征为过度,用于实现端到端的训练与合成;而前端依次包括子句切分模型、文本正则模型、自然变调模型、多音字消歧模型和韵律预测模型,前端的处理是多模块构成的流式结构,如子句切分模型的输出作为文本正则模型的输入,其中子句切分模型、文本正则模型、自然变调模型通常可基于规则实现,而多音字消歧模型和韵律预测模型多为数据驱动的深度学习统计。目前,通用的做法是在前端的处理中使用两个独立的多音字消歧模型和韵律预测模型分别实现多音字消歧和韵律预测,由于前端的各个模型之间为流式结构,通过流式结构处理导致各个模块误差产生累积,影响最终的语音合成效果。
技术实现思路
本申请提供了一种多音字消歧和韵律控制联合方法及系统,可用于解决两个独立的多音字消歧和韵律预测模型计算量大、流式结构处理导致误差累积的技术问题。第一方面,本申请提供一种多音字消歧和韵律控制联合方法,所述多音字消歧和韵律控制联合方法包括:获取待处理文本,以及,文本的词性;将所述待处理文本转换为字符向量,所述词性转 ...
【技术保护点】
1.一种多音字消歧和韵律控制联合方法,其特征在于,所述多音字消歧和韵律控制联合方法包括:/n获取待处理文本,以及,文本的词性;/n将所述待处理文本转换为字符向量,所述词性转换为词性向量;/n将所述字符向量和所述词性向量拼接,得到拼接向量;/n通过交替训练策略训练获取联合模型,以及第一组权重和第二组权重,所述联合模型具有多音字消歧分支和韵律预测分支,所述第一组权重对应所述多音字消歧分支,所述第二组权重对应所述韵律预测分支;/n所述联合模型包括第一神经网络和第二神经网络,通过联合模型对所述拼接向量进行编码,通过所述第一神经网络得到第一句中编码,通过所述第二神经网络得到第二句中编码;/n按照第一组权重将第一句中编码和第二句中编码求和,得到所述多音字消歧分支中拼接向量的多音加权和;/n将所述多音加权和通过第一全连接层,得到多音字的读音概率分布;/n通过掩码去除所述多音字的读音概率分布中不正确的读音,得到拼接向量的最终读音预测结果;/n按照第二组权重将第一句中编码和第二句中编码求和,得到所述韵律预测分支中拼接向量的韵律加权和;/n将所述韵律加权和通过第二全连接层和条件随机场,得到拼接向量的韵律停 ...
【技术特征摘要】
1.一种多音字消歧和韵律控制联合方法,其特征在于,所述多音字消歧和韵律控制联合方法包括:
获取待处理文本,以及,文本的词性;
将所述待处理文本转换为字符向量,所述词性转换为词性向量;
将所述字符向量和所述词性向量拼接,得到拼接向量;
通过交替训练策略训练获取联合模型,以及第一组权重和第二组权重,所述联合模型具有多音字消歧分支和韵律预测分支,所述第一组权重对应所述多音字消歧分支,所述第二组权重对应所述韵律预测分支;
所述联合模型包括第一神经网络和第二神经网络,通过联合模型对所述拼接向量进行编码,通过所述第一神经网络得到第一句中编码,通过所述第二神经网络得到第二句中编码;
按照第一组权重将第一句中编码和第二句中编码求和,得到所述多音字消歧分支中拼接向量的多音加权和;
将所述多音加权和通过第一全连接层,得到多音字的读音概率分布;
通过掩码去除所述多音字的读音概率分布中不正确的读音,得到拼接向量的最终读音预测结果;
按照第二组权重将第一句中编码和第二句中编码求和,得到所述韵律预测分支中拼接向量的韵律加权和;
将所述韵律加权和通过第二全连接层和条件随机场,得到拼接向量的韵律停顿等级。
2.根据权利要求1所述的一种多音字消歧和韵律控制联合方法,其特征在于,通过交替训练策略训练获取联合模型,包括:
预训练多音字消歧分支,得到预训练权重;
将训练数据划分为多组数据;
通过单组数据和预训练权重依次训练所述多音字消歧分支和所述韵律预测分支,得到多音字误差和多音字误差;
当相邻两次的多音字误差和多音字误差均小于预设误差值时,得到联合模型。
3.根据权利要求2所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述预训练多音字消歧分支,包括:
将训练数据根据预设值迭代训练。
4.根据权利要求1所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述多音字消歧和韵律控制联合方法还包括:
根据韵律停顿等级确定停顿类型,所述停顿类型包括短停顿和一般停顿。
5.根据权利要求4所述的一种多音字消歧和韵律控制联合方法,其特征在于,所述停顿类型通过韵律停顿等级得到的分数值确定,所述分数值score与韵律停顿等级L的关系如下:
score=(N-p)×w+L
式中,p是惩罚参数,N为当前累积的无停顿字数,w是累计无静音长度的权重,L为停顿等级;
若分数值score大于等于第一阈值...
【专利技术属性】
技术研发人员:马明,刘宇,
申请(专利权)人:海信视像科技股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。