System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音合成,特别涉及一种基于byt5的语音合成方法、装置、设备及存储介质。
技术介绍
1、跨语种的语音合成任务涉及将一种语言的语音文本转换为另一种语言的自然流利的语音文本。这种任务在多语种社会和国际化应用中具有重要的应用前景,可以改善语音交互系统的用户体验,同时提供更广泛的服务范围。例如,远程会诊:在远程医疗会诊中,医生之间需要交流患者的病情和诊断意见。语音合成技术可以将医生输入的文字信息转化为语音,方便医生之间的沟通。例如,专家在远程会诊时,可以通过语音合成技术将自己的诊断意见和治疗建议传达给其他医生,提高会诊的效率和准确性。远程监护:对于一些慢性病患者或居家康复的患者,远程监护系统可以通过语音合成技术,定期向患者发送语音提醒,如提醒患者按时服药、测量血压、血糖等,同时将患者的监测数据反馈给医生,方便医生及时了解患者的病情变化。目前大多数的文本转语音(text-to-speech,tts)系统在文本处理阶段都需要基于token来开展工作,这种技术方案存在的缺陷是:该语音合成模型只能识别和处理词表范围内(也就是在词表中存在对应的token)的字符,对于存在未知字词的情况,模型往往无法进行处理。并且现有的跨语种语音合成方法合成的语音效果往往不好,存在着语义缺失等问题。
技术实现思路
1、本申请实施例的目的在于提出一种基于byt5的语音合成方法、装置、设备及存储介质,以解决现有基于token的语音合成方案中token-based模型受词典限制、语音效果差、语义缺失的问题。<
...【技术保护点】
1.一种基于ByT5的语音合成方法,特征在于,包括:
2.根据权利要求1所述的基于ByT5的语音合成方法,其特征在于,在获取文本融合特征之后,所述将所述文本融合特征输入到所述生成对抗网络语音模型的解码器,得到目标文本MEL谱之前,所述方法还包括:
3.根据权利要求2所述的基于ByT5的语音合成方法,其特征在于,在将所述文本融合特征输入到所述生成对抗网络语音模型的解码器,得到目标文本MEL谱,将所述目标文本MEL谱输入到声码器进行语音合成,获取目标语音波形,之后,所述方法还包括:
4.根据权利要求1所述的基于ByT5的语音合成方法,其特征在于,所述获取输入文本的比特序列,包括:
5.根据权利要求4所述的基于ByT5的语音合成方法,其特征在于,所述利用ByT5模型将所述比特序列转换成文本特征向量,包括:
6.根据权利要求1所述的基于ByT5的语音合成方法,其特征在于,所述获取所述输入文本的词性信息和句法结构信息,包括:
7.根据权利要求6所述的基于ByT5的语音合成方法,其特征在于,所述利用所述HanLP词性标注
8.一种基于ByT5的语音合成装置,采用权利要求1-7任一项所述的基于ByT5的语音合成方法,其特征在于,包括:
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行如权利要求1至7中任一项所述的基于ByT5的语音合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于ByT5的语音合成方法的步骤。
...【技术特征摘要】
1.一种基于byt5的语音合成方法,特征在于,包括:
2.根据权利要求1所述的基于byt5的语音合成方法,其特征在于,在获取文本融合特征之后,所述将所述文本融合特征输入到所述生成对抗网络语音模型的解码器,得到目标文本mel谱之前,所述方法还包括:
3.根据权利要求2所述的基于byt5的语音合成方法,其特征在于,在将所述文本融合特征输入到所述生成对抗网络语音模型的解码器,得到目标文本mel谱,将所述目标文本mel谱输入到声码器进行语音合成,获取目标语音波形,之后,所述方法还包括:
4.根据权利要求1所述的基于byt5的语音合成方法,其特征在于,所述获取输入文本的比特序列,包括:
5.根据权利要求4所述的基于byt5的语音合成方法,其特征在于,所述利用byt5模型将所述比特序列转换成文本特征向量,包括:
...
【专利技术属性】
技术研发人员:李俊杰,刘航驿,王少军,黄天来,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。