System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音合成领域,具体涉及一种语音合成模型的训练方法、语音合成方法、装置及可读介质。
技术介绍
1、随着电子信息处理技术的不断发展,语音作为人们获取信息的重要载体,已经被广泛应用于日常生活和工作中。涉及语音的实施场景中,通常会包括语音合成的处理,语音合成是指将指定的文本或音频合成为符合需求的目标音频。
2、语音合成技术主要包括波形拼接语音合成、参数合成语音合成和端到端的语音合成技术。其中,波形拼接语音合成是通过前期录制大量的音频,尽可能全的覆盖所有的音节音素,基于统计规则的大语料库拼接成对应的文本音频。此技术需要大量的录音,并且对录音质量要求较高。参数合成语音合成则是基于语音信号处理和语音学的一些基本原理,建立语音的参数模型,如共振峰模型、线性预测模型等,通过调整模型参数来合成语音,该技术计算量大,参数计算复杂。而端到端的语音合成技术则是一种新型的语音合成方法,它直接将文本转换为语音波形,不需要显式地建立语音的参数模型,该技术需要处理自然语言理解和语音识别等复杂的问题,如何提高技术的准确率和效率是一个需要解决的问题。
3、在大屏讲解、科普介绍等应用场景中,经常会遇到同一个音色跨语种文本的语音合成情况,比如说中英文混合播报。现有语音合成方法存在跨语种语音合成效果不稳定的问题,中文文本语音合成较稳定,遇到其它语种发音时,发声存在习惯细节以及发音模糊的问题。
技术实现思路
1、本申请的目的在于针对上述提到的技术问题提出一种语音合成模型的训练方法、语音合成
2、第一方面,本专利技术提供了一种语音合成模型的训练方法,包括以下步骤:
3、获取若干单个说话人的多语种的语音数据并进行预处理,得到训练数据;
4、分别针对每个语种构建改进的bert模型并训练,得到每个语种对应的经训练的改进的bert模型,改进的bert模型在bert模型的transformer结构中的编码模块和解码模块的后面均增加一个huk模块,编码模块的输出特征和编码模块的输出特征输入huk模块中,得到中间特征,中间特征输入到编码模块和解码模块的前面的加法器中;
5、构建基于改进的vits模型的语音合成模型,语音合成模型中将vits模型与经训练的改进的bert模型结合,将文本输入到经训练的改进的bert模型中,得到bert特征向量,将bert词向量以及文本生成的音素均输入到vits模型的文本编码器中,并将vits模型中的随机时长预测器替换为改进的随机时长预测器;
6、采用公共语音数据和训练数据对语音合成模型进行分阶段训练,得到经训练的语音合成模型。
7、作为优选,改进的随机时长预测器的计算公式如下:
8、
9、其中,u和v表示与时长序列d具有相同时间分辨率和维度的随机变量,ctext表示文本生成的音素,pθ(d|ctext)表示预测时长序列d的先验分布,qφ(u,v|d,ctext)表示近似后验分布,pθ(d-u,v|ctext)表示预测时长序列d与数据点u的差值(d-u)和数据点v的似然函数,λ的取值范围为[-1,1]。
10、作为优选,huk模块包括依次连接的第一卷积层、平均池化层、第一全连接层、第一relu激活函数层、归一化层、第二relu激活函数层、第二全连接层、第二卷积层和第三全连接层。
11、作为优选,采用训练数据对语音合成模型进行分阶段训练,得到经训练的语音合成模型,具体包括:
12、语音合成模型的训练分为两个阶段:
13、在第一阶段,采用公共语音数据对语音合成模型进行训练,直至模型收敛,得到第一训练模型;
14、在第二阶段,采用训练数据对第一训练模型进行训练,直至模型收敛,得到经训练的语音合成模型。
15、作为优选,获取若干单个说话人的多语种的语音数据并进行预处理,得到训练数据,具体包括:
16、采用下式计算语音数据中每个语音采样点的语音能量:
17、
18、其中,rms表示语音能量,xi表示第i个语音采样点的量化数值,n表示语音数据中语音采样点的总数;
19、采用下式计算每个语音采样点的语音分贝:
20、
21、其中,lp表示语音分贝,prms为语音采样点的rms,pref为语音能量的最大值;
22、将语音分贝在分贝阈值以下的语音采样点确定为静音段,采用预设时长阈值在位于静音段结束位置的静音处对语音数据进行切分,得到若干个有效时长为预设时长阈值的语音片段,对每个语音片段标注说话人id、语种和文本,标注后得到的语音片段的格式为:path|spkid|language|text,并提取对应的线性谱;
23、调整所有的语音片段的采样率;
24、对所有的语音片段进行数据增强处理、降噪、分离背景音乐和人声,得到保留人声的语音片段;
25、对每个语音片段所对应的文本进行规范化处理,得到对应的音素。
26、第二方面,本专利技术提供了一种语音合成模型的训练装置,包括:
27、预处理模块,被配置为获取若干单个说话人的多语种的语音数据并进行预处理,得到训练数据;
28、改进的bert模型构建训练模块,被配置为分别针对每个语种构建改进的bert模型并训练,得到每个语种对应的经训练的改进的bert模型,改进的bert模型在bert模型的transformer结构中的编码模块和解码模块的后面均增加一个huk模块,编码模块的输出特征和编码模块的输出特征输入huk模块中,得到中间特征,中间特征输入到编码模块和解码模块的前面的加法器中;
29、语音合成模型构建模块,被配置为构建基于改进的vits模型的语音合成模型,语音合成模型中将vits模型与经训练的改进的bert模型结合,将文本输入到经训练的改进的bert模型中,得到bert特征向量,将bert词向量以及文本生成的音素均输入到vits模型的文本编码器中,并将vits模型中的随机时长预测器替换为改进的随机时长预测器;
30、语音合成模型训练模块,被配置为采用公共语音数据和训练数据对语音合成模型进行分阶段训练,得到经训练的语音合成模型。
31、第三方面,本专利技术提供了一种语音合成方法,采用如第一方面中任一实现方式描述的方法训练得到的经训练的语音合成模型,包括以下步骤:
32、获取待合成的文本和噪音,对待合成的文本进行规范化处理,得到对应的音素;
33、将待合成的文本和噪音输入经训练的语音合成模型,通过正则表达式检索待合成的文本对应的文本内容,对待合成的文本进行切分、分片,确定每个语种对应的文本,并将每个语种对应的文本输入所属的语种对应的经训练的改进的bert模型中,分别提取得到各个语种对应的bert特征向量,将各个语种对应的bert特征向量合并后与待合成的文本生成的音素共同输入文本编码器中,得到第一特征,第本文档来自技高网...
【技术保护点】
1.一种语音合成模型的训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述改进的随机时长预测器的计算公式如下:
3.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述HUK模块包括依次连接的第一卷积层、平均池化层、第一全连接层、第一RELU激活函数层、归一化层、第二RELU激活函数层、第二全连接层、第二卷积层和第三全连接层。
4.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述采用所述训练数据对所述语音合成模型进行分阶段训练,得到经训练的语音合成模型,具体包括:
5.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述获取若干单个说话人的多语种的语音数据并进行预处理,得到训练数据,具体包括:
6.一种语音合成模型的训练装置,其特征在于,包括:
7.一种语音合成方法,其特征在于,采用根据权利要求1-5中任一项所述的语音合成模型的训练方法训练得到的经训练的语音合成模型,包括以下步骤:
8.一种语音合成装置,其特征在于,采用
9.一种电子设备,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
...【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述改进的随机时长预测器的计算公式如下:
3.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述huk模块包括依次连接的第一卷积层、平均池化层、第一全连接层、第一relu激活函数层、归一化层、第二relu激活函数层、第二全连接层、第二卷积层和第三全连接层。
4.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述采用所述训练数据对所述语音合成模型进行分阶段训练,得到经训练的语音合成模型,具体包括:
5.根据权利要求1所述的语音合成模型的训练...
【专利技术属性】
技术研发人员:叶林勇,肖龙源,李海洲,李稀敏,叶志坚,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。