高保真的智能客服语音合成方法技术

技术编号:20972326 阅读:43 留言:0更新日期:2019-04-29 17:47
本发明专利技术公开了一种高保真的智能客服语音合成方法,包括:进行语音的录制;建立初始语料库;对录制好的语音进行强制对齐;进行语音切割得到三音子模型;利用三音子模型形成目标语料库;对于切割好的三音子基元计算似然;建立三音子决策树;根据所需合成文本选择合适的三音子基元;对选择的三音子基元,针对原始语音波形做基音同步标注;对原始语音波形的基音曲线与目标基音曲线建立映射,得到短时合成信号序列;将短时信号序列与目标基音周期同步排列,重叠相加得到拼接合成的语音;将合成的语音插入到提前录制好的语音中。本发明专利技术不必让客服人员录制大量重复类似的含有变量的语音,能够降低语音录制成本,还能提升整个对话过程的流畅性与自然度。

High Fidelity Intelligent Customer Service Speech Synthesis Method

The invention discloses a high fidelity intelligent voice synthesis method for customer service, which includes: recording voice; establishing initial corpus; forcing alignment of recorded voice; cutting voice to get triphone model; using triphone model to form target corpus; calculating likelihood for cut triphone primitives; establishing triphone decision tree according to the required synthesis; The text chooses appropriate Tritone primitives; the selected Tritone primitives are synchronously labeled for the original speech waveform; the pitch curve of the original speech waveform is mapped to the target pitch curve to obtain the short-term synthetic signal sequence; the short-term signal sequence is synchronously arranged with the target pitch period, and the synthesized speech is inserted into the synthesized speech. In pre-recorded voice. The invention does not require the customer service personnel to record a large number of similar voices containing variables, can reduce the cost of voice recording, and can improve the fluency and naturalness of the whole dialogue process.

【技术实现步骤摘要】
高保真的智能客服语音合成方法
本专利技术涉及语音合成领域,特别涉及一种高保真的智能客服语音合成方法。
技术介绍
目前的语音识别与语音合成技术发展迅速,但是相关语音合成技术合成后的语音的自然度不是很理想,在应用于客服语音中时,客户会明显听出是机器的声音,大部分的客服语音其实是可以预先录制好语音,但是对于金钱、时间等变量,无法大量录制,会耗费大量的财力,也不现实,并且会与提前录制好的语音之间产生明显的区别,整个对话过程会显得非常奇怪。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种不必让客服人员录制大量重复类似的含有变量的语音,能够降低语音录制成本,还能提升整个对话过程的流畅性与自然度的高保真的智能客服语音合成方法。本专利技术解决其技术问题所采用的技术方案是:构造一种高保真的智能客服语音合成方法,包括如下步骤:A)录音人员根据设置好的文本进行语音的录制;B)建立初始语料库;所述初始语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句;C)利用设定算法对所述初始语料库中录制好的语音进行强制对齐;D)对强制对齐后的语音进行切割,得到三音子模型;E)利用所述三音子模型形成处理完好的目标语料库;F)对于所述目标语料库中切割好的三音子基元计算似然;G)建立三音子决策树;H)根据所需合成文本,选择合适的三音子基元;I)对选择好的三音子基元,针对原始语音波形做基音同步标注;J)对所述原始语音波形的基音曲线与目标基音曲线建立映射,得到短时合成信号序列;K)将所述短时信号序列与目标基音周期同步排列,重叠相加得到拼接合成的语音;L)将所述合成的语音插入到提前录制好的语音中。在本专利技术所述的高保真的智能客服语音合成方法中,所述设定算法为force-alignment算法。在本专利技术所述的高保真的智能客服语音合成方法中,所述步骤F)进一步包括:F1)对所述目标语料库中切割好的三音子基元,采用三音子的中间音素将所有的三音子进行划分;F2)进行强制对齐之后,从左到右扫描所述三音子,得到对应的特征向量;F3)利用所述三音子对应的所有的特征向量,根据其个数与平方和来计算似然,最终得到状态集的似然。在本专利技术所述的高保真的智能客服语音合成方法中,所述步骤G)进一步包括:G1)在建树的过程中,叶结点的形成过程是根据分裂之后,左右结点的似然度和与分裂前的似然度差值,作为似然度的变化量;G2)从问题集中选择似然度变化最大的问题;G3)当似然度变化量小于事先设定的阈值时或分裂后的似然度小于事先设定的阈值时,则停止分裂,认定其为叶子结点;G4)完成所述目标语料库中所有的三音子基元的聚类,得到最终的三音子决策树。在本专利技术所述的高保真的智能客服语音合成方法中,在所述步骤H)中,在向下寻找与目标三音子对应的叶子结点时,如果未找到与其对应的合适的叶子结点,则寻找到似然度提升最大的结点,将其作为同一类,得到与目标三音子最接近的三音子基元。在本专利技术所述的高保真的智能客服语音合成方法中,所述步骤J)进一步包括:J1)将原始语音信号与一系列基因同步的窗函数相乘,得到相互重叠的短时分析信号;J2)根据原始语音波形的基音曲线和超音段特征与目标基音曲线和超音段特征修正的要求,建立合成语音波形与原始语音波形之间的基音周期的映射关系,得到合成所需的短时合成信号序列。实施本专利技术的高保真的智能客服语音合成方法,具有以下有益效果:由于录音人员根据设置好的文本进行语音的录制;建立初始语料库;初始语料库为变量特征语料库,变量特征语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句;利用设定算法对初始语料库中录制好的语音进行强制对齐;对强制对齐后的语音进行切割,得到三音子模型;利用三音子模型形成处理完好的目标语料库;对于目标语料库中切割好的三音子基元计算似然;建立三音子决策树;根据所需合成文本,选择合适的三音子基元;对选择好的三音子基元,针对原始语音波形做基音同步标注;对原始语音波形的基音曲线与目标基音曲线建立映射,得到短时合成信号序列;将短时信号序列与目标基音周期同步排列,重叠相加得到拼接合成的语音;将合成的语音插入到提前录制好的语音中;在与客户进行电话交流的过程中,对对话过程中涉及的姓名、时间、金钱等变量进行语音合成,保证整个通话过程中交流的顺畅,因此本专利技术不必让客服人员录制大量重复类似的含有变量的语音,能够降低语音录制成本,还能提升整个对话过程的流畅性与自然度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术高保真的智能客服语音合成方法一个实施例中的流程图;图2为所述实施例中对于目标语料库中切割好的三音子基元计算似然的具体流程图;图3为所述实施例中建立三音子决策树的具体流程图;图4为所述实施例中对原始语音波形的基音曲线与目标基音曲线建立映射,得到短时合成信号序列的具体流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术高保真的智能客服语音合成方法实施例中,该高保真的智能客服语音合成方法的流程图如图1所示。图1中,该高保真的智能客服语音合成方法包括如下步骤:步骤S01录音人员根据设置好的文本进行语音的录制:本步骤中,通过根据特定文本,获取发音人对应录制的录制语音,本专利技术限定在对于变量的语音合成,通过设置好的文本,录音人员进行语音的录制。步骤S02建立初始语料库:本步骤中,根据特定准备的文本,通过录音人员进行录制的超过2000句语句,建立初始语料库。该初始语料库为变量特征语料库,对于提前录制好的大量变量特征语料库,该变量特征语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句,总计达到2000句,并要求在录制时语速平稳语气自然且尽量相同,控制字与字的间隔。步骤S03利用设定算法对初始语料库中录制好的语音进行强制对齐:本步骤中,利用设定算法对初始语料库中录制好的语音进行强制对齐,提高语音切割的效果,该设定算法为force-alignment算法。步骤S04对强制对齐后的语音进行切割,得到三音子模型:本步骤中,对强制对齐后的语音采用语音切割模型进行切割,得到三音子模型。也就是说,本步骤利用提前录制好的大量变量特征语料库,采取三音子语音拼接合成的方法,对录制好的语料库按照三音子的格式进行切割,具体而言,选取三音子的格式进行切割,使得合成语音更加平滑,使用较大的合成基元,使拼接点减少,避免在语音拼接的过程中出现许多不自然的声音,在切割时利用force-alignment算法进行强制对齐,按照三音子的格式对每个语句进行切割。以金钱举例,在进行语音切割时,可保证在每个三音子中包含两个阿拉伯数字和一个量词或一个阿拉伯数字和两个量词,通过这样的切割能够保证在语音进行拼接时,让整个合成的本文档来自技高网...

【技术保护点】
1.一种高保真的智能客服语音合成方法,其特征在于,包括如下步骤:A)录音人员根据设置好的文本进行语音的录制;B)建立初始语料库;所述初始语料库为变量特征语料库,所述变量特征语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句;C)利用设定算法对所述初始语料库中录制好的语音进行强制对齐;D)对强制对齐后的语音进行切割,得到三音子模型;E)利用所述三音子模型形成处理完好的目标语料库;F)对于所述目标语料库中切割好的三音子基元计算似然;G)建立三音子决策树;H)根据所需合成文本,选择合适的三音子基元;I)对选择好的三音子基元,针对原始语音波形做基音同步标注;J)对所述原始语音波形的基音曲线与目标基音曲线建立映射,得到短时合成信号序列;K)将所述短时信号序列与目标基音周期同步排列,重叠相加得到拼接合成的语音;L)将所述合成的语音插入到提前录制好的语音中。

【技术特征摘要】
1.一种高保真的智能客服语音合成方法,其特征在于,包括如下步骤:A)录音人员根据设置好的文本进行语音的录制;B)建立初始语料库;所述初始语料库为变量特征语料库,所述变量特征语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句;C)利用设定算法对所述初始语料库中录制好的语音进行强制对齐;D)对强制对齐后的语音进行切割,得到三音子模型;E)利用所述三音子模型形成处理完好的目标语料库;F)对于所述目标语料库中切割好的三音子基元计算似然;G)建立三音子决策树;H)根据所需合成文本,选择合适的三音子基元;I)对选择好的三音子基元,针对原始语音波形做基音同步标注;J)对所述原始语音波形的基音曲线与目标基音曲线建立映射,得到短时合成信号序列;K)将所述短时信号序列与目标基音周期同步排列,重叠相加得到拼接合成的语音;L)将所述合成的语音插入到提前录制好的语音中。2.根据权利要求1所述的高保真的智能客服语音合成方法,其特征在于,所述设定算法为force-alignment算法。3.根据权利要求1或2所述的高保真的智能客服语音合成方法,其特征在于,所述步骤F)进一步包括:F1)对所述目标语料库中切割好的三音子基元,采用三音子的中间音素将所有的三音子进行划分;F2)进行强制对齐之后,从左到右扫描所述三音子,得到对应的...

【专利技术属性】
技术研发人员:刘嗣平柯登峰陈孟达贾宇康
申请(专利权)人:广州九四智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1