The invention discloses a high fidelity intelligent voice synthesis method for customer service, which includes: recording voice; establishing initial corpus; forcing alignment of recorded voice; cutting voice to get triphone model; using triphone model to form target corpus; calculating likelihood for cut triphone primitives; establishing triphone decision tree according to the required synthesis; The text chooses appropriate Tritone primitives; the selected Tritone primitives are synchronously labeled for the original speech waveform; the pitch curve of the original speech waveform is mapped to the target pitch curve to obtain the short-term synthetic signal sequence; the short-term signal sequence is synchronously arranged with the target pitch period, and the synthesized speech is inserted into the synthesized speech. In pre-recorded voice. The invention does not require the customer service personnel to record a large number of similar voices containing variables, can reduce the cost of voice recording, and can improve the fluency and naturalness of the whole dialogue process.
【技术实现步骤摘要】
高保真的智能客服语音合成方法
本专利技术涉及语音合成领域,特别涉及一种高保真的智能客服语音合成方法。
技术介绍
目前的语音识别与语音合成技术发展迅速,但是相关语音合成技术合成后的语音的自然度不是很理想,在应用于客服语音中时,客户会明显听出是机器的声音,大部分的客服语音其实是可以预先录制好语音,但是对于金钱、时间等变量,无法大量录制,会耗费大量的财力,也不现实,并且会与提前录制好的语音之间产生明显的区别,整个对话过程会显得非常奇怪。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种不必让客服人员录制大量重复类似的含有变量的语音,能够降低语音录制成本,还能提升整个对话过程的流畅性与自然度的高保真的智能客服语音合成方法。本专利技术解决其技术问题所采用的技术方案是:构造一种高保真的智能客服语音合成方法,包括如下步骤:A)录音人员根据设置好的文本进行语音的录制;B)建立初始语料库;所述初始语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句;C)利用设定算法对所述初始语料库中录制好的语音进行强制对齐;D)对强制对齐后的语音进行切割,得到三音子模型;E)利用所述三音子模型形成处理完好的目标语料库;F)对于所述目标语料库中切割好的三音子基元计算似然;G)建立三音子决策树;H)根据所需合成文本,选择合适的三音子基元;I)对选择好的三音子基元,针对原始语音波形做基音同步标注;J)对所述原始语音波形的基音曲线与目标基音曲线建立映射,得到短时合成信号序列;K)将所述短时信号序列与目标基音周期同步排列,重叠相加得到拼接合成的语音;L)将所述合 ...
【技术保护点】
1.一种高保真的智能客服语音合成方法,其特征在于,包括如下步骤:A)录音人员根据设置好的文本进行语音的录制;B)建立初始语料库;所述初始语料库为变量特征语料库,所述变量特征语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句;C)利用设定算法对所述初始语料库中录制好的语音进行强制对齐;D)对强制对齐后的语音进行切割,得到三音子模型;E)利用所述三音子模型形成处理完好的目标语料库;F)对于所述目标语料库中切割好的三音子基元计算似然;G)建立三音子决策树;H)根据所需合成文本,选择合适的三音子基元;I)对选择好的三音子基元,针对原始语音波形做基音同步标注;J)对所述原始语音波形的基音曲线与目标基音曲线建立映射,得到短时合成信号序列;K)将所述短时信号序列与目标基音周期同步排列,重叠相加得到拼接合成的语音;L)将所述合成的语音插入到提前录制好的语音中。
【技术特征摘要】
1.一种高保真的智能客服语音合成方法,其特征在于,包括如下步骤:A)录音人员根据设置好的文本进行语音的录制;B)建立初始语料库;所述初始语料库为变量特征语料库,所述变量特征语料库中至少包含常用字、常用词语、有关钱类的量词以及一到十的语句;C)利用设定算法对所述初始语料库中录制好的语音进行强制对齐;D)对强制对齐后的语音进行切割,得到三音子模型;E)利用所述三音子模型形成处理完好的目标语料库;F)对于所述目标语料库中切割好的三音子基元计算似然;G)建立三音子决策树;H)根据所需合成文本,选择合适的三音子基元;I)对选择好的三音子基元,针对原始语音波形做基音同步标注;J)对所述原始语音波形的基音曲线与目标基音曲线建立映射,得到短时合成信号序列;K)将所述短时信号序列与目标基音周期同步排列,重叠相加得到拼接合成的语音;L)将所述合成的语音插入到提前录制好的语音中。2.根据权利要求1所述的高保真的智能客服语音合成方法,其特征在于,所述设定算法为force-alignment算法。3.根据权利要求1或2所述的高保真的智能客服语音合成方法,其特征在于,所述步骤F)进一步包括:F1)对所述目标语料库中切割好的三音子基元,采用三音子的中间音素将所有的三音子进行划分;F2)进行强制对齐之后,从左到右扫描所述三音子,得到对应的...
【专利技术属性】
技术研发人员:刘嗣平,柯登峰,陈孟达,贾宇康,
申请(专利权)人:广州九四智能科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。