语音合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：30141790 阅读：18 留言：0更新日期：2021-09-23 15:06

本发明专利技术公开了一种语音合成方法、装置、计算机设备及存储介质，其中方法包括：分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，且第一话术短句对应的语音信息预先合成；根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务；依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。本发明专利技术能够缩短固定话术和变量话术之间的停顿时间，使得语音效果更好。音效果更好。音效果更好。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、计算机设备及存储介质

[0001]本申请涉及语音处理
，特别是涉及一种语音合成方法、装置、计算机设备及存储介质。

技术介绍

[0002]TTTS(Text
‑
To
‑
Speech)系统是语音合成系统，主要功能是将文本转换成将文字转换为语音，为用户提供语音合成服务。目前，市面上主流的TTS系统是基于参数式方式合成，拟人化程度差，效果机械。
[0003]为了解决拟人化程度差，效果机械的问题，目前业界提出了一些使用深度神经网络的TTS系统以提升拟人效果。但是，对于使用深度神经网络的TTS系统而言，其每次合成语音均是将所有文本内容合成为音频内容后再一次性输出，合成时间比较长，在使用GPU合成的情况下一般合成15个字符需要1秒左右，合成100个字符需要3秒左右。而针对于合成时长过长的问题，业界常用的方法是将固定的话术文本的语音提前离线合成好并放至客户端的后台，每次只需要实时合成变量部分的语音，以减少合成字符数从而缩短实时合成时间，播报话术时，如果是固定话术则直接播报后台预先存储的离线音频文件，而碰到变量则实时通过TTS合成后再进行播报，但是，通常情况下，变量长度一般在5
‑
20个字符之间，合成需要0.5
‑
1.2秒左右的时间，按照上述的语音合成方法则会导致固定话术和变量之间存在0.5
‑
1.2秒的停顿，导致合成的语音效果不佳，进而还可能影响到句子的韵律，导致用户理解错句子的意思。

技术实现思路
r/>[0004]本申请提供一种语音合成方法、装置、计算机设备及存储介质，以解决现有的语音合成方法合成的语音效果不佳的技术问题。
[0005]为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音合成方法，包括：分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，第二话术短句由变量填入预先设定的第二话术短句模板得到，变量根据语音信息设定，第一话术短句、第二话术短句模板均存储于预设话术库，且第一话术短句对应的语音信息预先合成；根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务；依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。
[0006]作为本申请的进一步改进，预设话术库还存储了预先配置的寒暄话术短句，寒暄话术短句的语音信息预先合成；根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务之前，还包括：判断待输出文本是以第一话术短句开头还是以第二话术短句开头；若是以第一话术短句开头，则执行根据第二话术短句在待输出文本中
的排列顺序依次构建第二话术短句的语音合成任务及后续步骤；若是以第二话术短句开头，则在待输出文本之前添加一个寒暄话术短句。
[0007]作为本申请的进一步改进，其还包括预先构建预设话术库，预先构建预设话术库包括：获取预先准备的话术；解析话术的语义，并根据语义利用标点符号将话术划分为第一话术短句和第二话术短句模板。
[0008]作为本申请的进一步改进，执行语音合成任务，包括：获取第二话术短句中的标点符号；根据标点符号的类型设定停顿时间并确认语音播放语气；结合停顿时间和语音播放语气将第二话术短句转换为语音信息。
[0009]作为本申请的进一步改进，结合停顿时间和语音播放语气将第二话术短句转换为语音信息之后，还包括：将第二话术短句对应的语音信息存储至缓存后，设定有效时长并计时；当计时时长达到有效时长时，从缓存删除第二话术短句对应的语音信息。
[0010]作为本申请的进一步改进，获取第二话术短句中的标点符号之前，还包括：判断缓存中是否存在与第二话术短句对应的语音信息；若存在，则重置第二话术短句对应的语音信息的有效时长，并重新开始计时。
[0011]作为本申请的进一步改进，第一话术短句、第二话术短句模板和寒暄话术短句的长度预先设置，以致合成一个第二话术短句的语音信息所需的时间短于播放第一话术短句或寒暄话术短句对应的语音信息所需的时间。
[0012]为解决上述技术问题，本申请采用的又一个技术方案是：提供一种语音合成装置，包括：分析模块，用于分析用户输入的语音信息以确认待输出文本，待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，第二话术短句由变量填入预先设定的第二话术短句模板得到，变量根据语音信息设定，第一话术短句、第二话术短句模板均存储于预设话术库，且第一话术短句对应的语音信息预先合成；构建模块，用于根据第二话术短句在待输出文本中的排列顺序依次构建第二话术短句的语音合成任务；语音合成模块，用于依次播放待输出文本的每个话术短句对应的语音，同时开始依次执行语音合成任务；并且，若当前待播放话术短句是第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是第二话术短句，则查询对应的语音合成任务合成的语音信息并播放。
[0013]为解决上述技术问题，本申请采用的再一个技术方案是：提供一种计算机设备，计算机设备包括处理器、与处理器耦接的存储器，存储器中存储有程序指令，程序指令被处理器执行时，使得处理器执行如上述中任一项的语音合成方法的步骤。
[0014]为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储介质，存储介质存储有能够实现上述任一项的语音合成方法的程序指令。
[0015]本申请的有益效果是：本申请的语音合成方法通过将待输出文本划分为固定不变的第一话术短句和包含变量的第二话术短句，再为第二话术短句创建对应的语音合成任务，在按照顺序播放待输出文本的每个话术短句的同时，开始按照顺序依次执行语音合成任务，使得第二话术短句的语音合成过程与整个待输出文本的语音播放过程异步进行，达到提前开始合成第二话术短句对应的语音信息的目的，而不需要等到即将播放第二话术短句对应的语音信息才开始合成语音信息，从而缩短或消除了第一话术短句与第二话术短句之间的时间停顿，使得最终合成的语音拟人化程度高，且效果更佳。
附图说明
[0016]图1是本专利技术第一实施例的语音合成方法的流程示意图；
[0017]图2是本专利技术第二实施例的语音合成方法的流程示意图；
[0018]图3是本专利技术实施例的语音合成装置的功能模块示意图；
[0019]图4是本专利技术实施例的计算机设备的结构示意图；
[0020]图5是本专利技术实施例的存储介质的结构示意图。
具体实施方式
[0021]下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：分析用户输入的语音信息以确认待输出文本，所述待输出文本包括依次排列的至少一个第一话术短句和/或至少一个第二话术短句，所述第二话术短句由变量填入预先设定的第二话术短句模板得到，所述变量根据所述语音信息设定，所述第一话术短句、所述第二话术短句模板均存储于预设话术库，且所述第一话术短句对应的语音信息预先合成；根据所述第二话术短句在所述待输出文本中的排列顺序依次构建所述第二话术短句的语音合成任务；依次播放所述待输出文本的每个话术短句对应的语音，同时开始依次执行所述语音合成任务；并且，若当前待播放话术短句是所述第一话术短句，则查询预先合成的语音信息并播放；若当前待播放话术短句是所述第二话术短句，则查询对应的所述语音合成任务合成的语音信息并播放。2.根据权利要求1所述的语音合成方法，其特征在于，所述预设话术库还存储了预先配置的寒暄话术短句，所述寒暄话术短句的语音信息预先合成；所述根据所述第二话术短句在所述待输出文本中的排列顺序依次构建所述第二话术短句的语音合成任务之前，还包括：判断所述待输出文本是以所述第一话术短句开头还是以所述第二话术短句开头；若是以所述第一话术短句开头，则执行根据所述第二话术短句在所述待输出文本中的排列顺序依次构建所述第二话术短句的语音合成任务及后续步骤；若是以所述第二话术短句开头，则在所述待输出文本之前添加一个所述寒暄话术短句。3.根据权利要求1所述的语音合成方法，其特征在于，其还包括预先构建所述预设话术库，所述预先构建所述预设话术库包括：获取预先准备的话术；解析所述话术的语义，并根据所述语义利用标点符号将所述话术划分为所述第一话术短句和所述第二话术短句模板。4.根据权利要求3所述的语音合成方法，其特征在于，所述执行所述语音合成任务，包括：获取所述第二话术短句中的标点符号；根据所述标点符号的类型设定停顿时间并确认语音播放语气；结合所述停顿时间和所述语音播放语气将所述第二话术短句转换为语音信息。5.根据权利要求4所述的语音合成方法，其特征在于，所述结合所述停顿时间和所述语音播放语气将所述第二话术短句转...

【专利技术属性】
技术研发人员：陈小建，陈闽川，马骏，王少军，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人