语音合成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：21955250 阅读：20 留言：0更新日期：2019-08-24 19:06

本申请提出一种语音合成方法、装置、计算机设备和存储介质，其中，方法包括：通过一次只生成一个待处理词语的文本语音转换结果，同时能考已处理词语的声音特征，使得产生的文本语音转换结果能够很平滑，不会产生顿挫的感觉，也就是能够接收词语的文本语音转换结果，并且合并一个句子内的子文本语音转换结果片段后，不影响整体效果，在提高语音合成效率的同时保证语音效果，解决了现有技术中的将一个句子拆分成多个文本语音转换结果，容易产生顿挫的语音信号，衔接性非常差，或者是等待语音合成系统生成完整的语音合成结果才能下发给相关设备进行播放导致时间延迟较大的技术问题。

Speech synthesis methods, devices, computer equipment and storage media

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、计算机设备和存储介质
本申请涉及语音处理
，尤其涉及一种语音合成方法、装置、计算机设备和存储介质。
技术介绍
通常，传统语音合成系统中，只能针对一整句进行语音合成，无法接受一个词或者一个短语的语音合成，或者说拼接短语片段的合成结果形成的最终合成语音体验很差，容易产生顿挫的感觉，而且语音片段之间的衔接十分不自然。尤其在一些实时场景中，例如同声传译场景中，需要根据说话人的翻译结果，实时的生成语音信号，如果等待说话人讲完一句话或者拼接部分翻译结果，都会导致语音合成效果不是很理想。相关技术中，根据需要一次生成若干词的文本语音转换结果，单独进行调用播放；或者是等待语音合成系统生成完整的文本句子，统一生成一个文本语音转换结果，然而，一个句子如果拆分成多个文本语音转换结果，容易产生顿挫的语音信号，衔接性非常差；以及等待语音合成系统生成完整的句子时延较大，需要等待生成完整的语音合成结果才能下发给相关设备进行播放。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种语音合成方法、装置、计算机设备和存储介质，用于解决现有技术中的将一个句子拆分成多个文本语音转换结果，容易产生顿挫的语音信号，衔接性非常差，或者是等待语音合成系统生成完整的语音合成结果才能下发给相关设备进行播放导致时间延迟较大的技术问题，通过一次只生成一个待处理词语的文本语音转换结果，同时能考已处理词语的声音特征，使得产生的文本语音转换结果能够很平滑，不会产生顿挫的感觉，也就是能够接收词语的文本语音转换结果，并且合并一个句子内的子文本语音转换结果片段后，...

【技术保护点】
1.一种语音合成方法，其特征在于，包括以下步骤：获取待处理文本，并对所述待处理文本进行切词处理生成多个待处理词语；对第N个待处理词语进行编码处理生成第N个语义空间向量；其中，N为正整数；获取第N个待处理词语之前的已处理词语的N‑1个声音特征；根据所述第N个语义空间向量和所述已处理词语的N‑1个声音特征进行解码处理生成与所述第N个待处理词语对应的目标声音特征；根据所述目标声音特征生成与所述第N个待处理词语对应的第N个语音，并根据多个所述第N个语音合成与所述待处理文本对应的语音信息。

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括以下步骤：获取待处理文本，并对所述待处理文本进行切词处理生成多个待处理词语；对第N个待处理词语进行编码处理生成第N个语义空间向量；其中，N为正整数；获取第N个待处理词语之前的已处理词语的N-1个声音特征；根据所述第N个语义空间向量和所述已处理词语的N-1个声音特征进行解码处理生成与所述第N个待处理词语对应的目标声音特征；根据所述目标声音特征生成与所述第N个待处理词语对应的第N个语音，并根据多个所述第N个语音合成与所述待处理文本对应的语音信息。2.如权利要求1所述的方法，其特征在于，所述获取第N个待处理词语之前的已处理词语的N-1个声音特征，包括：在预设数据库中搜索已处理词语对应的N-1个声音特征；或获取N-1个已处理词语，并实时分别对每一个已处理词语进行编码和解码生成N-1个声音特征。3.如权利要求1所述的方法，其特征在于，所述根据所述第N个语义空间向量和所述已处理词语的N-1个声音特征进行解码处理生成与所述第N个待处理词语对应的目标声音特征，包括：对所述N-1个声音特征进行平均处理；根据平均处理结果和所述第N个语义空间向量进行解码处理生成与所述第N个待处理词语对应的目标声音特征。4.如权利要求1所述的方法，其特征在于，所述根据所述第N个语义空间向量和所述已处理词语的N-1个声音特征进行解码处理生成与所述第N个待处理词语对应的目标声音特征，包括：对所述N-1个声音特征进行求和处理；根据求和处理结果和所述第N个语义空间向量进行解码处理生成与所述第N个待处理词语对应的目标声音特征。5.如权利要求1所述的方法，其特征在于，所述根据多个所述第N个语音合成与所述待处理文本对应的语音信息，包括：将多个所述第N个语音按照预设顺序进行拼接生成目标段语音；所述目标段语音作为所述待处理文本对应的语音信息。6.一种语音合成装置，其特征在于，包括：第一获取模块，用于获取...

【专利技术属性】
技术研发人员：熊皓，张睿卿，张传强，何中军，李芝，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人