口语文本生成方法、语音合成方法及相关装置制造方法及图纸

技术编号：41251358 阅读：15 留言：0更新日期：2024-05-09 23:59

本申请公开了一种口语文本生成方法、语音合成方法及相关装置，该方法包括：获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本。通过上述方式，本申请能够得到更加口语化的口语文本。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理，特别是涉及一种口语文本生成方法、语音合成方法及相关装置。

技术介绍

1、随着交互场景应用越来越广泛，研发人员开始探索如何使交互过程更加拟人化，如人机语音交互过程，使机器能够发出更加拟人化的语音。机器语音合成过程分为语音合成前端和语音合成后端，合成前端主要是将各语种的文本序列转换为和发音更相关的音素序列，合成后端是利用音素序列生成声学参数并通过声码器恢复成语音波形。因此，语音合成中依赖的文本序列是至关重要的，如何使语音合成使用的文本更加口语化成为研发人员关注的问题之一。

技术实现思路

1、本申请主要解决的技术问题是提供一种口语文本生成方法、语音合成方法及相关装置，能够得到更加口语化的口语文本。

2、为解决上述技术问题，本申请第一方面提供了一种口语文本生成方法，该方法包括：获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本。

3、为解决上述技术问题，本申请第二方面提供了一种语音合成方法，该方法包括：获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本；基于目标口语文本，合成口语语音。

4、为解决上述技术问题，本申请第三方面提供了一种口语文本生成装置，该装置包括第一获取模

5、为解决上述技术问题，本申请第四方面提供了一种语音合成装置，该装置包括：第二获取模块、第二生成模块和语音合成模块，第二获取模块用于获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；第二生成模块用于利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本；语音合成模块用于基于目标口语文本，合成口语语音。

6、为解决上述技术问题，本申请第五方面提供了一种电子设备，该电子设备包括相互耦接的存储器和处理器，存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述第一方面或第二方面提供的方法。

7、为解决上述技术问题，本申请第六方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有程序文件，程序文件能够被执行以实现上述第一方面或第二方面提供的方法。

8、本申请的有益效果是：区别于现有技术的情况，本申请获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本。通过设置个性化的提示语，即可使得口语文本生成模型按照提示语的第一指示内容，利用目标书面文本生成更加口语化的目标口语文本。

本文档来自技高网...

【技术保护点】

1.一种口语文本生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用口语文本生成模型按照所述提示语的第一指示内容，对所述目标书面文本执行所述口语文本生成任务，得到目标口语文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述获得各所述候选口语文本对应的第一概率，包括：

4.根据权利要求3所述的方法，其特征在于，所述提示语的第一提示内容包括至少一个口语标签，在所述对于所述候选口语文本中各词语，基于所述词语属于目标口语标签的第二概率和所述目标口语标签的先验概率，确定所述词语对应的第三概率之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述提示语的第一提示内容包括所述目标口语文本的应用场景，所述应用场景用于指示所述口语文本生成模型生成的目标口语文本与所述应用场景匹配。

6.根据权利要求1所述的方法，其特征在于，所述提示语还包括第二提示内容，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述提示语的第二指示内容包括至少一个情感标签；

8.根据权利要

9.根据权利要求8所述的方法，其特征在于，所述样本提示语有多个，所述训练任务还包括文本分析任务，所述文本分析任务包括文本的词性标注任务、文本分词任务、文本情感分类任务、依存句法分析任务、文本翻译任务、文本语法检查任务中的至少一者；

10.根据权利要求8所述的方法，其特征在于，在所述利用至少一个样本提示语，分别控制所述口语文本生成模型对样本书面文本执行与各所述样本提示语对应的训练任务，得到各所述训练任务对应的模型输出结果之前，还包括：

11.一种语音合成方法，其特征在于，包括：

12.一种口语文本生成装置，其特征在于，包括：

13.一种语音合成装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：相互耦接的存储器和处理器，其中，所述存储器存储有程序指令，所述处理器用于执行所述存储器中存储的程序指令，以执行如权利要求1-11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序文件，所述程序文件能够被执行以实现如权利要求1-11任一项所述的方法。

...

【技术特征摘要】

1.一种口语文本生成方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述获得各所述候选口语文本对应的第一概率，包括：

6.根据权利要求1所述的方法，其特征在于，所述提示语还包括第二提示内容，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述提示语的第二指示内容包括至少一个情感标签；

8.根据权利要求1所述的方法，其特...

【专利技术属性】
技术研发人员：蔡明琦，方昕，高建清，刘聪，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人