一种语音合成模型构建方法、系统、存储介质和程序产品技术方案

技术编号：44471392 阅读：11 留言：0更新日期：2025-03-04 17:42

本发明专利技术提供一种语音合成模型构建方法、系统、存储介质和程序产品，其中方法包括以下步骤：获取音频、文字、拼音；设置音频编码模块对所述音频提取音频编码，设置文字tokenizer将所述文字转为文字编码，设置拼音编码模块对所述拼音提取拼音编码；设置特征融合模块，将所述音频编码和所述文字编码或所述拼音编码进行融合，得到融合后的特征；将所述融合后的特征通过大语言模型，得到最终的音频向量；采用声学解码器，对所述最终的音频向量进行解码，得到最终的音频；根据损失对语音合成模型进行反向迭代。本发明专利技术能够精准控制单字读音的语音合成模型，解决现有语音合成模型中对语音合成中读音精准控制的能力差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能语音，特别涉及一种语音合成模型构建方法、系统、存储介质和程序产品。

技术介绍

1、传统的语音合成模型，往往是经由文字、音素、中间特征、梅尔频谱，合成声音波形文件，音素可以通俗理解为拼音，以音素作为最小的发音单元，通过预测音节的发音时长和发音高低，来控制音频的合成情况。

2、近年来的语音合成模型，开始逐渐通过大语言模型(llm，large languagemodel)，根据输入的文字和音频信息，生成特殊的语义token(semantic token)，然后再用预训练的解码器将这些语义token解码成声音波形，从而完成语音合成。由于不再显式地使用音素来作为输入，而是采取与大语言模型更合适的token化方式，如bpe等。这样的模型设计虽然能获得更好的语音自然度，但也一定程度丧失了对语音合成中读音精准控制的能力。

3、由于汉语中多音字是时常出现的，而且考虑到方言等情况，顾客往往有自己定义某个字读音的需求。所以亟需专利技术一种能够精准控制单字读音的语音合成模型，解决现有语音合成模型中对语音合成中读音精准控制的能力差的问题。

技术实现思路

1、针对现有技术存在的不足，本专利技术提供一种语音合成模型构建方法、系统、存储介质和程序产品，旨在通过引入拼音编码模块，并通过特定训练方式，使模型训练后能够具有精准控制单字读音能力。

2、第一方面，本专利技术提供一种语音合成模型构建方法，包括以下步骤：

3、获取音频、文字、拼音；

5、设置特征融合模块，将所述音频编码和所述文字编码或所述拼音编码进行融合，得到融合后的特征；

6、将所述融合后的特征通过大语言模型，得到最终的音频向量；

7、采用声学解码器，对所述最终的音频向量进行解码，得到最终的音频；

8、根据损失对语音合成模型进行反向迭代。

9、作为本专利技术的进一步改进，所述获取音频、文字、拼音，包括：

10、获取音频；

11、将所述音频按不同说话人进行分类，得到分类音频；

12、将所述分类音频切割为若干短句音频；

13、采用asr自动语音识别模型获取所述短句音频对应的文字；

14、采用g2p模型获取所述文字对应的拼音。

15、作为本专利技术的进一步改进，所述特征融合模块有50％的几率将所述音频编码和所述文字编码进行融合，有50％的几率将所述音频编码和所述拼音编码进行融合。

16、作为本专利技术的进一步改进，所述根据损失对语音合成模型进行反向迭代，包括：采用kl散度损失约束拼音编码和文字编码在隐藏空间上的分布，使拼音编码和文字编码分布更相近，每次迭代时的损失函数loss_new为：

17、loss_new＝loss_old+kl(p1(phone1),t1(text1))，

18、其中，loss_old为原有模型损失函数，kl()为kl散度损失，p1(phone1)为拼音编码，t1(text1)为文字编码。

19、作为本专利技术的进一步改进，所述kl散度损失计算方式为：

20、kl(y_pred,y_true)＝y_true*log(y_true/y_pred)，

21、其中，kl()为kl散度损失，y_true＝t1(text1)，y_pred＝p1(phone1)，p1(phone1)为拼音编码，t1(text1)为文字编码。

22、第二方面，本专利技术提供一种计算机系统，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现第一方面所述方法的步骤。

23、第三方面，本专利技术提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面所述方法的步骤。

24、第四方面，本专利技术提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述方法的步骤。

25、与现有技术相比，本专利技术的有益效果在于：

26、本专利技术提供一种语音合成模型构建方法、系统、存储介质和程序产品，能够精准控制单字读音的语音合成模型，解决现有语音合成模型中对语音合成中读音精准控制的能力差的问题。

本文档来自技高网...

【技术保护点】

1.一种语音合成模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音合成模型构建方法，其特征在于，所述获取音频、文字、拼音，包括：

3.根据权利要求1所述的语音合成模型构建方法，其特征在于，所述特征融合模块有50％的几率将所述音频编码和所述文字编码进行融合，有50％的几率将所述音频编码和所述拼音编码进行融合。

4.根据权利要求1所述的语音合成模型构建方法，其特征在于，所述根据损失对语音合成模型进行反向迭代，包括：采用KL散度损失约束拼音编码和文字编码在隐藏空间上的分布，使拼音编码和文字编码分布更相近，每次迭代时的损失函数Loss_new为：

5.根据权利要求4所述的语音合成模型构建方法，其特征在于，所述KL散度损失计算方式为：

6.一种计算机系统，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-5中的任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-5中的任一项所述方法的步骤。

8.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-5中的任一项所述方法的步骤。

...

【技术特征摘要】

1.一种语音合成模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音合成模型构建方法，其特征在于，所述获取音频、文字、拼音，包括：

4.根据权利要求1所述的语音合成模型构建方法，其特征在于，所述根据损失对语音合成模型进行反向迭代，包括：采用kl散度损失约束拼音编码和文字编码在隐藏空间上的分布，使拼音编码和文字编码分布更相近，每次迭代时的损失...

【专利技术属性】
技术研发人员：周邦键，沈伟林，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人