基于大模型的风格语音合成方法、系统及存储介质技术方案

技术编号：44468619 阅读：9 留言：0更新日期：2025-03-04 17:40

本发明专利技术提供了一种基于大模型的风格语音合成方法、系统及存储介质，该方法包括：根据风格参考语音对预训练后的大模型进行参数微调，提取风格参考语音的说话人特征，得到风格嵌入特征；获取风格语音合成需求，根据风格语音合成需求对风格嵌入特征进行风格内插，得到风格期望特征，将风格语音合成需求中的待合成文本和风格期望特征输入参数微调后的预训练后的大模型进行语音合成，得到目标风格语音。本发明专利技术实施例，通过风格语音合成需求对风格嵌入特征进行风格内插，能有效地根据用户需求对风格嵌入特征进行风格强度的调节，提高了语音风格控制的灵活性，提高了基于待合成文本和风格期望特征生成的目标风格语音的风格多样性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音合成，尤其涉及一种基于大模型的风格语音合成方法、系统及存储介质。

技术介绍

1、语音合成，是将文本信息转变为可以听得懂的、流利的口语输出的技术。语音合成过程是先将文本信息转换成语言学特征或音素，再将语言学特征或音素转换为音频波形的过程。

2、现有的语音合成过程中，语音模型只能合成单一风格的语音，导致语音合成风格多样性较差。

技术实现思路

1、本专利技术实施例的目的在于提供一种语音合成方法、系统、终端及存储介质，以解决现有技术中语音合成风格多样性较差的问题。

2、本专利技术实施例是这样实现的，一种基于大模型的风格语音合成方法，所述方法包括：

3、根据风格参考语音对预训练后的大模型进行参数微调，并提取所述风格参考语音的说话人特征，得到风格嵌入特征；

4、获取风格语音合成需求，并根据所述风格语音合成需求对所述风格嵌入特征进行风格内插，得到风格期望特征，所述风格内插用于调节所述风格嵌入特征的风格程度；

5、将所述风格语音合成需求中的待合成文本和所述风格期望特征输入参数微调后的所述预训练后的大模型进行语音合成，得到目标风格语音。

6、优选的，根据所述风格语音合成需求对所述风格嵌入特征进行风格内插，得到风格期望特征，包括：

7、对所述风格嵌入特征进行分类，得到特征分类集合，并获取所述特征分类集合中的所述风格嵌入特征的平均特征，得到中立风格特征；

8、获取所述风格语音合成需求中的风格

9、根据所述风格强度对所述目标中立特征进行风格调节，得到所述风格期望特征。

10、优选的，根据所述风格强度对所述目标中立特征进行风格调节采用的公式包括：

11、s＝α*sn+(1.0-α)*sh

12、其中，α是所述风格强度，sn是所述目标中立特征，sh是所述目标中立特征对应所述特征分类集合中最大强度的风格嵌入特征，s是所述风格期望特征。

13、优选的，根据风格参考语音对预训练后的大模型进行参数微调，包括：

14、获取所述风格参考语音的风格文本，并提取所述风格文本的文本特征；

15、对所述风格参考语音和所述文本特征进行注意力处理，得到全局特征，并根据所述全局特征对所述预训练后的大模型进行参数微调。

16、优选的，对所述风格参考语音和所述文本特征进行注意力处理，得到全局特征，包括：

17、对所述风格参考语音进行卷积处理，得到第一卷积特征，并对所述第一卷积特征进行向量转换，得到风格向量；

18、将所述风格向量作为键矩阵和值矩阵、将所述文本特征作为查询矩阵进行注意力处理，得到注意力特征；

19、对所述注意力特征进行多卷积处理，得到第二卷积特征和第三卷积特征，并对所述第二卷积特征和所述第三卷积特征进行权重处理，得到所述全局特征。

20、优选的，根据风格参考语音对预训练后的大模型进行参数微调之前，还包括：

21、获取语音文本对，并对所述语音文本对进行特征提取，得到语音文本特征；

22、对所述语音文本特征进行说话人嵌入处理，得到说话人嵌入特征，并将所述语音文本对、所述语音文本特征和所述说话人嵌入特征输入大模型进行语音合成，得到合成语音；

23、根据所述合成语音确定模型损失，并根据所述模型损失对所述大模型进行参数更新，直至所述大模型收敛，得到所述预训练后的大模型。

24、优选的，对所述语音文本特征进行说话人嵌入处理，得到说话人嵌入特征之后，还包括：

25、对所述说话人嵌入特征进行归一化处理，并对归一化处理后的所述说话人嵌入特征进行降维处理。

26、本专利技术实施例的另一目的在于提供一种基于大模型的风格语音合成系统，所述系统包括：

27、模型微调模块，用于根据风格参考语音对预训练后的大模型进行参数微调，并提取所述风格参考语音的说话人特征，得到风格嵌入特征；

28、风格内插模块，用于获取风格语音合成需求，并根据所述风格语音合成需求对所述风格嵌入特征进行风格内插，得到风格期望特征，所述风格内插用于调节所述风格嵌入特征的风格程度；

29、语音合成模块，用于将所述风格语音合成需求中的待合成文本和所述风格期望特征输入参数微调后的所述预训练后的大模型进行语音合成，得到目标风格语音。

30、优选的，所述风格内插模块还用于：

31、对所述风格嵌入特征进行分类，得到特征分类集合，并获取所述特征分类集合中的所述风格嵌入特征的平均特征，得到中立风格特征；

32、获取所述风格语音合成需求中的风格类型标识和风格强度，并根据所述风格类型标识确定所述中立风格特征中的目标中立特征；

33、根据所述风格强度对所述目标中立特征进行风格调节，得到所述风格期望特征。

34、本专利技术实施例，通过风格语音合成需求对风格嵌入特征进行风格内插，能有效地根据用户需求对风格嵌入特征进行风格强度的调节，提高了语音风格控制的灵活性，提高了基于待合成文本和风格期望特征生成的目标风格语音的风格多样性。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的风格语音合成方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于大模型的风格语音合成方法，其特征在于，根据所述风格语音合成需求对所述风格嵌入特征进行风格内插，得到风格期望特征，包括：

3.如权利要求2所述的基于大模型的风格语音合成方法，其特征在于，根据所述风格强度对所述目标中立特征进行风格调节采用的公式包括：

4.如权利要求1所述的基于大模型的风格语音合成方法，其特征在于，根据风格参考语音对预训练后的大模型进行参数微调，包括：

5.如权利要求4所述的基于大模型的风格语音合成方法，其特征在于，对所述风格参考语音和所述文本特征进行注意力处理，得到全局特征，包括：

6.如权利要求1所述的基于大模型的风格语音合成方法，其特征在于，根据风格参考语音对预训练后的大模型进行参数微调之前，还包括：

7.如权利要求6所述的基于大模型的风格语音合成方法，其特征在于，对所述语音文本特征进行说话人嵌入处理，得到说话人嵌入特征之后，还包括：

8.一种基于大模型的风格语音合成系统，其特征在于，所述系统包括：

9.如权利要求8所述的基于大模型的风格语音合成系统，其特征在于，所述风格内插模块还用于：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于大模型的风格语音合成方法，其特征在于，所述方法包括：

3.如权利要求2所述的基于大模型的风格语音合成方法，其特征在于，根据所述风格强度对所述目标中立特征进行风格调节采用的公式包括：

4.如权利要求1所述的基于大模型的风格语音合成方法，其特征在于，根据风格参考语音对预训练后的大模型进行参数微调，包括：

5.如权利要求4所述的基于大模型的风格语音合成方法，其特征在于，对所述风格参考语音和所述文本特征进行注意力处理，得到全局特征，包...

【专利技术属性】
技术研发人员：孙见青，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人