基于人工智能的语音生成方法、装置、计算机设备及介质制造方法及图纸

技术编号：44152960 阅读：1 留言：0更新日期：2025-01-29 10:25

本申请属于人工智能领域与金融科技领域，涉及一种基于人工智能的语音生成方法，包括：接收待合成文本与初始语音；对待合成文本进行预处理得到指定文本；基于文本编码器对指定文本进行文本编码得到文本编码向量；从初始语音中提取说话者嵌入向量；基于大语言模型对文本编码向量与说话者嵌入向量进行处理生成目标语音标记序列；基于目标条件流匹配模型对目标语音标记序列与说话者嵌入向量进行处理得到梅尔频谱图；基于声码器对梅尔频谱图进行转换处理得到合成语音。本申请还提供一种基于人工智能的语音生成装置、计算机设备及存储介质。此外，本申请的合成语音可存储于区块链中。通过本申请提高了生成的合成语音的语音质量，有利于提高用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能开发与金融科技领域，尤其涉及基于人工智能的语音生成方法、装置、计算机设备及存储介质。

技术介绍

1、语音合成方法可以将文本合成为对应的语音，在互联网、金融、医疗、教育等多个领域中具有广泛的应用。在金融业务场景中，为了解答客户对金融产品、交易流程等业务内容的疑问，通常配置有客服人员与客户进行交流，由于金融业务复杂多样，大量的咨询业务、售后业务等简单任务会严重占据业务人员的精力和时间，降低业务人员的工作效率和工作质量，而采用基于自动语音合成的智能会话方式可以节省大量的人工成本，同时可以通过控制合成语音来提升对客户的服务质量，因此，语音合成技术在金融业务场景中起到重要的辅助作用。

2、目前的金融企业通常采用基于大语言模型的语音合成方式，通过将语音信号转换为标记序列来工作，大语言模型使用文本作为条件来模拟这些标记序列。然后，使用标记声码器从标记化的语音中重建原始波形，从而完成合成语音的生成。然而，这种处理方式生成的合成语音往往存在不够自然，质量较差的问题，用户体验不好。

技术实现思路

1、本申请实施例的目的在于提出一种基于人工智能的语音生成方法、装置、计算机设备及存储介质，以解决现有的金融企业采用的基于大语言模型的语音合成方式存在生成的合成语音的质量较差的技术问题。

2、为了解决上述技术问题，本申请实施例提供一种基于人工智能的语音生成方法，采用了如下所述的技术方案：

3、接收用户输入的待合成文本与初始语音；

4、对所述待合成

5、基于预设的文本编码器对所述指定文本进行文本编码处理，得到对应的文本编码向量；

6、从所述初始语音中提取出对应的说话者嵌入向量；

7、基于预设的大语言模型对所述文本编码向量与所述说话者嵌入向量进行处理，生成对应的目标语音标记序列；

8、基于预设的目标条件流匹配模型对所述目标语音标记序列与所述说话者嵌入向量进行处理，得到对应的梅尔频谱图；

9、基于预设的声码器对所述梅尔频谱图进行转换处理，得到对应的合成语音。

10、进一步的，所述基于预设的大语言模型对所述文本编码向量与所述说话者嵌入向量进行处理，生成对应的目标语音标记序列的步骤，具体包括：

11、调用所述大语言模型；

12、基于所述大语言模型对所述文本编码向量与所述说话者嵌入向量进行处理，得到对应的第一语音标记序列；

13、对所述第一语音标记序列进行去除重复项处理，得到对应的第二语音标记序列；

14、对所述第二语音标记序列进行序列长度调整处理，得到对应的第三语音标记序列；

15、对所述第三语音标记序列进行序列平滑处理，得到对应的第四语音标记序列；

16、将所述第四语音标记序列作为所述目标语音标记序列。

17、进一步的，所述对所述第二语音标记序列进行序列长度调整处理，得到对应的第三语音标记序列的步骤，具体包括：

18、获取所述第二语音标记序列的序列长度；

19、获取预设的目标序列长度；

20、判断所述序列长度是否小于所述目标序列长度；

21、若是，基于预设的元素添加策略对所述第二语音标记序列进行元素添加处理，得到元素添加后的第二语音标记序列，并将所述元素添加后的第二语音标记序列作为所述第三语音标记序列；

22、若否，基于预设的元素删除策略对所述第二语音标记序列进行元素删除处理，得到元素删除后的第二语音标记序列，并将所述元素删除后的第二语音标记序列作为所述第三语音标记序列。

23、进一步的，所述从所述初始语音中提取出对应的说话者嵌入向量的步骤，具体包括：

24、调用预设的声纹模型；

25、将所述初始语音输入至所述声纹模型内；

26、基于所述声纹模型对所述初始语音进行向量提取处理，得到与所述初始语音对应的所述说话者嵌入向量。

27、进一步的，在所述基于预设的目标条件流匹配模型对所述目标语音标记序列与所述说话者嵌入向量进行处理，得到对应的梅尔频谱图的步骤之前，还包括：

28、获取初始条件流匹配模型；

29、获取预设的余弦调度器；

30、基于所述余弦调度器对所述初始条件流匹配模型进行调整处理，得到对应的第一条件流匹配模型；

31、基于预设的分类器自由引导策略对所述第一条件流匹配模型进行优化处理，得到对应的第二条件流匹配模型；

32、基于所述第二条件流匹配模型构建得到所述目标条件流匹配模型。

33、进一步的，在所述基于预设的声码器对所述梅尔频谱图进行转换处理，得到对应的合成语音的步骤之后，还包括：

34、基于预设的质量优化策略对所述合成语音进行优化处理，得到对应的目标合成语音；

35、基于所述目标合成语音生成对应的目标音频文件；

36、获取预设的推送方式；

37、基于所述推送方式，将所述目标音频文件推送给所述用户。

38、进一步的，所述基于预设的质量优化策略对所述合成语音进行优化处理，得到对应的目标合成语音的步骤，具体包括：

39、对所述合成语音进行去噪处理，得到对应的第一合成语音；

40、对第一合成语音进行音量调整处理，得到对应的第二合成语音；

41、对所述第二合成语音进行范围压缩处理，得到对应的第三合成语音；

42、将所述第三合成语音作为所述目标合成语音。

43、为了解决上述技术问题，本申请实施例还提供一种基于人工智能的语音生成装置，采用了如下所述的技术方案：

44、接收模块，用于接收用户输入的待合成文本与初始语音；

45、预处理模块，用于对所述待合成文本进行预处理，得到对应的指定文本；

46、编码模块，用于基于预设的文本编码器对所述指定文本进行文本编码处理，得到对应的文本编码向量；

47、提取模块，用于从所述初始语音中提取出对应的说话者嵌入向量；

48、第一处理模块，用于基于预设的大语言模型对所述文本编码向量与所述说话者嵌入向量进行处理，生成对应的目标语音标记序列；

49、第二处理模块，用于基于预设的目标条件流匹配模型对所述目标语音标记序列与所述说话者嵌入向量进行处理，得到对应的梅尔频谱图；

50、转换模块，用于基于预设的声码器对所述梅尔频谱图进行转换处理，得到对应的合成语音。

51、为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

52、接收用户输入的待合成文本与初始语音；

53、对所述待合成文本进行预处理，得到对应的指定文本；

54、基于预设的文本编码器对所述指定文本进行文本编码处理，得到对应的文本编码向量；

5本文档来自技高网...

【技术保护点】

1.一种基于人工智能的语音生成方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于人工智能的语音生成方法，其特征在于，所述基于预设的大语言模型对所述文本编码向量与所述说话者嵌入向量进行处理，生成对应的目标语音标记序列的步骤，具体包括：

3.根据权利要求2所述的基于人工智能的语音生成方法，其特征在于，所述对所述第二语音标记序列进行序列长度调整处理，得到对应的第三语音标记序列的步骤，具体包括：

4.根据权利要求1所述的基于人工智能的语音生成方法，其特征在于，所述从所述初始语音中提取出对应的说话者嵌入向量的步骤，具体包括：

5.根据权利要求1所述的基于人工智能的语音生成方法，其特征在于，在所述基于预设的目标条件流匹配模型对所述目标语音标记序列与所述说话者嵌入向量进行处理，得到对应的梅尔频谱图的步骤之前，还包括：

6.根据权利要求1所述的基于人工智能的语音生成方法，其特征在于，在所述基于预设的声码器对所述梅尔频谱图进行转换处理，得到对应的合成语音的步骤之后，还包括：

7.根据权利要求6所述的基于人工智能的语

8.一种基于人工智能的语音生成装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于人工智能的语音生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于人工智能的语音生成方法的步骤。

...

【技术特征摘要】

1.一种基于人工智能的语音生成方法，其特征在于，包括下述步骤：

4.根据权利要求1所述的基于人工智能的语音生成方法，其特征在于，所述从所述初始语音中提取出对应的说话者嵌入向量的步骤，具体包括：

6.根...

【专利技术属性】
技术研发人员：孙奥兰，王健宗，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人