一种基于人工智能的个性化语音合成方法及终端技术

技术编号：42341210 阅读：9 留言：0更新日期：2024-08-14 16:18

本发明专利技术适用于语音合成技术领域，提供了一种基于人工智能的个性化语音合成方法及终端。本发明专利技术通过确定多个语音输出对象，采集多个标准验证语音；计算多个语音短时能量，筛选多个相近验证语音；对多个相近验证语音进行频谱转化与对比，筛选多个音色相似语音；选择多个目标相似语音；基于人工智能技术，对多个目标输出对象进行不同的语音合成处理。能够采集多个语音输出对象的标准验证语音，计算多个语音短时能量，进行频谱转化与初始共振峰的比较，筛选多个音色相似语音，选择多个目标输出对象，进行不同的语音合成处理，从而能够在多人语音环境中有音色相似的情况下，快速、有效的自动进行识别判断与语音合成处理，方便辨别不同人的语音。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音合成，尤其涉及一种基于人工智能的个性化语音合成方法及终端。

技术介绍

1、语音作为重要的信息载体，在人类文明的发展进步中，起到了重要的作用。语音合成，是语音交互中的重要组成部分，目前已经在日常生产生活中得到了广泛的应用，主要应用场景包括有声读物、语音交互和泛娱乐等。

2、现有技术中，个性化语音合成只能够根据人为的需求，进行相应的个性化语音合成处理，而在一些多人语音环境中(例如：多人游戏组队的游戏语音环境)，若有至少两个人的音色相似，则很难辨别不同人的语音，在这种情况下，现有的语音合成技术无法进行快速、有效的自动识别判断与语音合成处理。

技术实现思路

1、本专利技术实施例的目的在于提供一种基于人工智能的个性化语音合成方法及终端，旨在解决
技术介绍
中所提及的现有技术所存在的技术问题。

2、本专利技术实施例是这样实现的：

3、一种基于人工智能的个性化语音合成方法，所述方法具体包括以下步骤：

4、确定多个语音输出对象，向多个所述语音输出对象展示标准验证信息，采集多个所述语音输出对象应对所述标准验证信息的标准验证语音；

5、对多个所述标准验证语音进行分析，计算多个对应的语音短时能量，对多个所述语音短时能量进行比较，筛选多个相近验证语音；

6、对多个所述相近验证语音进行频谱转化，对比多个初始共振峰位置、多个初始共振峰带宽和多个初始共振峰幅度，筛选多个音色相似语音；

7、从多个所述语音短时能量中，

8、从多个所述语音输出对象中，选择多个目标相似语音对应的目标输出对象，基于人工智能技术，对多个所述目标输出对象进行不同的语音合成处理。

9、作为本专利技术实施例技术方案进一步的限定，所述确定多个语音输出对象，向多个所述语音输出对象展示标准验证信息，采集多个所述语音输出对象应对所述标准验证信息的标准验证语音具体包括以下步骤：

10、确定多个语音输出对象；

11、生成并向多个所述语音输出对象展示标准验证信息；

12、向多个所述语音输出对象进行语音应对提示；

13、采集多个所述语音输出对象应对所述标准验证信息的标准验证语音。

14、作为本专利技术实施例技术方案进一步的限定，所述对多个所述标准验证语音进行分析，计算多个对应的语音短时能量，对多个所述语音短时能量进行比较，筛选多个相近验证语音具体包括以下步骤：

15、从多个所述标准验证语音中，均截取多个语音信号样本；

16、按照多个所述标准验证语音对应的多个语音信号样本，计算多个对应的语音短时能量；

17、计算多个所述语音短时能量之间的短时能量差；

18、将多个所述短时能量差与预设的标准能量差进行比较，筛选多个相近能量差；

19、根据多个所述相近能量差，从多个所述标准验证语音中，筛选多个相近验证语音。

20、作为本专利技术实施例技术方案进一步的限定，多个所述语音短时能量的计算公式为：

21、

22、其中，i代表i个标准验证语音，ei为第i个标准验证语音的语音短时能量，n代表n个语音信号样本，xi(n)为第i个标准验证语音的n个语音信号样本，l为加窗窗长。

23、作为本专利技术实施例技术方案进一步的限定，所述对多个所述相近验证语音进行频谱转化，对比多个初始共振峰位置、多个初始共振峰带宽和多个初始共振峰幅度，筛选多个音色相似语音具体包括以下步骤：

24、对多个所述相近验证语音进行频谱转化，获取多个相近语音频谱；

25、按照预设的共振峰数量，在多个所述相近语音频谱中，标记多个频谱初始共振峰；

26、将多个所述频谱初始共振峰的多个初始共振峰位置、多个初始共振峰带宽和多个初始共振峰幅度进行对比，记录共振峰对比结果；

27、根据所述共振峰对比结果，从多个所述相近验证语音中，筛选多个音色相似语音。

28、作为本专利技术实施例技术方案进一步的限定，所述从多个所述语音短时能量中，筛选多个音色相似语音对应的相似短时能量，按照多个所述相似短时能量，选择多个目标相似语音具体包括以下步骤：

29、从多个所述语音短时能量中，筛选多个所述音色相似语音对应的相似短时能量；

30、将多个所述相似短时能量进行对比，记录能量对比结果；

31、按照所述能量对比结果，从多个所述相似短时能量中，选择多个目标短时能量；

32、从多个所述音色相似语音中，选择多个所述目标短时能量对应的多个目标相似语音。

33、作为本专利技术实施例技术方案进一步的限定，所述从多个所述语音输出对象中，选择多个目标相似语音对应的目标输出对象，基于人工智能技术，对多个所述目标输出对象进行不同的语音合成处理具体包括以下步骤：

34、从多个所述语音输出对象中，选择多个所述目标相似语音对应的多个目标输出对象；

35、从预设的音色模型数据库中，选择多个目标音色模型；

36、基于人工智能技术，按照多个所述目标音色模型，对多个所述目标输出对象进行不同的语音合成处理。

37、一种基于人工智能的个性化语音合成终端，所述终端包括验证语音采集模块、短时能量比较模块、频谱转化分析模块、目标语音选择模块和语音合成处理模块，其中：

38、验证语音采集模块，用于确定多个语音输出对象，向多个所述语音输出对象展示标准验证信息，采集多个所述语音输出对象应对所述标准验证信息的标准验证语音；

39、短时能量比较模块，用于对多个所述标准验证语音进行分析，计算多个对应的语音短时能量，对多个所述语音短时能量进行比较，筛选多个相近验证语音；

40、频谱转化分析模块，用于对多个所述相近验证语音进行频谱转化，对比多个初始共振峰位置、多个初始共振峰带宽和多个初始共振峰幅度，筛选多个音色相似语音；

41、目标语音选择模块，用于从多个所述语音短时能量中，筛选多个音色相似语音对应的相似短时能量，按照多个所述相似短时能量，选择多个目标相似语音；

42、语音合成处理模块，用于从多个所述语音输出对象中，选择多个目标相似语音对应的目标输出对象，基于人工智能技术，对多个所述目标输出对象进行不同的语音合成处理。

43、作为本专利技术实施例技术方案进一步的限定，所述短时能量比较模块具体包括：

44、信号截取单元，用于从多个所述标准验证语音中，均截取多个语音信号样本；

45、能量计算单元，用于按照多个所述标准验证语音对应的多个语音信号样本，计算多个对应的语音短时能量；

46、能量差计算单元，用于计算多个所述语音短时能量之间的短时能量差；

47、能量差比较单元，用于将多个所述短时能量差与预设的标准能量差进行比较，筛选多个本文档来自技高网...

【技术保护点】

1.一种基于人工智能的个性化语音合成方法，其特征在于，所述方法具体包括以下步骤：

2.根据权利要求1所述的基于人工智能的个性化语音合成方法，其特征在于，所述确定多个语音输出对象，向多个所述语音输出对象展示标准验证信息，采集多个所述语音输出对象应对所述标准验证信息的标准验证语音具体包括以下步骤：

3.根据权利要求1所述的基于人工智能的个性化语音合成方法，其特征在于，所述对多个所述标准验证语音进行分析，计算多个对应的语音短时能量，对多个所述语音短时能量进行比较，筛选多个相近验证语音具体包括以下步骤：

4.根据权利要求3所述的基于人工智能的个性化语音合成方法，其特征在于，多个所述语音短时能量的计算公式为：

5.根据权利要求1所述的基于人工智能的个性化语音合成方法，其特征在于，所述对多个所述相近验证语音进行频谱转化，对比多个初始共振峰位置、多个初始共振峰带宽和多个初始共振峰幅度，筛选多个音色相似语音具体包括以下步骤：

6.根据权利要求1所述的基于人工智能的个性化语音合成方法，其特征在于，所述从多个所述语音短时能量中，筛选多个音色

7.根据权利要求1所述的基于人工智能的个性化语音合成方法，其特征在于，所述从多个所述语音输出对象中，选择多个目标相似语音对应的目标输出对象，基于人工智能技术，对多个所述目标输出对象进行不同的语音合成处理具体包括以下步骤：

8.一种基于人工智能的个性化语音合成终端，其特征在于，所述终端包括验证语音采集模块、短时能量比较模块、频谱转化分析模块、目标语音选择模块和语音合成处理模块，其中：

9.根据权利要求8所述的基于人工智能的个性化语音合成终端，其特征在于，所述短时能量比较模块具体包括：

10.根据权利要求8所述的基于人工智能的个性化语音合成终端，其特征在于，所述频谱转化分析模块具体包括：

...

【技术特征摘要】

1.一种基于人工智能的个性化语音合成方法，其特征在于，所述方法具体包括以下步骤：

4.根据权利要求3所述的基于人工智能的个性化语音合成方法，其特征在于，多个所述语音短时能量的计算公式为：

5.根据权利要求1所述的基于人工智能的个性化语音合成方法，其特征在于，所述对多个所述相近验证语音进行频谱转化，对比多个初始共振峰位置、多个初始共振峰带宽和多个初始共振峰幅度，筛选多个音色相似语音具体包括以下步...

【专利技术属性】
技术研发人员：李志亮，柯汉平，罗芳，黄丽霞，
申请(专利权)人：宁德师范学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人