语音合成方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：41567284 阅读：18 留言：0更新日期：2024-06-06 23:48

本公开提供了一种语音合成方法、装置、设备、介质及程序产品。本公开涉及语音处理技术领域。在本公开的一些实施例中，在用户当前所处环境的声音状态为噪声状态的情况下，从当前环境声音中提取与用户对应的第一语音，以去除环境中的噪声；根据第一语音，确定用户所需的目标文本；根据用户实际所需的目标文本，生成准确的待传输信息，提升用户间交互质量，提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及语音处理，尤其涉及一种语音合成方法、装置、设备、存储介质及程序产品。

技术介绍

1、随着手机的持续发展，越来越多的功能出现在人们的视野中，手机承担了越来越多的功能，各式各样的工作都可以通过手机完成办理，语音信息的传输非常的重要。

2、目前，在用户使用语音进行交互的过程中，外部环境中的噪声会对用户语音带来影响，降低用户间交互质量，用户体验较差。

技术实现思路

1、本公开提供一种语音合成方法、装置、设备、介质及程序产品，以至少解决现有用户间交互质量较低，用户体验较差的技术问题。

2、本公开的技术方案如下：

3、本公开实施例提供一种语音合成方法，包括：

4、在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音；

5、根据所述第一语音，确定所述用户所需的目标文本；

6、根据所述目标文本，生成待传输信息。

7、可选地，在所述获取当前环境声音中的与所述用户对应的第一语音之前，所述方法还包括：

8、采集所述用户当前所处环境中的环境声音；

9、从所述环境声音中分离出环境噪声；

10、识别所述环境噪声对应的噪声分贝；

11、在所述噪声分贝大于设定分贝阈值的情况下，确定所述用户当前所处环境的声音状态为噪声状态。

12、可选地，所述在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音，包括：

13、在用户当前所处环境的声音状态为噪声状态的情况下，采集所述当前环境声音；

14、根据所述用户对应的声纹特征，从所述当前环境声音中分离出与所述用户对应的第一语音。

15、可选地，所述根据所述第一语音，确定所述用户所需的目标文本，包括：

16、对所述第一语音进行文本识别，得到与所述第一语音对应的原始文本；

17、在界面上展示所述原始文本；

18、响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本。

19、可选地，所述界面包括确认控件，所述响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本，包括：

20、响应于对所述确认控件的触发操作，将所述原始文本作为所述目标文本。

21、可选地，所述界面包括确认控件，所述响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本，包括：

22、响应于对所述原始文本的触发操作，将所述原始文本激活为可编辑状态；

23、响应于对所述可编辑状态的所述原始文本的修改操作，得到修改后的原始文本；

24、响应于对所述确认控件的触发操作，将所述修改后的原始文本作为所述目标文本。

25、可选地，所述根据所述目标文本，生成待传输信息，包括：

26、获取信息传输类型；

27、若所述信息传输类型为文本传输，则将所述目标文本作为所述待传输信息；

28、若所述信息传输类型为语音传输，将所述目标文本和所述用户的声纹特征输入已有的语音合成模型中，得到所述用户对应的第二语音；将所述第二语音作为所述待传输信息。

29、可选地，所述获取信息传输类型，包括：

30、响应于信息传输类型选择操作，获取所述信息传输类型；或者，

31、识别当前应用场景；查询应用场景与信息传输类型的映射关系表，得到所述当前应用场景对应的所述信息传输类型。

32、可选地，在使用所述语音合成模型之前，所述方法还包括：

33、采集所述用户对应的样本语音数据；

34、根据所述样本语音数据，对预训练模型进行模型训练，得到所述语音合成模型。

35、本公开实施例还提供一种语音合成装置，包括：

36、获取模块，用于在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音；

37、确定模块，用于根据所述第一语音，确定所述用户所需的目标文本；

38、生成模块，用于根据所述目标文本，生成待传输信息。

39、可选地，所述获取模块在所述获取当前环境声音中的与所述用户对应的第一语音之前，还可用于：

40、采集所述用户当前所处环境中的环境声音；

41、从所述环境声音中分离出环境噪声；

42、识别所述环境噪声对应的噪声分贝；

43、在所述噪声分贝大于设定分贝阈值的情况下，确定所述用户当前所处环境的声音状态为噪声状态。

44、可选地，所述获取模块在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音时，用于：

45、在用户当前所处环境的声音状态为噪声状态的情况下，采集所述当前环境声音；

46、根据所述用户对应的声纹特征，从所述当前环境声音中分离出与所述用户对应的第一语音。

47、可选地，所述确定模块在根据所述第一语音，确定所述用户所需的目标文本时，用于：

48、对所述第一语音进行文本识别，得到与所述第一语音对应的原始文本；

49、在界面上展示所述原始文本；

50、响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本。

51、可选地，所述界面包括确认控件，所述确定模块在响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本时，用于：

52、响应于对所述确认控件的触发操作，将所述原始文本作为所述目标文本。

53、可选地，所述界面包括确认控件，所述确定模块在响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本时，用于：

54、响应于对所述原始文本的触发操作，将所述原始文本激活为可编辑状态；

55、响应于对所述可编辑状态的所述原始文本的修改操作，得到修改后的原始文本；

56、响应于对所述确认控件的触发操作，将所述修改后的原始文本作为所述目标文本。

57、可选地，所述生成模块在根据所述目标文本，生成待传输信息时，用于：

58、获取信息传输类型；

59、若所述信息传输类型为文本传输，则将所述目标文本作为所述待传输信息；

60、若所述信息传输类型为语音传输，将所述目标文本和所述用户的声纹特征输入已有的语音合成模型中，得到所述用户对应的第二语音；将所述第二语音作为所述待传输信息。

61、可选地，所述生成模块在获取信息传输类型时，用于：

62、响应于信息传输类型选择操作，获取所述信息传输类型；或者，

63、识别当前应用场景；查询应用场景与信息传输类型的映射关系表，得到所述当前应用场景对应的所述信息传输类型。

64、可选地，所述生成模块在使用所述语音合成模本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取当前环境声音中的与所述用户对应的第一语音之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音，确定所述用户所需的目标文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述界面包括确认控件，所述响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本，包括：

6.根据权利要求4所述的方法，其特征在于，所述界面包括确认控件，所述响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本，生成待传输信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取信息传输类型，包括：

9.根据权利要求7所述的方法，其特征在于，在使用所述

10.一种语音合成装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述获取模块在所述获取当前环境声音中的与所述用户对应的第一语音之前，还可用于：

12.根据权利要求10所述的装置，其特征在于，所述获取模块在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音时，用于：

13.根据权利要求10所述的装置，其特征在于，所述确定模块在根据所述第一语音，确定所述用户所需的目标文本时，用于：

14.根据权利要求13所述的装置，其特征在于，所述界面包括确认控件，所述确定模块在响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本时，用于：

15.根据权利要求13所述的装置，其特征在于，所述界面包括确认控件，所述确定模块在响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本时，用于：

16.根据权利要求10所述的装置，其特征在于，所述生成模块在根据所述目标文本，生成待传输信息时，用于：

17.根据权利要求16所述的装置，其特征在于，所述生成模块在获取信息传输类型时，用于：

18.根据权利要求16所述的装置，其特征在于，所述生成模块在使用所述语音合成模型之前，还可用于：

19.一种手机，其特征在于，包括：

20.一种电子设备，其特征在于，包括：

21.一种计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法中的各步骤。

22.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-9中任一项所述的方法中的各步骤。

...

【技术特征摘要】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取当前环境声音中的与所述用户对应的第一语音之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音，确定所述用户所需的目标文本，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本，生成待传输信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取信息传输类型，包括：

9.根据权利要求7所述的方法，其特征在于，在使用所述语音合成模型之前，所述方法还包括：

10.一种语音合成装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述获取模块在所述获取当前环境声音中的与所述用户对应的第一语音之前，还可用于：

12.根据权利要求10所述的装置，其特征在于，所述获...

【专利技术属性】
技术研发人员：彭聪，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人