一种音频修音方法、装置及电子设备制造方法及图纸

技术编号：43493835 阅读：11 留言：0更新日期：2024-11-29 17:02

本申请涉及音频处理的技术领域，尤其是涉及一种音频修音方法、装置及电子设备，方法包括：获取待处理唱歌音频；对待处理唱歌音频进行语音识别、音高识别，得到音频描述信息、初始音高信息；根据音频描述信息对初始音高信息进行边界信息修正，得到音高信息；根据音高信息修正待处理唱歌音频对应的原曲音高模板；根据修正得到的参考原曲音高模板和音高信息，确定调整音高信息，并进行修音。本申请结合了音高识别结果和语音识别结果，共同确定音高信息，且基于音高信息动态确定参考原曲音高模板，使得得到的调整音高信息更加精准，修音后的音频在音高上更加符合原曲以及更加符合用户本身歌唱的实际表现，提升了音频的整体质量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频处理的，尤其是涉及一种音频修音方法、装置及电子设备。

技术介绍

1、随着移动互联网的发展，k歌软件逐渐成为人们休闲娱乐的重要方式。歌声修音技术的应用使得用户在k歌时能够享受到更好的演唱体验，即使唱功一般也能得到满意的演唱效果。

2、歌声智能修音技术是互联网泛娱乐k歌场景下的一种基础的算法处理能力，通过分析演唱者的歌声数据，根据参考歌曲信息对歌声信号进行处理，获得更接近原唱演唱水平的歌声音频，大大提高了演唱者的演唱质量，产出高质量的音乐作品。

3、相关技术中，获得用户歌声音频数据后，分析歌声音频数据得到音高信息；根据图谱信息和获得的音高信息进行对比，确定各个音的音高调整数据，以根据音高调整数据，对歌声音频数据进行调整，得到的音频在音高趋势上更加贴近原唱音频。仅以音高信息作为修音参考，使得修音结果呆板僵硬，调整后的音频质量一般。

4、因此，如何提供一种提高修音质量的方案，成为了本领域技术人员亟待解决的技术问题。

技术实现思路

1、本申请目的是提供一种音频修音方法、装置及电子设备，能够改善修音结果。

2、第一方面，提供了一种音频修音方法，包括：

3、获取待处理唱歌音频；

4、对所述待处理唱歌音频进行语音识别，得到音频描述信息；并对所述待处理唱歌音频进行音高识别，得到初始音高信息；

5、根据音频描述信息对所述初始音高信息进行边界信息修正，得到音高信息；

6、根据音频描述信息确定与待

7、根据所述参考原曲音高模板和所述音高信息，确定调整音高信息，并基于所述调整音高信息对待处理唱歌音频进行修音，得到修音后的音频。

8、本申请在一较佳示例中可以进一步配置为：所述对所述待处理唱歌音频进行语音识别，得到音频描述信息，包括：提取所述待处理唱歌音频的声学特征；

9、根据所述声学特征和解码图，对所述声学特征进行解码，得到音素序列，其中，所述解码图是基于音素级别的声学模型、歌词为主的语言模型以及音素-歌词转换表生成的；

10、将所述音素序列映射到歌词文本，得到音频描述信息。

11、本申请在一较佳示例中可以进一步配置为：所述音频描述信息包括：歌词信息以及音素的边界时间信息；

12、所述根据音频描述信息对所述初始音高信息进行边界信息修正，得到音高信息，包括：

13、根据音频描述信息中的音素对应的边界时间信息，过滤初始音高信息中的无效音高信息；

14、获取待处理唱歌音频的前唱歌音频对应的前音高信息和后唱歌音频对应的后音高信息；

15、根据前音高信息和/或后音高信息，对过滤后的音高信息进行整体音高调整。

16、本申请在一较佳示例中可以进一步配置为：所述基于所述调整音高信息对待处理唱歌音频进行修音，得到修音后的音频，包括：

17、基于第一方式和/或第二方式对待处理唱歌音频进行降噪滤波，得到滤波后的音频；

18、基于所述调整音高信息对滤波后的音频进行修音，得到修音后的音频；

19、其中，第一方式为先基于speak-x模块去除音频中的背景音乐和环境噪声，再利用神经网络模型提取人声；第二方式为基于多子带神经网络模型，消除音频中的背景噪声。

20、本申请在一较佳示例中可以进一步配置为：所述根据所述音高信息修正所述待处理唱歌音频对应的原曲音高模板，得到参考原曲音高模板，包括：

21、基于所述音高信息确定所述待处理唱歌音频对应的音高均值以及单独音的音高；

22、若所述音高均值和原曲音高模板对应的目标音高均值之差超过第一预设音高阈值，则整体调整所述原曲音高模板的音高，得到第一原曲音高模板，所述音高均值和第一原曲音高模板对应的目标音高均值之差不超过第一预设音高阈值；

23、若所述单独音的音高和所述第一原曲音高模板中的目标音的音高之差超过第二预设音高阈值，则确定第一音高集合，其中，所述目标音与所述单独音相对应，所述第一音高集合为所述目标音相差预设音高的音高集合；

24、若所述第一音高集合中存在与所述单独音的音高之差在第二预设音高阈值的音高，则将与所述单独音的音高之差在第二预设音高阈值的音高，作为所述目标音的动态调整目标；

25、若所述第一音高集合中不存在与所述单独音的音高之差在第二预设音高阈值的音高，则确定第二音高集合，所述第二音高集合为原曲的调内音构成的集合；从所述第二音高集合中选择符合目标条件的动态调整目标，所述目标条件包括：距离所述目标音最近且与所述单独音的音高之差在第二预设音高阈值的调内音；

26、在确定所有单独音的动态调整目标后，按照所有单独音的动态调整目标，调整所述第一原曲音高模板，得到参考原曲音高模板。

27、本申请在一较佳示例中可以进一步配置为：在确定所有单独音的动态调整目标后，按照所有单独音的动态调整目标，调整所述第一原曲音高模板，得到参考原曲音高模板之后，还包括以下至少一项：

28、将参考原曲音高模板中时域变化系数超过预设倍数的参考目标信号，采用白噪音插入的方式进行处理，并保证开始位置保持对齐，得到对齐后的参考原曲音高模板；

29、在无法确定单独音对应的所述第一原曲音高模板中的目标音的情况下，将所述第一原曲音高模板的音高整体调整到调内音，以及将发音开始点调整到预设时间位置。

30、本申请在一较佳示例中可以进一步配置为：所述根据所述参考原曲音高模板和所述音高信息，确定调整音高信息之后，还包括：

31、获取二级神经网络声码器，所述二级神经网络声码器包括第一gan网络结构和第二gan网络结构；

32、根据所述待处理唱歌音频，利用第一gan网络结构进行变速变调处理，得到初始音频；

33、根据初始音频，利用第二gan网络结构进行采样率提升，得到高质量待处理唱歌音频。

34、本申请在一较佳示例中可以进一步配置为：所述根据所述参考原曲音高模板和所述音高信息，确定调整音高信息之后，还包括：

35、根据所述调整音高信息的单字，从原曲的midi文件中，确定每个单字对应的第一曲谱信息；

36、根据所述调整音高信息的单字的每个音素，从所述第一曲谱信息中，确定每个音素对应的第二曲谱信息；

37、根据音素的每个波形，从所述第二曲谱信息中，确定每个波形对应的第三曲谱信息；

38、根据所有波形对应的第三曲谱信息，确定最终的调整音高信息，以实现调整音高信息的平滑处理。

39、第二方面，提供了一种音频修音装置，包括：

40、音频获取模块，用于获取待处理唱歌音频；

41、识别模块，用于对所述待处理唱歌音频进行语音识别，得到音频描述信息；并对所述待处本文档来自技高网...

【技术保护点】

1.一种音频修音方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理唱歌音频进行语音识别，得到音频描述信息，包括：提取所述待处理唱歌音频的声学特征；

3.根据权利要求2所述的方法，其特征在于，所述音频描述信息包括：歌词信息以及音素的边界时间信息；

4.根据权利要求1所述的方法，其特征在于，所述基于所述调整音高信息对待处理唱歌音频进行修音，得到修音后的音频，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述音高信息修正所述待处理唱歌音频对应的原曲音高模板，得到参考原曲音高模板，包括：

6.根据权利要求5所述的方法，其特征在于，在确定所有单独音的动态调整目标后，按照所有单独音的动态调整目标，调整所述第一原曲音高模板，得到参考原曲音高模板之后，还包括以下至少一项：

7.根据权利要求1所述的方法，其特征在于，所述根据所述参考原曲音高模板和所述音高信息，确定调整音高信息之后，还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述参考原曲音高模板

9.一种音频修音装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种音频修音方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述音频描述信息包括：歌词信息以及音素的边界时间信息；

4.根据权利要求1所述的方法，其特征在于，所述基于所述调整音高信息对待处理唱歌音频进行修音，得到修音后的音频，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述音高信息修正所述待处理唱歌音频对应的原曲音高模板，得到参考原曲音...

【专利技术属性】
技术研发人员：侯跃然，刘忠亮，刘红梅，尚瑞萱，张璐，陶明，
申请(专利权)人：上海任意门科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人