音频处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号：40132219 阅读：8 留言：0更新日期：2024-01-23 22:19

本申请公开了一种音频处理方法、装置、存储介质及电子设备，涉及互联网技术领域，该方法包括：在视频录制过程中，采用预设唇语识别模型，追踪录制的视频画面中的目标嘴唇，以及，识别追踪到的所述目标嘴唇对应的唇语内容特征，并在录制的音频中匹配所述目标嘴唇的嘴唇音频对应的嘴唇音频特征；采用预设音频预测模型，根据所述唇语内容特征及所述嘴唇音频特征生成补充音频；基于所述补充音频对所述嘴唇音频进行增强处理，以输出包含增强后嘴唇音频的录制视频。本申请可以有效提升录制视频时对于目标对象的声音的增强效果，提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网，具体涉及一种音频处理方法、装置、存储介质及电子设备。

技术介绍

1、在嘈杂环境下录制视频时，通常录制的视频中目标对象的声音容易出现识别不清、声音较小、其他嘈杂声音较多的情况发生。通常具有增强录制的视频中目标对象的声音的需求，可以提升视频录制效果。

2、目前，相关技术中，存在通过检测音频中非人发出声音(例如风声等)并弱化的方案，目前的方式下，一方面，如果目标对象的声音录制的本就不清晰，则对于目标对象的声音增强效果有限，另一方面，如果录制场景下有很多人的声音，部分人作为需要增强的目标对象也依旧不能有效增强其声音。

3、因此，目前的方案下，在录制视频时对于目标对象的声音的增强效果较差，用户体验较差。

技术实现思路

1、本申请实施例提供一种方案，可以有效提升录制视频时对于目标对象的声音的增强效果，提升用户体验。

2、本申请实施例提供以下技术方案：

3、根据本申请的一个实施例，一种音频处理方法，其包括：在视频录制过程中，采用预设唇语识别模型，追踪录制的视频画面中的目标嘴唇，以及，识别追踪到的所述目标嘴唇对应的唇语内容特征，并在录制的音频中匹配所述目标嘴唇的嘴唇音频对应的嘴唇音频特征；采用预设音频预测模型，根据所述唇语内容特征及所述嘴唇音频特征生成补充音频；基于所述补充音频对所述嘴唇音频进行增强处理，以输出包含增强后嘴唇音频的录制视频。

4、在本申请的一些实施例中，所述根据所述唇语内容特征及所述嘴唇音频特征生成补充音

5、在本申请的一些实施例中，所述根据所述唇语内容特征及所述嘴唇音频特征生成补充音频，包括：根据所述唇语内容特征及所述嘴唇音频特征，检测所述嘴唇音频中与当前录制场景匹配的渲染部分；针对所述渲染部分，预测生成所述渲染部分对应的渲染音频，所述补充音频包括所述渲染音频。

6、在本申请的一些实施例中，所述基于所述补充音频对所述嘴唇音频进行增强处理，以输出包含增强后嘴唇音频的录制视频，包括：从录制的音频中分离出所述嘴唇音频及剩余音频；将所述补充音频与所述嘴唇音频合并，得到增强后嘴唇音频；将所述增强后嘴唇音频与所述剩余音频合并，以输出录制视频。

7、在本申请的一些实施例中，所述将所述增强后嘴唇音频与所述剩余音频合并，以输出录制视频，包括：对所述剩余音频进行弱化处理，得到弱化背景音频；将所述增强后嘴唇音频与所述弱化背景音频合并，以输出录制视频。

8、在本申请的一些实施例中，所述预设唇语识别模型为按照以下方式训练得到的：获取第一训练样本数据，所述第一训练样本数据包括视频样本以及所述视频样本对应的待追踪嘴唇所发出音频的样本语言信息，所述视频样本中各视频帧中标记所述待追踪嘴唇；采用待训练唇语识别模型，通过嘴唇追踪网络追踪各所述视频帧中的所述待追踪嘴唇，以及，通过唇语识别网络识别所述待追踪嘴唇的样本唇语内容特征，并在所述视频样本的音频中匹配所述待追踪嘴唇的嘴唇音频对应的样本嘴唇音频特征；根据所述样本唇语内容特征及所述样本嘴唇音频特征生成预测语言信息；根据所述预测语言信息与所述样本语言信息，调整所述待训练唇语识别模型，直至符合预定训练结束条件，得到所述预设唇语识别模型。

9、在本申请的一些实施例中，所述预设音频预测模型为按照以下方式训练得到的：获取第二训练样本数据，所述第二训练样本数据包括样本唇语内容特征及所述样本唇语内容特征对应的样本嘴唇音频特征和样本补充音频；采用待训练音频预测模型，基于所述样本唇语内容特征及所述样本嘴唇音频特征生成预测补充音频；根据所述预测补充音频及所述样本补充音频，调整所述待训练音频预测模型，直至符合预定训练结束条件，得到所述预设音频预测模型。

10、根据本申请的一个实施例，一种音频处理装置，所述装置包括：追踪匹配模块，用于在视频录制过程中，采用预设唇语识别模型，追踪录制的视频画面中的目标嘴唇，以及，识别追踪到的所述目标嘴唇对应的唇语内容特征，并在录制的音频中匹配所述目标嘴唇的嘴唇音频对应的嘴唇音频特征；音频生成模块，用于采用预设音频预测模型，根据所述唇语内容特征及所述嘴唇音频特征生成补充音频；音频增强模块，用于基于所述补充音频对所述嘴唇音频进行增强处理，以输出包含增强后嘴唇音频的录制视频。

11、在本申请的一些实施例中，所述音频生成模块，用于：根据所述唇语内容特征及所述嘴唇音频特征，检测所述嘴唇音频中的不清晰部分；针对所述不清晰部分，预测生成所述不清晰部分的发声音频，所述补充音频包括所述发声音频。

12、在本申请的一些实施例中，所述音频生成模块，用于：根据所述唇语内容特征及所述嘴唇音频特征，检测所述嘴唇音频中与当前录制场景匹配的渲染部分；针对所述渲染部分，预测生成所述渲染部分对应的渲染音频，所述补充音频包括所述渲染音频。

13、在本申请的一些实施例中，所述音频增强模块，用于：从录制的音频中分离出所述嘴唇音频及剩余音频；将所述补充音频与所述嘴唇音频合并，得到增强后嘴唇音频；将所述增强后嘴唇音频与所述剩余音频合并，以输出录制视频。

14、在本申请的一些实施例中，所述音频增强模块，用于：对所述剩余音频进行弱化处理，得到弱化背景音频；将所述增强后嘴唇音频与所述弱化背景音频合并，以输出录制视频。

15、在本申请的一些实施例中，所述预设唇语识别模型为按照以下方式训练得到的：获取第一训练样本数据，所述第一训练样本数据包括视频样本以及所述视频样本对应的待追踪嘴唇所发出音频的样本语言信息，所述视频样本中各视频帧中标记所述待追踪嘴唇；采用待训练唇语识别模型，通过嘴唇追踪网络追踪各所述视频帧中的所述待追踪嘴唇，以及，通过唇语识别网络识别所述待追踪嘴唇的样本唇语内容特征，并在所述视频样本的音频中匹配所述待追踪嘴唇的嘴唇音频对应的样本嘴唇音频特征；根据所述样本唇语内容特征及所述样本嘴唇音频特征生成预测语言信息；根据所述预测语言信息与所述样本语言信息，调整所述待训练唇语识别模型，直至符合预定训练结束条件，得到所述预设唇语识别模型。

16、在本申请的一些实施例中，所述预设音频预测模型为按照以下方式训练得到的：获取第二训练样本数据，所述第二训练样本数据包括样本唇语内容特征及所述样本唇语内容特征对应的样本嘴唇音频特征和样本补充音频；采用待训练音频预测模型，基于所述样本唇语内容特征及所述样本嘴唇音频特征生成预测补充音频；根据所述预测补充音频及所述样本补充音频，调整所述待训练音频预测模型，直至符合预定训练结束条件，得到所述预设音频预测模型。

17、根据本申请的另一实施例，一种存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行本申请实施例所述的方法。

18、根据本申请的另一实施例，一种电子设备可以包括：存储器本文档来自技高网...

【技术保护点】

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述唇语内容特征及所述嘴唇音频特征生成补充音频，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述唇语内容特征及所述嘴唇音频特征生成补充音频，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述补充音频对所述嘴唇音频进行增强处理，以输出包含增强后嘴唇音频的录制视频，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述增强后嘴唇音频与所述剩余音频合并，以输出录制视频，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述预设唇语识别模型为按照以下方式训练得到的：

7.根据权利要求1至5任一项所述的方法，其特征在于，所述预设音频预测模型为按照以下方式训练得到的：

8.一种音频处理装置，其特征在于，包括：

9.一种存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行权利要求1至7任一项所述的方法。

10.一

...

【技术特征摘要】

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述唇语内容特征及所述嘴唇音频特征生成补充音频，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述唇语内容特征及所述嘴唇音频特征生成补充音频，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述补充音频对所述嘴唇音频进行增强处理，以输出包含增强后嘴唇音频的录制视频，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述增强后嘴唇音频与所述剩余音频合并，以输出录制视频，包括：

6....

【专利技术属性】
技术研发人员：赖宇舟，
申请(专利权)人：惠州TCL移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人