音频处理方法、装置、计算设备及介质制造方法及图纸

技术编号：32769361 阅读：26 留言：0更新日期：2022-03-23 19:24

本公开的实施方式提供了一种音频处理方法、装置、计算设备及介质。该方法通过在获取到待处理音频后，自动为待处理音频创建一条目标数据记录，并自动触发伴奏音频、第二歌词文件等目标数据的生成过程，进而在生成目标数据后，自动在目标数据记录中添加数据信息，而数据信息可以体现基于对待处理音频的操作而生成的数据的信息，以便后续可以通过目标数据记录中所记录的数据信息获取到作为伴奏物料的目标数据，实现待处理音频的自动化处理，从而提高对待处理音频的处理效率。提高对待处理音频的处理效率。提高对待处理音频的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、计算设备及介质

[0001]本公开的实施方式涉及音频处理
，更具体地，本公开的实施方式涉及一种音频处理方法、装置、计算设备及介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]在一个相关的场景中，随着移动终端的不断发展，手机K歌逐渐成为一种十分受欢迎的休闲娱乐方式。人们可以在终端选择自己要演唱的歌曲，进而基于被选中的歌曲对应的伴奏和逐字歌词来进行演唱，并录制自己所演唱的音频，以便将录制得到的音频分享到各种社交平台，或者，分享给指定用户，等等。
[0004]相关技术中，主要是由音频平台向相关技术人员提供包括伴奏和人声的歌曲音频，以便相关技术人员基于歌曲音频来制作伴奏和逐字歌词，进而将制作好的伴奏和逐字歌词返回给音频平台，由音频平台发布伴奏和逐字歌词，以便用户可以获取到已发布的伴奏和逐字歌词。
[0005]在上述实现过程中，人工制作伴奏和逐字歌词的方式操作复杂，而且耗时较长，从而导致音频处理效率较低。

技术实现思路

[0006]鉴于相关技术中音频处理效率较低的情况，本公开的实施例至少提供一种音频处理方法、装置、计算设备及介质，以实现待处理音频的自动化处理，从而提高对待处理音频的处理效率。
[0007]在本公开实施方式的第一方面中，提供了一种音频处理方法，该方法包括：
[0008]响应于获取到待处理音频，为该待处理音频创建目标数据记录；r/>[0009]基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据，该第一歌词文件为逐句划分的歌词文件，该目标数据至少包括伴奏音频和第二歌词文件，该第二歌词文件为逐字划分的歌词文件；
[0010]在该目标数据记录中添加数据信息，以基于该数据信息获取该目标数据。
[0011]在本公开的一个实施例中，基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据，包括：
[0012]从该待处理音频中，获取人声音频和该伴奏音频；
[0013]基于该人声音频和该第一歌词文件，生成该第二歌词文件。
[0014]在本公开的一个实施例中，从该待处理音频中，获取人声音频和该伴奏音频，包括：
[0015]将该待处理音频分别输入提取人声神经网络和伴奏提取神经网络，分别通过人声提取神经网络，对该待处理音频进行降采样处理和第一卷积处理，得到该人声音频，通过伴
奏提取神经网络，对该待处理音频进行降采样处理和第二卷积处理，得到该伴奏音频；
[0016]其中，该人声提取神经网络进行第一卷积处理所使用的网络参数，与该伴奏提取神经网络进行第二卷积处理所使用的网络参数不同。
[0017]在本公开的一个实施例中，基于该人声音频和该第一歌词文件，生成该第二歌词文件，包括：
[0018]将该人声音频输入语音识别神经网络，通过该语音识别神经网络，输出该人声音频对应的第一音素以及该第一音素对应的时间戳；
[0019]获取该第一歌词文件中各个字对应的第二音素；
[0020]基于该第一音素和该第一音素对应的时间戳，以及该第二音素，确定该第一歌词文件中各个字对应的时间戳，得到该第二歌词文件。
[0021]在本公开的一个实施例中，该目标数据还包括乐器数字接口MIDI文件；
[0022]基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据，还包括：
[0023]基于该待处理音频和该第二歌词文件，生成该MIDI文件。
[0024]在本公开的一个实施例中，基于该待处理音频和该第二歌词文件，生成该MIDI文件，包括：
[0025]将该待处理音频输入旋律提取神经网络，通过该旋律提取神经网络，输出该待处理音频的基音；
[0026]基于该待处理音频的基音和该第二歌词文件，生成该MIDI文件。
[0027]在本公开的一个实施例中，在该目标数据记录中添加数据信息，以基于该数据信息获取该目标数据，包括：
[0028]在该目标数据记录中添加该数据信息，并基于该数据信息生成音频描述信息，以基于该音频描述信息获取该目标数据。
[0029]在本公开的一个实施例中，该数据信息包括与该待处理音频关联的音频数据信息，该音频数据信息至少包括该待处理音频的音频标识和该待处理音频的存储位置。
[0030]在本公开的一个实施例中，该数据信息还包括该目标数据的数据标识和该目标数据的存储位置。
[0031]在本公开的一个实施例中，该目标数据记录还包括状态信息，该状态信息用于记录该待处理音频的处理进度。
[0032]在本公开的一个实施例中，该状态信息包括下述任一项：
[0033]第一状态信息，该第一状态信息用于指示开始对该待处理音频进行处理；
[0034]第二状态信息，该第二状态信息用于指示正在生成该伴奏音频；
[0035]第三状态信息，该第三状态信息用于指示正在生成该第二歌词文件；
[0036]第四状态信息，该第四状态信息用于指示正在生成该MIDI文件；
[0037]第五状态信息，该第五状态信息用于指示正在生成该音频描述信息；
[0038]第六状态信息，该第六状态信息用于指示已生成该伴奏音频、该第二歌词文件、该MIDI文件和该音频描述信息。
[0039]在本公开实施方式的第二方面中，提供了一种音频处理装置，该装置包括：
[0040]创建模块，用于响应于获取到待处理音频，为该待处理音频创建目标数据记录；
[0041]生成模块，用于基于该待处理音频和该待处理音频对应的第一歌词文件，生成目
标数据，该第一歌词文件为逐句划分的歌词文件，该目标数据至少包括伴奏音频和第二歌词文件，该第二歌词文件为逐字划分的歌词文件；
[0042]添加模块，用于在该目标数据记录中添加数据信息，以基于该数据信息获取该目标数据。
[0043]在本公开的一个实施例中，该生成模块，在用于基于该待处理音频和该待处理音频对应的第一歌词文件，生成目标数据时，包括获取单元和生成单元；
[0044]该获取单元，用于从该待处理音频中，获取人声音频和该伴奏音频；
[0045]该生成单元，用于基于该人声音频和该第一歌词文件，生成该第二歌词文件。
[0046]在本公开的一个实施例中，该获取单元，在用于从该待处理音频中，获取人声音频和该伴奏音频时，具体用于：
[0047]将该待处理音频分别输入提取人声神经网络和伴奏提取神经网络，分别通过人声提取神经网络，对该待处理音频进行降采样处理和第一卷积处理，得到该人声音频，通过伴奏提取神经网络，对该待处理音频进行降采样处理和第二卷积处理，得到该伴奏音频；
[0048]其中，该人声提取神经网络进行第一卷积处理所使用的网络参数，与该伴奏提取神经网络进行第二卷积处理所使用的网络参数不同。
[0049]在本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，所述方法包括：响应于获取到待处理音频，为所述待处理音频创建目标数据记录；基于所述待处理音频和所述待处理音频对应的第一歌词文件，生成目标数据，所述第一歌词文件为逐句划分的歌词文件，所述目标数据至少包括伴奏音频和第二歌词文件，所述第二歌词文件为逐字划分的歌词文件；在所述目标数据记录中添加数据信息，以基于所述数据信息获取所述目标数据。2.根据权利要求1所述的方法，其特征在于，所述基于所述待处理音频和所述待处理音频对应的第一歌词文件，生成目标数据，包括：从所述待处理音频中，获取人声音频和所述伴奏音频；基于所述人声音频和所述第一歌词文件，生成所述第二歌词文件。3.根据权利要求2所述的方法，其特征在于，所述从所述待处理音频中，获取人声音频和所述伴奏音频，包括：将所述待处理音频分别输入提取人声神经网络和伴奏提取神经网络，分别通过人声提取神经网络，对所述待处理音频进行降采样处理和第一卷积处理，得到所述人声音频，通过伴奏提取神经网络，对所述待处理音频进行降采样处理和第二卷积处理，得到所述伴奏音频；其中，所述人声提取神经网络进行第一卷积处理所使用的网络参数，与所述伴奏提取神经网络进行第二卷积处理所使用的网络参数不同。4.根据权利要求2所述的方法，其特征在于，所述基于所述人声音频和所述第一歌词文件，生成所述第二歌词文件，包括：将所述人声音频输入语音识别神经网络，通过所述语音识别神经网络，输出所述人声音频对应的第一音素以及所述第一音素对应的时间戳；获取所述第一歌词文件中各个字对应的第二音素；基于所述第一音素和所述第一音素对应的时间戳，以及所述第二音素，确定所述第一歌词文件中各个字对应的时间戳，得到所述第二歌词文件。5.根据权利要求1所述的方法，其特...

【专利技术属性】
技术研发人员：邵显根，蔡辉，廖祥俐，李涛，李文朋，
申请(专利权)人：杭州网易云音乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人