音频处理方法及装置、设备、计算机可读存储介质制造方法及图纸

技术编号：33293015 阅读：28 留言：0更新日期：2022-05-01 00:16

本申请的实施例揭示了一种音频处理方法及装置、设备、计算机可读存储介质。该方法包括：根据待处理音频的时序特征确定其候选区间，基于候选区间对应的起始点概率、结束点概率和区间概率计算出候选区间的匹配概率，根据匹配概率与第一预设阈值的比较结果确定出完整且准确的副歌区间。本申请根据候选区间的区间概率能准确地确定副歌区间的中间位置，避免多段副歌区间重叠的情况发生，由此提升副歌区间定位的准确性。间定位的准确性。间定位的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法及装置、设备、计算机可读存储介质

[0001]本申请涉及计算机领域，具体涉及一种音频处理方法及装置、设备、计算机可读存储介质。

技术介绍

[0002]音乐副歌是歌曲中一段重复的音乐段落，通常出现在几段主歌之间。大部分音乐副歌情绪较为激烈，能最大化的激发歌唱者的情绪，因此歌唱者为了快速的释放情绪，记忆并掌握歌曲律动，往往着重于练习副歌部分，从副歌区间的起始时刻开始练习。
[0003]副歌区间是由副歌部分的开始时刻和结束时刻所包裹而形成的完整区间，歌唱者一般通过手动调整歌曲进度，快速进入副歌区间，其操作极为不便，现有的定位音乐副歌的方式一般是通过人工进行标注，但是，每首歌曲总时长、副歌时长和副歌循环次数不一定相同，人工标注往往耗时巨大，并且存在人为操作误差，难以批量化的处理大量音乐的同时自动定位音乐副歌。
[0004]随着网络K歌平台的兴起，以及大众歌唱娱乐的爆炸式需求，特别是对歌曲副歌的演唱需求，如何智能化的快速准确定位音乐副歌是音频处理领域亟待解决的技术问题。

技术实现思路

[0005]为解决上述技术问题，本申请的实施例分别提供了一种音频处理方法及装置、音频处理设备、计算机可读存储介质，根据待处理音频的时序特征得到副歌起始点概率、区间概率和结束点概率，出从而智能化的快速准确定位音乐副歌。
[0006]本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。
[0007]根据本申请实施例的一个方面，提供了一种音频处理方法，包括：r/>[0008]根据待处理音频的时序特征确定所述待处理音频包含的候选区间；
[0009]基于所述候选区间对应的起始点概率、结束点概率和区间概率计算所述候选区间的匹配概率；
[0010]若所述匹配概率大于第一预设阈值，则确定所述候选区间为所述待处理音频包含的副歌区间。
[0011]根据本申请实施例的一个方面，提供了一种音频处理装置，包括：
[0012]确定模块，配置为根据待处理音频的时序特征确定所述待处理音频包含的候选区间；
[0013]计算定位模块，配置为基于所述候选区间对应的起始点概率、结束点概率和区间概率计算所述候选区间的匹配概率；若所述匹配概率大于第一预设阈值，则确定所述候选区间为所述待处理音频包含的副歌区间。
[0014]在另一示例性实施例中，所述音频处理装置还包括：
[0015]子任务模块，配置为构建第一深度网络，所述第一深度网络由卷积神经网络层、多
层长短期LSTM网络和全连接网络层依次堆叠而成；将待处理音频输入所述第一深度网络；从所述第一深度网络中抽取深层特征作为所述待处理音频的时序特征。
[0016]在另一实施例中，所述子任务模块还包括：
[0017]抽取单元，配置为抽取最后一个LSTM网络层输出的特征作为所述待处理音频的时序特征。
[0018]在另一实施例中，所述确定模块包括：
[0019]时序建模单元，配置为将所述待处理音频的时序特征输入第二深度网络，获得所述第二深度网络输出的所述待处理音频所包含各个时刻的副歌位置概率，所述副歌位置概率包括起始点概率和结束点概率；
[0020]候选区间构建单元，配置为根据获得的起始点概率和结束点概率从所述待处理音频中确定出候选区间。
[0021]在另一实施例中，所述候选区间构建单元，配置为若所述待处理音频的第一时刻对应的起始点概率大于第二预设阈值或预设区间内的所有时刻的起始点概率，则选取所述第一时刻作为候选区间的起始时刻；若所述待处理音频的第二时刻对应的结束点概率大于第三预设阈值或预设区间内的所有时刻的结束点概率，则选取所述第二时刻作为候选区间的结束时刻。
[0022]在另一实施例中，所述计算定位模块包括：
[0023]区间特征提取单元，配置为根据所述待处理音频的时序特征确定所述候选区间的区间特征；
[0024]区间概率提取单元，配置为将所述区间特征输入第三深度网络，得到所述第三深度网络输出的所述候选区间的区间概率。
[0025]在另一实施例中，所述计算定位模块包括：
[0026]区间特征提取单元，配置为分别对所述候选区间、位于所述候选区间的起始点附近的区间、以及位于所述候选区间的结束点附近的区间进行特征提取，得到对应的候选区间特征，其中，每个候选区间特征的特征长度相同；拼接各个候选区间特征以得到所述候选区间的区间特征；
[0027]区间概率提取单元，配置为将所述区间特征输入第三深度网络，得到所述第三深度网络输出的所述候选区间的区间概率。
[0028]根据本申请实施例的一个方面，提供了一种音频处理设备，包括：接收装置，用于接收待处理音频；控制器，与接收装置电连接，以执行上述的方法。
[0029]根据本申请实施例的一个方面，还提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述的方法。
[0030]根据本申请实施例的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。
[0031]在本申请的实施例所提供的技术方案中，根据待处理音频的时序特征确定其候选区间，基于候选区间对应的起始点概率、结束点概率和区间概率计算出候选区间的匹配概
率，由于区间概率能准确的确定副歌区间的中间位置，能避免多段副歌区间重叠的情况发生，使得根据匹配概率与第一预设阈值的比较结果确定出完整且准确的副歌区间。
[0032]应理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。
附图说明
[0033]此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：
[0034]图1是本申请涉及的一种实施环境的示意图；
[0035]图2是本申请一示例性实施例示出的一种音频处理方法的流程图；
[0036]图3是基于图2所示实施例提出的另一音频处理方法的流程图；
[0037]图4是本申请另一示例性实施例示出的确定待处理音频包含的候选区间的流程图；
[0038]图5是本申请另一示例性实施例示出的确定待处理音频包含的候选区间的流程图；
[0039]图6是本申请另一示例性实施例示出的获取待处理音频包含的候选区间的区间概率的流程图；
[0040]图7是本申请另一示例性实施例示出的另外一种获取待处理音频包含的候选区间的区间概率的流程图；
[0041]图8是本申请一示例性实施例示本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：根据待处理音频的时序特征确定所述待处理音频包含的候选区间；基于所述候选区间对应的起始点概率、结束点概率和区间概率计算所述候选区间的匹配概率；若所述匹配概率大于第一预设阈值，则确定所述候选区间为所述待处理音频包含的副歌区间。2.根据权利要求1所述的方法，其特征在于，在所述根据待处理音频的时序特征确定所述待处理音频包含的候选区间之前，包括：构建第一深度网络，所述第一深度网络由卷积神经网络层、多层长短期LSTM网络和全连接网络层依次堆叠而成；将待处理音频输入所述第一深度网络；从所述第一深度网络中抽取深层特征作为所述待处理音频的时序特征。3.根据权利要求2所述的方法，其特征在于，所述从所述第一深度网络中抽取深层特征作为所述待处理音频的时序特征，包括：抽取最后一个LSTM网络层输出的特征作为所述待处理音频的时序特征。4.根据权利要求1所述的方法，其特征在于，所述根据待处理音频的时序特征确定所述待处理音频包含的候选区间，包括：将所述待处理音频的时序特征输入第二深度网络，获得所述第二深度网络输出的所述待处理音频所包含各个时刻的副歌位置概率，所述副歌位置概率包括起始点概率和结束点概率；根据获得的起始点概率和结束点概率从所述待处理音频中确定出候选区间。5.根据权利要求4所述的方法，其特征在于，所述根据获得的起始点概率和结束点概率从所述待处理音频中确定出候选区间，包括：若所述待处理音频的第一时刻对应的起始点概率大于第二预设阈值或预设区间内的所有时刻的起始点概率，则选取所述第一时刻作为候选区间的起始时刻；若所述待处理音频的第二时刻对应的结束...

【专利技术属性】
技术研发人员：田思达，彭博，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人