音频副本检测方法及装置、设备、存储介质、程序产品制造方法及图纸

技术编号：42982868 阅读：8 留言：0更新日期：2024-10-15 13:17

本申请的实施例揭示了音频副本检测方法及装置、设备、存储介质、程序产品。该方法包括：提取待处理音频对应的全局音频特征和音频段特征序列；从音频检索库中检索所述全局音频特征对应的近似全局音频特征；获取所述近似全局音频特征所属的目标音频对应的音频段特征序列，并根据所述待处理音频和所述目标音频分别对应的音频段特征序列，确定所述待处理音频与所述目标音频之间的音频相似度；若所述音频相似度达到预设相似度以上，则将所述目标音频确定为所述待处理音频对应的副本音频。本申请的实施例是先通过全局音频特征来实现较粗粒度的检测，然后再通过音频段特征序列来实现更细粒度的检测，由此能够保证音频副本检测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体涉及一种音频副本检测方法及装置、电子设备、计算机存储介质以及计算机程序产品。

技术介绍

1、音频副本检测技术是一种用于识别音频内容是否与已知音频相似或者相同的技术，若识别为是，则可将已知音频作为待识别音频的副本。音频副本检测技术通常应用于音频版权保护、音乐推荐等应用场景。如何提升音频副本检测的准确性，仍是本领域的技术人员需要研究和解决的技术问题。

技术实现思路

1、为解决上述技术问题，本申请的实施例提供了一种音频副本检测方法、音频副本检测装置、电子设备、计算机可读存储介质和计算机程序产品。本申请的实施例能够提升音频副本检测的准确性。

2、本申请实施例的一个方面，提供了一种音频副本检测方法，该方法包括：提取待处理音频对应的全局音频特征和音频段特征序列；从音频检索库中检索所述全局音频特征对应的近似全局音频特征；获取所述近似全局音频特征所属的目标音频对应的音频段特征序列，并根据所述待处理音频和所述目标音频分别对应的音频段特征序列，确定所述待处理音频与所述目标音频之间的音频相似度；若所述音频相似度达到预设相似度以上，则将所述目标音频确定为所述待处理音频对应的副本音频。

3、在另一示例性实施例中，提取待处理音频对应的全局音频特征和音频段特征序列，包括：基于预设的第一单位时长对所述待处理音频进行划分处理，得到所述待处理音频包含的多个第一音频段；对各个第一音频段分别提取音频特征，并按照时间先后顺序对各个第一音频段的音频特征进行排序，以得到所述待处理音频对应的音频段特征序列。

4、在另一示例性实施例中，提取待处理音频对应的全局音频特征和音频段特征序列，还包括：基于预设的第二单位时长对所述待处理音频进行划分处理，得到所述待处理音频包含的多个第二音频段；所述第二单位时长大于或者等于所述第一单位时长；对各个第二音频段分别进行频谱图转换，得到所述待处理音频对应的频谱图序列；将所述频谱图序列输入训练好的特征提取模型中，以得到所述训练好的特征提取模型输出的全局音频特征。

5、在另一示例性实施例中，所述训练好的特征提取模型是利用训练数据集对初始的特征提取模型进行预训练得到；所述方法还包括：分别生成重建学习任务和对比学习任务中的至少一种训练任务；所述重建学习任务指示通过计算平均绝对误差损失值来进行模型参数优化，所述对比学习任务指示通过计算噪声对比估计损失值来进行模型参数优化；基于所述训练数据集分别执行所述至少一种训练任务，以对所述初始的特征提取模型进行预训练，得到所述训练好的特征提取模型。

6、在另一示例性实施例中，所述训练好的特征提取模型包括级联的浅层特征提取网络和深层特征提取网络；通过执行如下步骤来得到所述待处理音频对应的全局音频特征：通过所述浅层特征提取网络提取所述频谱图序列中各个频谱图分别对应的浅层特征；通过所述深层特征提取网络提取各个浅层特征对应的深层特征；根据所述深层特征计算特征平均值，将所述特征平均值作为所述待处理音频对应的全局音频特征。

7、在另一示例性实施例中，对各个第一音频段分别提取音频特征，并按照时间先后顺序对各个第一音频段的音频特征进行排序，以得到所述待处理音频对应的音频段特征序列，包括：按照时间先后顺序将各个第一音频段输入所述训练好的特征提取模型；将所述浅层特征提取网络输出的浅层特征序列作为所述待处理音频对应的音频段特征序列。

8、在另一示例性实施例中，根据所述待处理音频和所述目标音频分别对应的音频段特征序列，确定所述待处理音频与所述目标音频之间的音频相似度，包括：对所述待处理音频对应的音频段特征序列和所述目标音频对应的音频段特征序列进行音频段特征比对，获得所述待处理音频与所述目标音频之间的音频相似时长；根据所述待处理音频和所述目标音频分别对应的音频时长，以及所述音频相似时长，确定所述待处理音频与所述目标音频之间的音频相似度。

9、在另一示例性实施例中，所述音频检索库中存储的各个全局音频特征分别具有音频标识；所述方法还包括：将所述副本音频对应的音频标识作为所述待处理音频对应的音频标识；基于所述待处理音频对应的音频标识，将所述待处理音频对应的全局音频特征和音频段特征序列存储于所述音频检索库中。

10、在另一示例性实施例中，所述音频检索库中存储的全局音频特征和音频段特征序列具有指定时长的存储时限；所述方法还包括：将所述副本音频对应的全局音频特征和音频段特征序列的剩余存储时长更新为所述指定时长。

11、在另一示例性实施例中，所述方法还包括：若所述音频相似度低于所述预设相似度，则基于音频标识列表中最新的音频标识，生成所述待处理音频对应的音频标识。

12、在另一示例性实施例中，所述方法还包括：检测视频发布平台中的待推荐视频，并获取所述待推荐视频包含的音频对应的音频标识；基于所述待推荐视频对应的音频标识，确定所述待推荐视频对应的候选视频，并基于所述候选视频执行所述待推荐视频的推荐处理；其中，所述候选视频包含的音频为所述待推荐视频包含的音频对应的副本音频。

13、本申请实施例的另一方面，提供了一种音频副本检测装置，该装置包括：特征提取模块，配置为提取待处理音频对应的全局音频特征和音频段特征序列；特征检索模块，配置为从音频检索库中检索所述全局音频特征对应的近似全局音频特征，并获取所述近似全局音频特征所属的目标音频对应的音频段特征序列；相似度确定模块，配置为根据所述待处理音频对应的音频段特征序列和所述目标音频对应的音频段特征序列，确定所述待处理音频与所述目标音频之间的音频相似度；副本判定模块，配置为若所述音频相似度达到预设相似度以上，则将所述目标音频确定为所述待处理音频对应的副本音频。

14、本申请实施例的另一方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述电子设备实现如前所述的音频副本检测方法。

15、本申请实施例的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使所述电子设备执行如上所述的音频副本检测方法。

16、本申请实施例的另一方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被电子设备的处理器执行时实现如上所述的音频副本检测方法。

17、本申请的实施例所提供的技术方案，首先根据待处理音频的全局音频特征从音频检索库中检索出近似全局音频特征，然后根据待处理音频和目标音频各自对应的音频段特征序列，来确定出待处理音频与目标音频之间的音频相似度，可以理解为是先通过全局音频特征来实现较粗粒度的检测，然后再通过音频段特征序列来实现更细粒度的检测，由此能够保证音频副本检测的准确性。

18、应理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

本文档来自技高网...

【技术保护点】

1.一种音频副本检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，提取待处理音频对应的全局音频特征和音频段特征序列，包括：

3.根据权利要求2所述的方法，其特征在于，提取待处理音频对应的全局音频特征和音频段特征序列，还包括：

4.根据权利要求3所述的方法，其特征在于，所述训练好的特征提取模型是利用训练数据集对初始的特征提取模型进行预训练得到；所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述训练好的特征提取模型包括级联的浅层特征提取网络和深层特征提取网络；通过执行如下步骤来得到所述待处理音频对应的全局音频特征：

6.根据权利要求5所述的方法，其特征在于，对各个第一音频段分别提取音频特征，并按照时间先后顺序对各个第一音频段的音频特征进行排序，以得到所述待处理音频对应的音频段特征序列，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，根据所述待处理音频和所述目标音频分别对应的音频段特征序列，确定所述待处理音频与所述目标音频之间的音频相似度，包括：

9.根据权利要求8所述的方法，其特征在于，所述音频检索库中存储的全局音频特征和音频段特征序列具有指定时长的存储时限；所述方法还包括：

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

12.一种音频副本检测装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使所述电子设备执行权利要求1-11中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被电子设备的处理器执行时实现如权利要求1-11中任一项所述的方法。

...

【技术特征摘要】

1.一种音频副本检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，提取待处理音频对应的全局音频特征和音频段特征序列，包括：

3.根据权利要求2所述的方法，其特征在于，提取待处理音频对应的全局音频特征和音频段特征序列，还包括：

4.根据权利要求3所述的方法，其特征在于，所述训练好的特征提取模型是利用训练数据集对初始的特征提取模型进行预训练得到；所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，根据所述待处理音频和所述目标音频分别对应的音频段特征序列，确...

【专利技术属性】
技术研发人员：许靳昌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人