音频匹配方法、装置、设备及存储介质制造方法及图纸

技术编号：37702940 阅读：8 留言：0更新日期：2023-06-01 23:49

一种音频匹配方法、装置、设备及存储介质，涉及人工智能技术领域。该方法包括：获取待匹配音频的特征信息，待匹配音频的特征信息用于表征待匹配音频的语义特征；根据待匹配音频的特征信息，确定待匹配音频的标签信息，待匹配音频的标签信息包括待匹配音频在多个类别下分别对应的置信度，置信度用于表征待匹配音频与类别的相关程度；根据待匹配音频的标签信息，以及音频库中包含的各个音频的标签信息，从音频库中选择至少一个候选音频；从至少一个候选音频中，确定与待匹配音频相匹配的目标候选音频。通过这种方法，有助于获取到与待匹配音频相似性较高的目标候选音频，提升音频匹配的准确性。的准确性。的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
音频匹配方法、装置、设备及存储介质

[0001]本申请涉及人工智能
，特别涉及一种音频匹配方法、装置、设备及存储介质。

技术介绍

[0002]随着多媒体技术的发展与应用，音频的使用领域更加广泛。在一些情况下，需要从候选的音频中找到相似的至少两个音频。
[0003]相关技术中，通过工作人员人工对音频进行分析，以便大量的音频中找到相似的至少两个音频。工作人员主观对待匹配音频进行感受，并从大量候选音频查找、筛选出至少一个与待匹配音频相似的目标候选音频。
[0004]然而，相关技术中依赖工作人员主观确定出的目标候选音频与待匹配音频之间的相关性较差，音频匹配的准确度低。

技术实现思路

[0005]本申请提供了一种音频匹配方法、装置、设备及存储介质，能够提升音频匹配的准确性。
[0006]根据本申请实施例的一个方面，提供了一种音频匹配方法，所述方法包括：
[0007]获取待匹配音频的特征信息，所述待匹配音频的特征信息用于表征所述待匹配音频的语义特征；
[0008]根据所述待匹配音频的特征信息，确定所述待匹配音频的标签信息，所述待匹配音频的标签信息包括所述待匹配音频在多个类别下分别对应的置信度，所述置信度用于表征所述待匹配音频与所述类别的相关程度；
[0009]根据所述待匹配音频的标签信息，以及音频库中包含的各个音频的标签信息，从所述音频库中选择至少一个候选音频；
[0010]从所述至少一个候选音频中，确定与所述待匹配音频相匹配的目标候选音频。
...

【技术保护点】

【技术特征摘要】
1.一种音频匹配方法，其特征在于，所述方法包括：获取待匹配音频的特征信息，所述待匹配音频的特征信息用于表征所述待匹配音频的语义特征；根据所述待匹配音频的特征信息，确定所述待匹配音频的标签信息，所述待匹配音频的标签信息包括所述待匹配音频在多个类别下分别对应的置信度，所述置信度用于表征所述待匹配音频与所述类别的相关程度；根据所述待匹配音频的标签信息，以及音频库中包含的各个音频的标签信息，从所述音频库中选择至少一个候选音频；从所述至少一个候选音频中，确定与所述待匹配音频相匹配的目标候选音频。2.根据权利要求1所述的方法，其特征在于，所述根据所述待匹配音频的特征信息，确定所述待匹配音频的标签信息，包括：通过多个不同的分类网络，分别根据所述待匹配音频的特征信息，确定所述待匹配音频的分类结果；其中，不同的分类网络对应于不同的分类方式，每一个分类网络确定的分类结果包括：所述待匹配音频在所述分类网络对应的分类方式的多个类别下分别对应的置信度；根据所述多个不同的分类网络分别确定的分类结果，确定所述待匹配音频的标签信息。3.根据权利要求2所述的方法，其特征在于，所述多个不同的分类网络包括第一分类网络和第二分类网络，所述第一分类网络对应的分类方式为基于音频风格分类，所述第二分类网络对应的分类方式为基于音频情绪分类；所述通过多个不同的分类网络，分别根据所述待匹配音频的特征信息，确定所述待匹配音频的分类结果，包括：通过所述第一分类网络根据所述待匹配音频的特征信息，确定所述待匹配音频的第一分类结果，所述第一分类结果包括：所述待匹配音频在基于音频风格分类得到的多个类别下分别对应的置信度；通过所述第二分类网络根据所述待匹配音频的特征信息，确定所述待匹配音频的第二分类结果，所述第二分类结果包括：所述待匹配音频在基于音频情绪分类得到的多个类别下分别对应的置信度。4.根据权利要求2所述的方法，其特征在于，所述根据所述多个不同的分类网络分别确定的分类结果，确定所述待匹配音频的标签信息，包括：对于每一个分类网络，根据所述分类网络对应的结果筛选条件，从所述分类网络确定的分类结果中，选择满足所述结果筛选条件的至少一个置信度，得到所述分类网络对应的筛选后分类结果；整合各个所述分类网络分别对应的筛选后分类结果，得到所述待匹配音频的标签信息。5.根据权利要求1所述方法，其特征在于，所述获取待匹配音频的特征信息，包括：获取所述待匹配音频的多频带语义特征序列，所述多频带语义特征序列包括：对所述待匹配音频进行分帧处理，得到的多个音频帧分别对应的语义特征；根据所述多频带语义特征序列，生成所述待匹配音频的特征信息。
6.根据权利要求5所述的方法，其特征在于，所述获取所述待匹配音频的多频带语义特征序列，包括：提取所述待匹配音频的时域特征信息和频域特征信息，所述时域特征信息用于表征所述待匹配音频在时域维度的特征，所述频域特征信息用于表征所述待匹配音频在频域维度的特征；对所述时域特征信息提取过程中的至少一个中间时域特征，以及所述频域特征信息提取过程中的至少一个中间频域特征进行融合处理，得到所述待匹配音频的交互特征信息，所述交互特征信息用于表征所述待匹配音频在所述时域维度和所述频域维度之间的交互特征；根据所述时域特征信息、所述频域特征信息和所述交互特征信息，得到所述待匹配音频的多频带语义特征序列。7.根据权利要求6所述方法，其特征在于，所述至少一个中间时域特征和所述至少一个中间频域特征组成至少一个特征组，每个特征组包括...

【专利技术属性】
技术研发人员：冯鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人