音频匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:37702940 阅读:8 留言:0更新日期:2023-06-01 23:49
一种音频匹配方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取待匹配音频的特征信息,待匹配音频的特征信息用于表征待匹配音频的语义特征;根据待匹配音频的特征信息,确定待匹配音频的标签信息,待匹配音频的标签信息包括待匹配音频在多个类别下分别对应的置信度,置信度用于表征待匹配音频与类别的相关程度;根据待匹配音频的标签信息,以及音频库中包含的各个音频的标签信息,从音频库中选择至少一个候选音频;从至少一个候选音频中,确定与待匹配音频相匹配的目标候选音频。通过这种方法,有助于获取到与待匹配音频相似性较高的目标候选音频,提升音频匹配的准确性。的准确性。的准确性。

【技术实现步骤摘要】
音频匹配方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,特别涉及一种音频匹配方法、装置、设备及存储介质。

技术介绍

[0002]随着多媒体技术的发展与应用,音频的使用领域更加广泛。在一些情况下,需要从候选的音频中找到相似的至少两个音频。
[0003]相关技术中,通过工作人员人工对音频进行分析,以便大量的音频中找到相似的至少两个音频。工作人员主观对待匹配音频进行感受,并从大量候选音频查找、筛选出至少一个与待匹配音频相似的目标候选音频。
[0004]然而,相关技术中依赖工作人员主观确定出的目标候选音频与待匹配音频之间的相关性较差,音频匹配的准确度低。

技术实现思路

[0005]本申请提供了一种音频匹配方法、装置、设备及存储介质,能够提升音频匹配的准确性。
[0006]根据本申请实施例的一个方面,提供了一种音频匹配方法,所述方法包括:
[0007]获取待匹配音频的特征信息,所述待匹配音频的特征信息用于表征所述待匹配音频的语义特征;
[0008]根据所述待匹配音频的特征信息,确定所述待匹配音频的标签信息,所述待匹配音频的标签信息包括所述待匹配音频在多个类别下分别对应的置信度,所述置信度用于表征所述待匹配音频与所述类别的相关程度;
[0009]根据所述待匹配音频的标签信息,以及音频库中包含的各个音频的标签信息,从所述音频库中选择至少一个候选音频;
[0010]从所述至少一个候选音频中,确定与所述待匹配音频相匹配的目标候选音频。
[0011]根据本申请实施例的一个方面,提供了一种音频匹配装置,所述装置包括:
[0012]特征获取模块,用于获取待匹配音频的特征信息,所述待匹配音频的特征信息用于表征所述待匹配音频的语义特征;
[0013]标签确定模块,用于根据所述待匹配音频的特征信息,确定所述待匹配音频的标签信息,所述待匹配音频的标签信息包括所述待匹配音频在多个类别下分别对应的置信度,所述置信度用于表征所述待匹配音频与所述类别的相关程度;
[0014]音频筛选模块,用于根据所述待匹配音频的标签信息,以及音频库中包含的各个音频的标签信息,从所述音频库中选择至少一个候选音频;
[0015]音频确定模块,用于从所述至少一个候选音频中,确定与所述待匹配音频相匹配的目标候选音频。
[0016]根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处
理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述音频匹配方法。
[0017]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述音频匹配方法。
[0018]根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现上述音频匹配方法。
[0019]本申请实施例提供的技术方案带来的有益效果至少包括:
[0020]本申请提供的音频匹配方法在确定目标候选音频的过程中,先使用包括多类别置信度的标签信息,从音频库中挑选至少一个候选音频,再从至少一个候选音频中挑选目标候选音频。一方面,相比于相关技术中的音频匹配方法,避免主观因素对音频匹配过程的干扰影响,有助于提升了音频匹配的准确性。通过生成包括多分类置信度的标签信息,从音频库中筛选候选音频,不仅提升了候选音频与待匹配音频在多个类别下的相关程度,而且有助于限制从音频库中确定出的候选音频的数量,从而减少整个音频匹配过程的耗时。
[0021]另一方面,本申请提供的音频匹配方法实现了音频匹配的自动化,降低了音频匹配过程中消耗的人工成本,在音频库包括百万量级音频的情况下,也能够实现快速音频匹配。
附图说明
[0022]图1是本申请一个示例性实施例提供的方案实施环境的示意图;
[0023]图2是本申请一个示例性实施例提供的音频匹配方法的流程图;
[0024]图3是本申请一个示例性实施例提供的多频带语义特征向量序列生成过程示意图;
[0025]图4是本申请一个示例性实施例提供的标签信息的生成方法的示意图;
[0026]图5是本申请一个示例性实施例提供的音频匹配方法的流程图;
[0027]图6是本申请一个示例性实施例提供的空间相似度计算的示意图;
[0028]图7是本申请一个示例性实施例提供的音频匹配装置的框图;
[0029]图8是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
[0030]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0031]1.人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0032]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0033]2.机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术,在本申请中,使用训练后的机器学习模型,对待匹配的音频进行处理,获取待匹配音频的特征信息和标签信息,并通过上述特征信息和标签信息确定上述待匹配音频的目标候选音频。
[0034]随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的音频处理领域得到应用,并发挥越来越重要的价值。
[0035]3.梅尔(Mel)频率是指一种基于人耳对等距的音高(pitch)变化的感官判断而确定的一种非线性频率刻度。在进行信号处理时,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频匹配方法,其特征在于,所述方法包括:获取待匹配音频的特征信息,所述待匹配音频的特征信息用于表征所述待匹配音频的语义特征;根据所述待匹配音频的特征信息,确定所述待匹配音频的标签信息,所述待匹配音频的标签信息包括所述待匹配音频在多个类别下分别对应的置信度,所述置信度用于表征所述待匹配音频与所述类别的相关程度;根据所述待匹配音频的标签信息,以及音频库中包含的各个音频的标签信息,从所述音频库中选择至少一个候选音频;从所述至少一个候选音频中,确定与所述待匹配音频相匹配的目标候选音频。2.根据权利要求1所述的方法,其特征在于,所述根据所述待匹配音频的特征信息,确定所述待匹配音频的标签信息,包括:通过多个不同的分类网络,分别根据所述待匹配音频的特征信息,确定所述待匹配音频的分类结果;其中,不同的分类网络对应于不同的分类方式,每一个分类网络确定的分类结果包括:所述待匹配音频在所述分类网络对应的分类方式的多个类别下分别对应的置信度;根据所述多个不同的分类网络分别确定的分类结果,确定所述待匹配音频的标签信息。3.根据权利要求2所述的方法,其特征在于,所述多个不同的分类网络包括第一分类网络和第二分类网络,所述第一分类网络对应的分类方式为基于音频风格分类,所述第二分类网络对应的分类方式为基于音频情绪分类;所述通过多个不同的分类网络,分别根据所述待匹配音频的特征信息,确定所述待匹配音频的分类结果,包括:通过所述第一分类网络根据所述待匹配音频的特征信息,确定所述待匹配音频的第一分类结果,所述第一分类结果包括:所述待匹配音频在基于音频风格分类得到的多个类别下分别对应的置信度;通过所述第二分类网络根据所述待匹配音频的特征信息,确定所述待匹配音频的第二分类结果,所述第二分类结果包括:所述待匹配音频在基于音频情绪分类得到的多个类别下分别对应的置信度。4.根据权利要求2所述的方法,其特征在于,所述根据所述多个不同的分类网络分别确定的分类结果,确定所述待匹配音频的标签信息,包括:对于每一个分类网络,根据所述分类网络对应的结果筛选条件,从所述分类网络确定的分类结果中,选择满足所述结果筛选条件的至少一个置信度,得到所述分类网络对应的筛选后分类结果;整合各个所述分类网络分别对应的筛选后分类结果,得到所述待匹配音频的标签信息。5.根据权利要求1所述方法,其特征在于,所述获取待匹配音频的特征信息,包括:获取所述待匹配音频的多频带语义特征序列,所述多频带语义特征序列包括:对所述待匹配音频进行分帧处理,得到的多个音频帧分别对应的语义特征;根据所述多频带语义特征序列,生成所述待匹配音频的特征信息。
6.根据权利要求5所述的方法,其特征在于,所述获取所述待匹配音频的多频带语义特征序列,包括:提取所述待匹配音频的时域特征信息和频域特征信息,所述时域特征信息用于表征所述待匹配音频在时域维度的特征,所述频域特征信息用于表征所述待匹配音频在频域维度的特征;对所述时域特征信息提取过程中的至少一个中间时域特征,以及所述频域特征信息提取过程中的至少一个中间频域特征进行融合处理,得到所述待匹配音频的交互特征信息,所述交互特征信息用于表征所述待匹配音频在所述时域维度和所述频域维度之间的交互特征;根据所述时域特征信息、所述频域特征信息和所述交互特征信息,得到所述待匹配音频的多频带语义特征序列。7.根据权利要求6所述方法,其特征在于,所述至少一个中间时域特征和所述至少一个中间频域特征组成至少一个特征组,每个特征组包括...

【专利技术属性】
技术研发人员:冯鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1