The embodiment of the invention provides an audio template extraction method and device. The method includes acquiring multiple audio data and extracting corresponding audio fingerprints, establishing an audio fingerprint hash table based on the audio fingerprint, calculating the similarity of any two audio fingerprints according to the audio fingerprint hash table, acquiring matched audio fragments corresponding to two audio fingerprints whose similarity is greater than the preset threshold, and matching audio films. The segment establishes an identifier, and clusters the matched audio fragments according to the identifier clustering criteria. The audio template is obtained by segmenting the clustered audio data according to the identifier after clustering. The device is used for executing the method. The embodiment of the present invention establishes an audio fingerprint hash table according to the corresponding audio fingerprint of audio data and obtains the corresponding matched audio fragments. The audio template is obtained by clustering the matched audio fragments. The repeated audio fragments can be found from the massive audio data as the audio template for the search of audio data. Classification and identification help.
【技术实现步骤摘要】
一种音频模板提取方法及装置
本专利技术涉及音频处理
,具体而言,涉及一种音频模板提取方法及装置。
技术介绍
音频指纹技术(Audiofingerprintingtechnology)是指通过特定的算法将一段音频数据中独一无二的数字特征以标识符的形式提取出来,跟音频模版库中的音频指纹进行比对,以便确定出现了哪一个音频模版以及出现的位置。在音频指纹领域,音频模版都是通过事先标注好的,从这些音频模版中提取音频指纹构建音频模版数据库。在搜索过程中,将待搜索音频数据中提取的音频指纹与音频模版库中的音频指纹进行相似度计算,从而找出待搜索音频数据中出现的音频模版。音频指纹作为音频内容自动识别技术的核心算法,已广泛应用于广告监播,音乐识别,版权内容监播,内容库去重和电视第二屏互动等领域。但是,现有技术中用于建立音频模版的音频数据都是已经存在的,如音乐、广告音频、节目音频流等。对于一些事先没有音频模版数据的应用领域,则无法实现从海量音频数据中提取到所需的音频模板。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种音频模板提取方法及装置,以解决上述技术问题。第一方面,本专利技术实施例提供了一种音频模板提取方法,包括:获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据各所述音频指纹建立对应的音频指纹哈希表;根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段;对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,根据聚类后标识符对相应的聚类后音频数据进行切分,获得音频 ...
【技术保护点】
1.一种音频模板提取方法,其特征在于,包括:获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据各所述音频指纹建立对应的音频指纹哈希表;根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段;对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,根据聚类后标识符对相应的聚类后音频数据进行切分,获得音频模板。
【技术特征摘要】
1.一种音频模板提取方法,其特征在于,包括:获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据各所述音频指纹建立对应的音频指纹哈希表;根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段;对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,根据聚类后标识符对相应的聚类后音频数据进行切分,获得音频模板。2.根据权利要求1所述的方法,其特征在于,所述获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据所述音频指纹建立音频指纹哈希表,包括:获取所述多个音频数据;对获取到的所述音频数据按照预设帧长和预设帧移进行分帧处理;将每一帧的音频数据从时域信号变换为频域信号,获得每一频点对应的幅度值;将所述音频数据对应的频域空间划分为多个子空间,根据所述幅度值计算每一子空间中的幅度极值;根据每一子空间中的所述幅度极值获得对应的所述音频数据的音频指纹,并记录所述幅度极值对应的帧序号;根据所述音频指纹和所述帧序号建立对应的所述音频指纹哈希表。3.根据权利要求1所述的方法,其特征在于,所述根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段,包括:获取所述每一音频指纹对应的所述音频指纹哈希表,所述音频指纹哈希表包括帧序号;任意获取两个所述音频指纹哈希表中相同的所述音频指纹分别对应的所述帧序号,并将所述帧序号之间的差值作为时间差;根据所述时间差建立时间差哈希表;根据所述时间差哈希表计算对应的所述音频指纹的相似度;获取所述相似度大于预设阈值的两个音频指纹对应的所述匹配音频片段,并记录所述匹配音频片段对应的起始帧序号、结束帧序号和匹配长度。4.根据权利要求1任一项所述的方法,其特征在于,所述对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,包括:获取所述匹配音频片段;分别为每一所述匹配音频片段对应的所述音频数据分配一个标识符,所述标识符包括音频文件ID、起始帧序号、结束帧序号;根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类,获得聚类后标识符。5.根据权利要求4所述的方法,其特征在于,所述根据聚类后的所述匹配音频片段对应的所述类别标识对相应的所述音频数据进行切分,获得音频模板,包括:根据所述聚类后标识符获取对应的聚类后音频数据,并对所述聚类后音频数据按照所述起始帧序号和所述结束帧序号进行切分,获得所述音频模板。6.根据权利要求4所述的方法,其特征在于,所述根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类,获得聚类后标识符,包括:获取待聚类的第一匹配音频片段和第二匹配音频片段,所述第一匹配音频片段包括第一标识符、第一音频文件ID、第一起始帧序号、第一结束帧序号和第一相似度,所述第二匹配音频片段包括第二标识符、第二音频文件ID、第二起始帧序号、第二结束帧序号和第二相似度;所述第一起始帧序号与所述第一结束帧序号构成的第一区间,所述第二起始帧序号与所述第二结束帧序号构...
【专利技术属性】
技术研发人员:邓菁,王黎明,
申请(专利权)人:四川远鉴科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。