一种音频模板提取方法及装置制造方法及图纸

技术编号:19342395 阅读:30 留言:0更新日期:2018-11-07 13:58
本发明专利技术实施例提供一种音频模板提取方法及装置。所述方法包括获取多个音频数据并提取对应的音频指纹,根据音频指纹建立音频指纹哈希表;根据音频指纹哈希表计算任意两个音频指纹的相似度,获取相似度大于预设阈值的两个音频指纹对应的匹配音频片段;对匹配音频片段建立标识符,根据标识符通过聚类准则将匹配音频片段进行聚类,根据聚类后标识符对聚类后音频数据进行切分获得音频模板。装置用于执行所述方法。本发明专利技术实施例通过根据音频数据对应的音频指纹建立音频指纹哈希表并获取对应的匹配音频片段,根据匹配音频片段进行聚类获得音频模板,能够从海量音频数据中找出重复出现的音频片段作为音频模板,为音频数据的搜索、分类、标识提供帮助。

An audio template extraction method and device

The embodiment of the invention provides an audio template extraction method and device. The method includes acquiring multiple audio data and extracting corresponding audio fingerprints, establishing an audio fingerprint hash table based on the audio fingerprint, calculating the similarity of any two audio fingerprints according to the audio fingerprint hash table, acquiring matched audio fragments corresponding to two audio fingerprints whose similarity is greater than the preset threshold, and matching audio films. The segment establishes an identifier, and clusters the matched audio fragments according to the identifier clustering criteria. The audio template is obtained by segmenting the clustered audio data according to the identifier after clustering. The device is used for executing the method. The embodiment of the present invention establishes an audio fingerprint hash table according to the corresponding audio fingerprint of audio data and obtains the corresponding matched audio fragments. The audio template is obtained by clustering the matched audio fragments. The repeated audio fragments can be found from the massive audio data as the audio template for the search of audio data. Classification and identification help.

【技术实现步骤摘要】
一种音频模板提取方法及装置
本专利技术涉及音频处理
,具体而言,涉及一种音频模板提取方法及装置。
技术介绍
音频指纹技术(Audiofingerprintingtechnology)是指通过特定的算法将一段音频数据中独一无二的数字特征以标识符的形式提取出来,跟音频模版库中的音频指纹进行比对,以便确定出现了哪一个音频模版以及出现的位置。在音频指纹领域,音频模版都是通过事先标注好的,从这些音频模版中提取音频指纹构建音频模版数据库。在搜索过程中,将待搜索音频数据中提取的音频指纹与音频模版库中的音频指纹进行相似度计算,从而找出待搜索音频数据中出现的音频模版。音频指纹作为音频内容自动识别技术的核心算法,已广泛应用于广告监播,音乐识别,版权内容监播,内容库去重和电视第二屏互动等领域。但是,现有技术中用于建立音频模版的音频数据都是已经存在的,如音乐、广告音频、节目音频流等。对于一些事先没有音频模版数据的应用领域,则无法实现从海量音频数据中提取到所需的音频模板。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种音频模板提取方法及装置,以解决上述技术问题。第一方面,本专利技术实施例提供了一种音频模板提取方法,包括:获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据各所述音频指纹建立对应的音频指纹哈希表;根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段;对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,根据聚类后标识符对相应的聚类后音频数据进行切分,获得音频模板。进一步地,所述获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据所述音频指纹建立音频指纹哈希表,包括:获取所述多个音频数据;对获取到的所述音频数据按照预设帧长和预设帧移进行分帧处理;将每一帧的音频数据从时域信号变换为频域信号,获得每一频点对应的幅度值;将所述音频数据对应的频域空间划分为多个子空间,根据所述幅度值计算每一子空间中的幅度极值;根据每一子空间中的所述幅度极值获得对应的所述音频数据的音频指纹,并记录所述幅度极值对应的帧序号;根据所述音频指纹和所述帧序号建立对应的所述音频指纹哈希表。进一步地,所述根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段,包括:获取所述每一音频指纹对应所述音频指纹哈希表,所述音频指纹哈希表包括帧序号;任意获取两个所述音频指纹哈希表中相同的所述音频指纹分别对应的所述帧序号,并将所述帧序号之间的差值作为时间差;根据所述时间差建立时间差哈希表;根据所述时间差哈希表计算对应的所述音频指纹的相似度;获取所述相似度大于预设阈值的两个音频指纹对应的所述匹配音频片段,并记录所述匹配音频片段对应的起始帧序号、结束帧序号和匹配长度。进一步地,所述对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,包括:获取所述匹配音频片段;分别为每一所述匹配音频片段对应的所述音频数据分配一个标识符,所述标识符包括音频文件ID、起始帧序号、结束帧序号;根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类,获得聚类后标识符。进一步地,所述根据聚类后的所述匹配音频片段对应的所述类别标识对相应的所述音频数据进行切分,获得音频模板,包括:根据所述聚类后标识符获取对应的聚类后音频数据,并对所述聚类后音频数据按照所述起始帧序号和所述结束帧序号进行切分,获得所述音频模板。进一步地,所述根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类,获得聚类后标识符,包括:获取待聚类的第一匹配音频片段和第二匹配音频片段,所述第一匹配音频片段包括第一标识符、第一音频文件ID、第一起始帧序号、第一结束帧序号和第一相似度,所述第二匹配音频片段包括第二标识符、第二音频文件ID、第二起始帧序号、第二结束帧序号和第二相似度;所述第一起始帧序号与所述第一结束帧序号构成的第一区间,所述第二起始帧序号与所述第二结束帧序号构成的第二区间;若判断获知所述第一音频文件ID与所述第二音频文件ID一致,且所述第一起始帧序号与所述第二起始帧序号一致,且所述第一结束帧序号与所述第二结束帧序号一致,则将所述第一匹配音频片段对应的标识符作为所述聚类后标识符;若判断获知所述第一区间包含所述第二起始帧序号与所述第二区间,则将所述第一匹配音频片段对应的标识符作为所述聚类后标识符;若判断获知所述第一区间与所述第二区间部分重叠,则生成新的标识符作为所述聚类后标识符;若判断获知所述第一区间与所述第二区间不重叠,则将所述第一匹配音频片段对应的标识符和所述第二匹配音频片段对应的标识符均作为所述聚类后标识符。第二方面,本专利技术实施例提供了一种音频模板提取装置,包括:音频指纹提取模块,用于获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据各所述音频指纹建立对应的音频指纹哈希表;音频指纹比对模块,用于根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段;音频模板提取模块,用于对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,根据聚类后标识符对相应的聚类后音频数据进行切分,获得音频模板。进一步地,所述音频指纹提取模块具体用于:音频数据读取单元,用于获取所述多个音频数据;分帧单元,用于对获取到的所述音频数据按照预设帧长和预设帧移进行分帧处理;FFT计算单元,用于将每一帧的音频数据从时域信号变换为频域信号,获得对应的频点数及每一频点对应的幅度值;极值计算单元,用于将所述音频数据对应的频域空间划分为多个子空间,根据所述每一频点对应的幅度值计算每一子空间中的幅度极值;音频指纹计算单元,用于根据每一子空间中的所述幅度极值获得对应的所述音频数据的音频指纹,并记录所述幅度极值对应的帧序号;音频指纹哈希表计算单元,用于根据所述音频指纹和所述帧序号建立对应的所述音频指纹哈希表。进一步地,所述音频指纹比对模块,具体用于:音频指纹哈希表读取单元,用于获取所述每一音频指纹对应所述音频指纹哈希表,所述音频指纹哈希表包括帧序号;时间差计算单元,用于任意获取两个所述音频指纹哈希表中相同的所述音频指纹分别对应的所述帧序号,并将所述帧序号之间的差值作为时间差;时间差哈希表建立单元,用于根据所述时间差建立时间差哈希表;相似度计算单元,根据所述时间差哈希表计算对应的所述音频指纹的相似度;匹配音频获取单元,用于获取所述相似度大于预设阈值的两个音频指纹对应的所述匹配音频片段,并记录所述匹配音频片段对应的起始帧序号、匹配长度和所述相似度。进一步地,所述音频模板提取模块,具体用于:匹配音频片段获取单元,用于获取所述匹配音频片段;音频片段标识单元,用于分别为每一所述匹配音频片段对应的所述音频数据分配一个标识符,所述标识符包括音频文件ID、起始帧序号、结束帧序号和所述相似度;聚类单元,用于根据所述音频文件ID、所述起始帧序号、所述结束帧序号和所述相似度对所述匹配音频片段进行聚类,获得聚类后标识符。第三方面,本专利技术实施例提供一种电本文档来自技高网...

【技术保护点】
1.一种音频模板提取方法,其特征在于,包括:获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据各所述音频指纹建立对应的音频指纹哈希表;根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段;对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,根据聚类后标识符对相应的聚类后音频数据进行切分,获得音频模板。

【技术特征摘要】
1.一种音频模板提取方法,其特征在于,包括:获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据各所述音频指纹建立对应的音频指纹哈希表;根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段;对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,根据聚类后标识符对相应的聚类后音频数据进行切分,获得音频模板。2.根据权利要求1所述的方法,其特征在于,所述获取多个音频数据,并提取各所述音频数据对应的音频指纹,根据所述音频指纹建立音频指纹哈希表,包括:获取所述多个音频数据;对获取到的所述音频数据按照预设帧长和预设帧移进行分帧处理;将每一帧的音频数据从时域信号变换为频域信号,获得每一频点对应的幅度值;将所述音频数据对应的频域空间划分为多个子空间,根据所述幅度值计算每一子空间中的幅度极值;根据每一子空间中的所述幅度极值获得对应的所述音频数据的音频指纹,并记录所述幅度极值对应的帧序号;根据所述音频指纹和所述帧序号建立对应的所述音频指纹哈希表。3.根据权利要求1所述的方法,其特征在于,所述根据所述音频指纹哈希表计算任意两个所述音频指纹的相似度,获取所述相似度大于预设阈值的两个音频指纹对应的匹配音频片段,包括:获取所述每一音频指纹对应的所述音频指纹哈希表,所述音频指纹哈希表包括帧序号;任意获取两个所述音频指纹哈希表中相同的所述音频指纹分别对应的所述帧序号,并将所述帧序号之间的差值作为时间差;根据所述时间差建立时间差哈希表;根据所述时间差哈希表计算对应的所述音频指纹的相似度;获取所述相似度大于预设阈值的两个音频指纹对应的所述匹配音频片段,并记录所述匹配音频片段对应的起始帧序号、结束帧序号和匹配长度。4.根据权利要求1任一项所述的方法,其特征在于,所述对所述匹配音频片段建立标识符,根据所述标识符通过聚类准则将所述匹配音频片段进行聚类,包括:获取所述匹配音频片段;分别为每一所述匹配音频片段对应的所述音频数据分配一个标识符,所述标识符包括音频文件ID、起始帧序号、结束帧序号;根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类,获得聚类后标识符。5.根据权利要求4所述的方法,其特征在于,所述根据聚类后的所述匹配音频片段对应的所述类别标识对相应的所述音频数据进行切分,获得音频模板,包括:根据所述聚类后标识符获取对应的聚类后音频数据,并对所述聚类后音频数据按照所述起始帧序号和所述结束帧序号进行切分,获得所述音频模板。6.根据权利要求4所述的方法,其特征在于,所述根据所述音频文件ID、所述起始帧序号和所述结束帧序号对所述匹配音频片段进行聚类,获得聚类后标识符,包括:获取待聚类的第一匹配音频片段和第二匹配音频片段,所述第一匹配音频片段包括第一标识符、第一音频文件ID、第一起始帧序号、第一结束帧序号和第一相似度,所述第二匹配音频片段包括第二标识符、第二音频文件ID、第二起始帧序号、第二结束帧序号和第二相似度;所述第一起始帧序号与所述第一结束帧序号构成的第一区间,所述第二起始帧序号与所述第二结束帧序号构...

【专利技术属性】
技术研发人员:邓菁王黎明
申请(专利权)人:四川远鉴科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1