【技术实现步骤摘要】
基于分层事件检测和上下文模型的多源场景声音摘要方法
本专利技术涉及一种多源场景声音的摘要方法,特别是一种基于分层事件检测和上下文模型的多源场景声音摘要方法。
技术介绍
近几年来,随着配备声传感器智能设备的快速升级,声音成为了内容感知应用中很有用的数据类型。音频相对于基于视觉的工具是比较廉价的媒体,也没有视觉媒体中的遮挡与光照强弱等难题,日益增长的音频数据量也引发了对开发音频上高效面向内容算法的迫切需求。典型的算法有,获取有用的音频数据、将音频数据分组成有意义的类别以及提供音频浏览或检索等。音频内容摘要是指从音频流中提取有意义的信息,这在现实生活中的音频相关应用上非常有用。在检测和提取音频流语义内容方面有三大方法。谐波结构分析方法主要处理说话和音乐这类的音频数据,这类方法可以处理结构化的具有共振峰特征的声音,但不能直接用于分析非结构化声音信号。特征提取方法考虑了通过分析和选择不同的音频特征来识别多源声音,但无法弥补低层听觉特性和高层予以内容之间的语义鸿沟。音频上下文表示方法使用上下文作为分类器来识别多源声音,但是无法用一个系统的方式来开发多源声音中有意义的部分和他们之间的关系。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于分层事件检测和上下文模型的多源场景声音摘要方法,从而对一段多源场景音频分割片段做出分析,摘要出其中的场景片段。为了解决上述技术问题,本专利技术公开了一种基于分层事件检测和上下文模型的多源场景声音摘要方法,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频信号作为目标音频,所述待摘要的目标多源场景 ...
【技术保护点】
一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频信号作为目标音频,所述待摘要的目标多源场景音频信号由各种来源的结构化的前景声音及非结构化的背景声音组成;步骤二,通过背景声音识别算法,识别出目标音频中的背景声音,提取目标音频的波形值组成一个矩阵,并将该矩阵和背景声音特征向量都投影到特征空间中,计算目标音频特征向量和背景声音特征向量的归一化距离来确定目标音频分割片段的分割点位置,完成音频分割;步骤三,使用谱聚类算法将目标音频中相似的分割片段聚类,将一类分割片段作为声音事件,使用仿射函数进行背景声音事件的检测,计算声音事件的发生频率、总时间长度及平均时间长度三个评分函数并组成关键声音事件的评分函数,通过关键声音事件的评分函数计算得到关键声音事件;步骤四,使用上下文模型将关键声音事件和相邻的事件关联在同一个声音场景下,即用声音事件之间的相关系数和时间间隔,计算两个声音片段的相关函数得到相邻声音事件的相关值;步骤五,利用关键声音事件和相邻声音事件的相关值在关键声音事件的音频分割片段周围扩展所在场景下的音频分割片段,如果关键 ...
【技术特征摘要】
1.一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频信号作为目标音频,所述待摘要的目标多源场景音频信号由各种来源的结构化的前景声音及非结构化的背景声音组成;步骤二,通过背景声音识别算法,识别出目标音频中的背景声音,提取目标音频的波形值组成一个矩阵,并将该矩阵和背景声音特征向量都投影到特征空间中,计算目标音频特征向量和背景声音特征向量的归一化距离来确定目标音频分割片段的分割点位置,完成音频分割;步骤三,使用谱聚类算法将目标音频中相似的分割片段聚类,将一类分割片段作为声音事件,使用仿射函数进行背景声音事件的检测,计算声音事件的发生频率、总时间长度及平均时间长度三个评分函数并组成关键声音事件的评分函数,通过关键声音事件的评分函数计算得到关键声音事件;步骤四,使用上下文模型将关键声音事件和相邻的事件关联在同一个声音场景下,即用声音事件之间的相关系数和时间间隔,计算两个声音片段的相关函数得到相邻声音事件的相关值;步骤五,利用关键声音事件和相邻声音事件的相关值在关键声音事件的音频分割片段周围扩展所在场景下的音频分割片段,如果关键声音事件的音频分割片段与它的相邻音频分割片段各自所属声音事件的相关值超过设定阈值,则把它们归为同一声音场景,最后得到最后的多源场景声音摘要。2.根据权利要求1所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤二包括如下步骤:对目标音频I读出其采样值,并将采样值组成一个N×M的矩阵X:X={xi}i=1,...,M,其中,xi表示第i个含有N个采样点且无重叠的音频帧,i取值1~M,M表示总帧数;将M个音频帧中每个音频帧减去矩阵X所有音频帧的平均值,通过主成分分析算法将矩阵X的协方差矩阵降到N×K维,记为K维特征空间Eb,然后将矩阵X映射到空间Eb上:其中,T是K×M矩阵,包含所有被映射的音频帧,是Eb的转置矩阵;将背景声音的音频帧v0减去矩阵X所有音频帧的平均值,得到均值为零的背景音频帧并映射到空间Eb上,得到背景音频帧v,公式为:计算目标音频帧与背景音频帧v之间的归一化距离D(i):其中ti表示目标音频I的第i帧,max和min分别表示||ti-v||的最大值和最小值;归一化距离D(i)的局部最小值点即为音频分割点,每两个音频分割点之间构成音频分割片段,所有的音频分割片段记为集合M1为音频分割片段的总数。3.根据权利要求2所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤三中,所述使用谱聚类算法将目标音频中相似的分割片段聚类包括如下步骤:1)对于音频分割片段segv及它的梅尔频率倒谱系数-局部判别基特征矩阵MLDB={av1,...,avn},v取值1~M1,j取值1~n,n表示特征向量总数,则avj表示音频分割片段segv的第j个梅尔频率倒谱系数-局部判别基特征向量,用第一次谱聚类算法将每个特征向量聚类为FK类,每一聚类为ck1,k1=1,...,FK;2)记聚类ck1的元素个数是Nk1,那么音频分割片段sego就属于Nk1最大的那个聚类ck1,判定音频分割片段sego属于声音事件ek2,k2=1,...,EK,EK表示声音事件的总数,最后得到所有音频分割片段的聚类结果,即声音事件集合E={e1,...,eEK}。4.根据权利要求3所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤三中,所述梅尔频率倒谱系数-局部判别基特征的提取步骤如下:1)提取音频的梅尔频率倒谱系数特征;2)利用局部判别基对音频进行特征提取;3)在梅尔频率倒谱系数特征后加上局部判别基...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。