当前位置: 首页 > 专利查询>南京大学专利>正文

基于分层事件检测和上下文模型的多源场景声音摘要方法技术

技术编号:10698071 阅读:452 留言:0更新日期:2014-11-27 02:53
本发明专利技术公开了一种基于分层事件检测和上下文模型的多源场景声音摘要方法,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频分割片段;步骤二,基于背景声音对音频场景片段进行分割;步骤三,通过一个谱聚类算法,将目标音频中相似的分割片段聚类起来,利用仿射函数检测背景声音事件,并计算声音事件的评分函数得到关键声音事件;步骤四,通过一个上下文模型计算声音事件之间的相关函数;步骤五,根据声音事件之间的相关值在关键声音事件的音频分割片段前后合并相关度较高的音频分割片段得出最后的多源场景声音摘要。

【技术实现步骤摘要】
基于分层事件检测和上下文模型的多源场景声音摘要方法
本专利技术涉及一种多源场景声音的摘要方法,特别是一种基于分层事件检测和上下文模型的多源场景声音摘要方法。
技术介绍
近几年来,随着配备声传感器智能设备的快速升级,声音成为了内容感知应用中很有用的数据类型。音频相对于基于视觉的工具是比较廉价的媒体,也没有视觉媒体中的遮挡与光照强弱等难题,日益增长的音频数据量也引发了对开发音频上高效面向内容算法的迫切需求。典型的算法有,获取有用的音频数据、将音频数据分组成有意义的类别以及提供音频浏览或检索等。音频内容摘要是指从音频流中提取有意义的信息,这在现实生活中的音频相关应用上非常有用。在检测和提取音频流语义内容方面有三大方法。谐波结构分析方法主要处理说话和音乐这类的音频数据,这类方法可以处理结构化的具有共振峰特征的声音,但不能直接用于分析非结构化声音信号。特征提取方法考虑了通过分析和选择不同的音频特征来识别多源声音,但无法弥补低层听觉特性和高层予以内容之间的语义鸿沟。音频上下文表示方法使用上下文作为分类器来识别多源声音,但是无法用一个系统的方式来开发多源声音中有意义的部分和他们之间的关系。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于分层事件检测和上下文模型的多源场景声音摘要方法,从而对一段多源场景音频分割片段做出分析,摘要出其中的场景片段。为了解决上述技术问题,本专利技术公开了一种基于分层事件检测和上下文模型的多源场景声音摘要方法,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频信号作为目标音频,所述待摘要的目标多源场景音频信号由各种来源的结构化的前景声音及非结构化的背景声音组成;步骤二,通过背景声音识别算法,识别出目标音频中的背景声音,提取目标音频的波形值组成一个矩阵,并将该矩阵和背景声音特征向量都投影到特征空间中,计算目标音频特征向量和背景声音特征向量的归一化距离来确定目标音频分割片段的分割点位置,完成音频分割;步骤三,使用谱聚类算法将目标音频中相似的分割片段聚类,将一类分割片段作为声音事件,使用仿射函数进行背景声音事件的检测,计算声音事件的发生频率、总时间长度及平均时间长度属性,通过关键声音事件的评分函数计算得到关键声音事件;步骤四,使用上下文模型将关键声音事件和相邻的事件关联在同一个声音场景下,即用声音事件之间的相关系数和时间间隔,计算两个声音片段的相关函数得到相邻声音事件的相关值;步骤五,利用关键声音事件和相邻声音事件的相关值在关键声音事件的音频分割片段周围扩展所在场景下的音频分割片段,如果关键声音事件的音频分割片段与它的相邻音频分割片段各自所属声音事件的相关值超过设定阈值,则把它们归为同一声音场景,最后得到最后的多源场景声音摘要。本专利技术步骤二包括如下步骤:对目标音频I读出其采样值,并将采样值组成一个N×M的矩阵X:X={xi}i=1,...,M,其中,xi表示第i个含有N个采样点且无重叠的音频帧,i取值1~M,M表示总帧数;将M个音频帧中每个音频帧减去矩阵X所有音频帧的平均值,通过主成分分析算法将矩阵X的协方差矩阵降到N×K维,记为K维特征空间Eb,然后将矩阵X映射到空间Eb上:其中,T是K×M矩阵,包含所有被映射的音频帧,是Eb的转置矩阵;将背景声音的音频帧v0减去矩阵X所有音频帧的平均值,得到均值为零的背景音频帧并映射到空间Eb上,得到背景音频帧v,公式为:计算目标音频帧与背景音频帧v之间的归一化距离D(i):其中ti表示目标音频I的第i帧,max和min分别表示||ti-v||的最大值和最小值;归一化距离D(i)的局部最小值点即为音频分割点,每两个音频分割点之间构成音频分割片段,所有的音频分割片段记为集合M1为音频分割片段的总数。本专利技术步骤三中,所述使用谱聚类算法将目标音频中相似的分割片段聚类包括如下步骤:1)对于音频分割片段segv及它的梅尔频率倒谱系数-局部判别基特征矩阵MLDB={av1,...,avn},其中avj表示音频分割片段segv的第j个梅尔频率倒谱系数-局部判别基特征向量,v取值1~M1,j取值1~n,n表示特征向量总数,用第一次谱聚类算法将每个特征向量聚类为FK类,每一聚类为ck1,k1=1,...,FK;2)记聚类ck1的元素个数是Nk1,那么音频分割片段sego就属于Nk1最大的那个聚类ck1,判定音频分割片段sego属于声音事件ek2,,k2=1,...,EK,EK表示声音事件的总数,最后得到所有音频分割片段的聚类结果,即声音事件集合E={e1,...,eEK}。本专利技术步骤三中,所述梅尔频率倒谱系数-局部判别基特征的提取步骤如下:1)提取音频的梅尔频率倒谱系数特征;2)利用局部判别基对音频进行特征提取;3)在梅尔频率倒谱系数特征后加上局部判别基特征,得到更高维数的梅尔频率倒谱系数-局部判别基特征。本专利技术步骤三中,所述背景声音事件检测的仿射函数如下:其中dk是声音事件ek的总时间长度,k的取值范围1~EK,davg和dstd分别是声音事件ek中所有音频分割片段的均值和标准差,将仿射函数值最大的那个声音事件作为背景声音事件,pk和qk分别表示所有声音事件中所有音频分割片段的总时间长度的均值和方差,即所有声音事件总时间长度dk的均值和方差。本专利技术步骤三中,所述的关键声音事件的评分函数计算方法如下:score(es,I)=frq(es,I)·dur(es,I)·len(es,I),其中,frq(es,I)表示声音事件es发生频率的评分函数,dur(es,I)表示声音事件es总时间长度的评分函数,len(es,I)表示声音事件es平均时间长度的评分函数,es是表示声音事件,s取值范围1~EK;frq(es,I)的计算方法如下:其中,ns表示声音事件es发生的次数,navg和nstd分别表示声音事件es发生频率的均值和标准差;dur(es,I)的计算方法如下:其中,ds表示声音事件es的总时间长度,davg和dstd分别表示声音事件es总时间长度的均值和标准差;len(es,I)的计算方法如下:其中,ls表示声音事件es的平均时间长度,lavg和lstd分别表示声音事件es的平均时间长度的均值和标准差。本专利技术步骤四中相关值Sxy计算方法如下:其中,dtxy和corrxy分别表示声音事件x和y的欧式距离以及相关系数,dx和dy分别是两个声音事件的各自的总时间长度,exp(x)表示ex,e为自然常数,x和y的取值范围是1~EK,且x不等于y;相关系数corrxy的计算方法如下:其中,fxw和fyw分别是声音事件x和y第w个维度的特征向量,w取值范围1~FN,和分别是声音事件x和y的特征向量所有维度的均值,FN是声音事件特征向量的维度的总数。本专利技术步骤五中,所述的阈值计算方法如下:μ+σ,其中,μ是所有声音事件间相关值的均值,σ是所有声音事件间相关值的标准差;μ的计算方法如下:其中,NS是所有声音事件间的相关值Sxy的数量;σ的计算方法如下:附图说明下面结合附图和具体实施方式对本专利技术做更进一步的具体说明,本专利技术的上述和其他方面的优点将会变得更加清楚。图1为本专利技术流程图。具体实施方式:本专利技术所述的一种基于分层事件检测和上下文模型的多源场景声音摘本文档来自技高网...
基于分层事件检测和上下文模型的多源场景声音摘要方法

【技术保护点】
一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频信号作为目标音频,所述待摘要的目标多源场景音频信号由各种来源的结构化的前景声音及非结构化的背景声音组成;步骤二,通过背景声音识别算法,识别出目标音频中的背景声音,提取目标音频的波形值组成一个矩阵,并将该矩阵和背景声音特征向量都投影到特征空间中,计算目标音频特征向量和背景声音特征向量的归一化距离来确定目标音频分割片段的分割点位置,完成音频分割;步骤三,使用谱聚类算法将目标音频中相似的分割片段聚类,将一类分割片段作为声音事件,使用仿射函数进行背景声音事件的检测,计算声音事件的发生频率、总时间长度及平均时间长度三个评分函数并组成关键声音事件的评分函数,通过关键声音事件的评分函数计算得到关键声音事件;步骤四,使用上下文模型将关键声音事件和相邻的事件关联在同一个声音场景下,即用声音事件之间的相关系数和时间间隔,计算两个声音片段的相关函数得到相邻声音事件的相关值;步骤五,利用关键声音事件和相邻声音事件的相关值在关键声音事件的音频分割片段周围扩展所在场景下的音频分割片段,如果关键声音事件的音频分割片段与它的相邻音频分割片段各自所属声音事件的相关值超过设定阈值,则把它们归为同一声音场景,最后得到最后的多源场景声音摘要。...

【技术特征摘要】
1.一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,包括以下步骤:步骤一,输入一段待摘要的目标多源场景音频信号作为目标音频,所述待摘要的目标多源场景音频信号由各种来源的结构化的前景声音及非结构化的背景声音组成;步骤二,通过背景声音识别算法,识别出目标音频中的背景声音,提取目标音频的波形值组成一个矩阵,并将该矩阵和背景声音特征向量都投影到特征空间中,计算目标音频特征向量和背景声音特征向量的归一化距离来确定目标音频分割片段的分割点位置,完成音频分割;步骤三,使用谱聚类算法将目标音频中相似的分割片段聚类,将一类分割片段作为声音事件,使用仿射函数进行背景声音事件的检测,计算声音事件的发生频率、总时间长度及平均时间长度三个评分函数并组成关键声音事件的评分函数,通过关键声音事件的评分函数计算得到关键声音事件;步骤四,使用上下文模型将关键声音事件和相邻的事件关联在同一个声音场景下,即用声音事件之间的相关系数和时间间隔,计算两个声音片段的相关函数得到相邻声音事件的相关值;步骤五,利用关键声音事件和相邻声音事件的相关值在关键声音事件的音频分割片段周围扩展所在场景下的音频分割片段,如果关键声音事件的音频分割片段与它的相邻音频分割片段各自所属声音事件的相关值超过设定阈值,则把它们归为同一声音场景,最后得到最后的多源场景声音摘要。2.根据权利要求1所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤二包括如下步骤:对目标音频I读出其采样值,并将采样值组成一个N×M的矩阵X:X={xi}i=1,...,M,其中,xi表示第i个含有N个采样点且无重叠的音频帧,i取值1~M,M表示总帧数;将M个音频帧中每个音频帧减去矩阵X所有音频帧的平均值,通过主成分分析算法将矩阵X的协方差矩阵降到N×K维,记为K维特征空间Eb,然后将矩阵X映射到空间Eb上:其中,T是K×M矩阵,包含所有被映射的音频帧,是Eb的转置矩阵;将背景声音的音频帧v0减去矩阵X所有音频帧的平均值,得到均值为零的背景音频帧并映射到空间Eb上,得到背景音频帧v,公式为:计算目标音频帧与背景音频帧v之间的归一化距离D(i):其中ti表示目标音频I的第i帧,max和min分别表示||ti-v||的最大值和最小值;归一化距离D(i)的局部最小值点即为音频分割点,每两个音频分割点之间构成音频分割片段,所有的音频分割片段记为集合M1为音频分割片段的总数。3.根据权利要求2所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤三中,所述使用谱聚类算法将目标音频中相似的分割片段聚类包括如下步骤:1)对于音频分割片段segv及它的梅尔频率倒谱系数-局部判别基特征矩阵MLDB={av1,...,avn},v取值1~M1,j取值1~n,n表示特征向量总数,则avj表示音频分割片段segv的第j个梅尔频率倒谱系数-局部判别基特征向量,用第一次谱聚类算法将每个特征向量聚类为FK类,每一聚类为ck1,k1=1,...,FK;2)记聚类ck1的元素个数是Nk1,那么音频分割片段sego就属于Nk1最大的那个聚类ck1,判定音频分割片段sego属于声音事件ek2,k2=1,...,EK,EK表示声音事件的总数,最后得到所有音频分割片段的聚类结果,即声音事件集合E={e1,...,eEK}。4.根据权利要求3所述的一种基于分层事件检测和上下文模型的多源场景声音摘要方法,其特征在于,步骤三中,所述梅尔频率倒谱系数-局部判别基特征的提取步骤如下:1)提取音频的梅尔频率倒谱系数特征;2)利用局部判别基对音频进行特征提取;3)在梅尔频率倒谱系数特征后加上局部判别基...

【专利技术属性】
技术研发人员:路通翁炀冰王公友
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1