一种混叠音频事件分类方法技术

技术编号:10866915 阅读:302 留言:0更新日期:2015-01-07 08:05
本发明专利技术公开了一种混叠音频事件分类方法,该方法在训练阶段通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ。在测试阶段,根据训练阶段得到的“作者—主题”模型θ和“主题—字”模型Φ,通过求解音频文档相对于各个混叠音频类的不确定值来进行分类。本发明专利技术提出的混叠音频事件分类方法能分类识别出音频样本中的多个音频事件,而不仅仅是其中的某个音频事件,因而有助于更好地分析音频文档的内容。目前对混叠音频事件的分类研究还很少,本发明专利技术提出的方法是对这方面研究的一个很好补充。

【技术实现步骤摘要】
一种混叠音频事件分类方法
本专利技术涉及一种音频事件分类方法,尤其涉及一种混叠音频事件分类方法。
技术介绍
音频事件分类是计算听觉场景分析的重要研究内容。音频事件能为我们提供丰富的信息,比如,说话声能使人们了解当前的谈话内容,音乐声能帮助人们分析当前所处的环境,会议室内的鼓掌声能使人们了解当前会议的进展状态等等。音频文档中所包含的音频事件一般可分为两种,一种是纯净的音频事件,即同一时间只有一个音频事件发生;另一种是混叠音频事件,即同一时间有多个音频事件同时发生。目前的分类技术已经能很好地分类纯净的音频事件,但是对混叠音频事件的分类性能还较差。此外,目前针对混叠音频事件的分类研究还很少,在目前能查到的关于混叠音频事件分类的研究中,对混叠音频事件进行分类时采取的策略是将混叠音频事件分类为其所包含的某一音频事件,而没能识别出混叠音频事件中所包含的多个音频事件。然而识别出混叠音频事件中所包含的多个音频事件对于音频场景识别以及对于音频文档内容的理解都是很有帮助的。比如,假设某一混叠音频事件中包含说话声和汽车行驶的声音,如果能同时分类识别出这两种音频事件,则有助于我们推断出当前的音频场景是发生在室外,而如果只识别出其中的说话声则难以推断出室外场景。由此可见,对混叠音频事件的分类研究具有很重要的研究意义,2010年,IBM海法研究实验室的MICHALROSEN-ZVI等人提出了一种文本集的“作者—主题”模型,将其用于文本分析。而当前在音频领域对于混叠音频的研究主要集中在语音识别领域,对于不同类型的音频事件的混叠研究还很少,而且现有的研究未能识别出混叠音频中的多个音频事件。这主要是因为混叠音频事件的混叠类型多种多样,这给混叠音频事件的分类策略带来巨大挑战。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供一种混叠音频事件分类方法,它拓展了该“作者—主题”模型的应用领域,将其用于解决上述混叠音频事件的分类问题。因此,本申请提出一种基于“作者—主题”模型和“主题—字”模型的混叠音频事件分类方法。和现有的混叠音频事件分类方法相比,它具备能识别出混叠音频事件中的多个音频事件的优点,而不是仅仅将混叠音频事件分类为其所包含的某一音频事件。为了实现上述目的,本专利技术采用如下技术方案:一种混叠音频事件分类方法,包括如下步骤:步骤(1):输入包含纯净音频事件的音频文档和包含混叠音频事件的音频文档;步骤(2):对步骤(1)的包含纯净音频事件的音频文档和包含混叠音频事件的音频文档分别进行分帧,并对每帧进行特征提取,特征提取得到音频特征,得到的所有帧的音频特征即为所有音频事件的训练样本;步骤(3):利用Kmeans算法对步骤(2)的所有音频事件的训练样本进行聚类,聚类得到训练样本聚类的各个簇和各个簇的中心,进而根据训练样本落入的簇的簇中心的编号得到各个音频事件训练样本的字表达;步骤(4):根据步骤(3)的各个音频事件训练样本的字表达、已知各个样本的作者、提前设定Dirichlet分布的α参数和提前设定Dirichlet分布的β参数的条件下,通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ;步骤(5):输入待测试音频文档;步骤(6):对步骤(5)的测试音频文档进行分帧,并对每帧进行特征提取,提取与步骤(2)相同类型的音频特征;步骤(7):计算步骤(6)提取的音频特征与步骤(3)的训练样本聚类的各个簇的中心位置的距离,取距离最小的簇中心对应的字为测试音频样本的字表达;步骤(8):根据步骤(7)的测试音频样本的字表达,利用步骤(4)的“作者—主题”模型θ和“主题—字”模型Φ,求得测试音频文档相对于各个混叠音频类的不确定值;步骤(9):求测试音频文档相对于各个混叠音频类的最小不确定值,将最小不确定值所对应的混叠音频类作为该音频文档的分类结果。所述步骤(2)的具体步骤为:步骤(2-1):在提取特征之前进行分帧处理,帧长取设定值,相继两帧之间有50%的重叠;步骤(2-2):以帧为单位提取音频特征,用提取的特征来表征各个样本。本专利技术采用的音频特征是在音频分类领域最常用的MFCC(Mel频率倒谱系数)特征;所述步骤(3)的具体步骤为:步骤(3-1):用Kmeans聚类算法对训练样本聚类共得到C个簇,用这C个簇的中心作为字典中的字,进而构造字典,同时对字典中的各个字进行编号;步骤(3-2):训练样本的编号用训练样本落到的相应簇的簇中心的编号来表达,进而得到各个音频事件训练样本的字表达;所述步骤(4)的具体步骤为:步骤(4-1):通过吉布斯采样方法对概率分布P(z,x|D,α,β)采样;首先,对向量x和z进行随机初始化,然后在吉布斯采样的每轮迭代过程中,根据公式(2)对每个字的作者和主题进行顺序采样:其中,a表示某一具体的作者,t表示某一具体的主题,w表示某一具体的字;xdi表示训练样本集中第d个文档中的第i个字所对应的作者;zdi表示训练样本集中第d个文档中的第i个字所对应的主题;wdi表示训练样本集中第d个文档中的第i个字所对应的字;z-di表示向量z中除去第d个文档中的第i个字所对应的主题以外,由其它元素所组成的向量;x-di表示向量x中除去第d个文档中的第i个字所对应的作者以外,由其它元素所组成的向量;w-di分别表示向量w中除去第d个文档中的第i个字所对应的字以外,由其它元素所组成的向量;W表示音频字典中的字的总数目,T表示主题的总数目;CTA表示统计得到的“作者—主题”矩阵,表示矩阵CTA中第t行第a列的矩阵元素,即训练样本集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的作者为a,同时主题为t的字的总数目;CWT表示“主题—字”矩阵,表示矩阵CWT中第w行第t列的矩阵元素,即训练样本集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的字为w,同时主题为t的字的总数目;表示矩阵CTA中第t*行第a列的矩阵元素,这里用t*是为了和中的t进行区分;表示矩阵CWT中第w*行第t列的矩阵元素,这里用w*是为了和中的w进行区分;吉布斯采样的每一轮迭代指的是按照公式(2)对每个字的主题和作者都进行一遍采样,如此迭代若干轮后,则认为概率分布P(z,x|D,α,β)已经收敛;在P(z,x|D,α,β)收敛之后继续进行迭代,并记录每轮迭代后得到的样本值。步骤(4-2):假设在步骤(4-1)中吉布斯采样共采集S个样本:(zs,xs),s=1,2,…,S;(zs,xs)表示第s个样本;对于第s个样本(zs,xs),统计得到相应的(CTA)s矩阵和(CWT)s矩阵,(CTA)s和(CWT)s分别表示由第s个样本(zs,xs)统计得到的CTA矩阵和CWT矩阵;对(CTA)s矩阵逐列进行归一化,得到由第s个样本(zs,xs)统计得到的“作者—主题”模型θs;对(CWT)s矩阵逐列进行归一化,得到由第s个样本(zs,xs)统计得到的“主题—字”模型Φs;最后,对S个样本统计得到的“作者—主题”模型和“主题—字”模型分别取平均即得到最终的“作者—主题”模型θ和“主题—字”模型Φ:所述步骤(6)的具体步骤为:步骤(6-1):对测试音频文档在提取特征之前进行分帧处理,帧长和步骤(2-1)的帧长一致;步骤(6-2):以帧为单位提取音频特征,提本文档来自技高网
...
一种混叠音频事件分类方法

【技术保护点】
一种混叠音频事件分类方法,其特征是,包括如下步骤:步骤(1):输入包含纯净音频事件的音频文档和包含混叠音频事件的音频文档;步骤(2):对步骤(1)的包含纯净音频事件的音频文档和包含混叠音频事件的音频文档分别进行分帧,并对每帧进行特征提取,特征提取得到音频特征,得到的所有帧的音频特征即为所有音频事件的训练样本;步骤(3):利用Kmeans算法对步骤(2)的所有音频事件的训练样本进行聚类,聚类得到训练样本聚类的各个簇和各个簇的中心,进而根据训练样本落入的簇的簇中心的编号得到各个音频事件训练样本的字表达;步骤(4):根据步骤(3)的各个音频事件训练样本的字表达、已知各个样本的作者、提前设定Dirichlet分布的α参数和提前设定Dirichlet分布的β参数的条件下,通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ;步骤(5):输入待测试音频文档;步骤(6):对步骤(5)的测试音频文档进行分帧,并对每帧进行特征提取,提取与步骤(2)相同类型的音频特征;步骤(7):计算步骤(6)提取的音频特征与步骤(3)的训练样本聚类的各个簇的中心位置的距离,取距离最小的簇中心对应的字为测试音频样本的字表达;步骤(8):根据步骤(7)的测试音频样本的字表达,利用步骤(4)的“作者—主题”模型θ和“主题—字”模型Φ,求得测试音频文档相对于各个混叠音频类的不确定值;步骤(9):求测试音频文档相对于各个混叠音频类的最小不确定值,将最小不确定值所对应的混叠音频类作为该音频文档的分类结果。...

【技术特征摘要】
1.一种混叠音频事件分类方法,其特征是,包括如下步骤:步骤(1):输入包含纯净音频事件的音频文档和包含混叠音频事件的音频文档;步骤(2):对步骤(1)的包含纯净音频事件的音频文档和包含混叠音频事件的音频文档分别进行分帧,并对每帧进行特征提取,特征提取得到音频特征,得到的所有帧的音频特征即为所有音频事件的训练样本;步骤(3):利用Kmeans算法对步骤(2)的所有音频事件的训练样本进行聚类,聚类得到训练样本聚类的各个簇和各个簇的中心,进而根据训练样本落入的簇的簇中心的编号得到各个音频事件训练样本的字表达;步骤(4):根据步骤(3)的各个音频事件训练样本的字表达、已知各个样本的作者、提前设定Dirichlet分布的α参数和提前设定Dirichlet分布的β参数,通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ;步骤(5):输入待测试音频文档;步骤(6):对步骤(5)的测试音频文档进行分帧,并对每帧进行特征提取,提取与步骤(2)相同类型的音频特征;步骤(7):计算步骤(6)提取的音频特征与步骤(3)的训练样本聚类的各个簇的中心位置的距离,取距离最小的簇中心对应的字为测试音频样本的字表达;步骤(8):根据步骤(7)的测试音频样本的字表达,利用步骤(4)的“作者—主题”模型θ和“主题—字”模型Φ,求得测试音频文档相对于各个混叠音频类的不确定值;步骤(9):求测试音频文档相对于各个混叠音频类的最小不确定值,将最小不确定值所对应的混叠音频类作为该音频文档的分类结果。2.如权利要求1所述的一种混叠音频事件分类方法,其特征是,所述步骤(2)的具体步骤为:步骤(2-1):在提取特征之前进行分帧处理,帧长取设定值,相继两帧之间有50%的重叠;步骤(2-2):以帧为单位提取音频特征,用提取的特征来表征各个样本。3.如权利要求1所述的一种混叠音频事件分类方法,其特征是,所述步骤(3)的具体步骤为:步骤(3-1):用Kmeans聚类算法对训练样本聚类共得到C个簇,用这C个簇的中心作为字典中的字,进而构造字典,同时对字典中的各个字进行编号;步骤(3-2):训练样本的编号用训练样本落到的相应簇的簇中心的编号来表达,进而得到各个音频事件训练样本的字表达。4.如权利要求1所述的一种混叠音频事件分类方法,其特征是,所述步骤(4)的具体步骤为:步骤(4-1):通过吉布斯采样方法对概率分布P(z,x|D,α,β)采样;首先,对向量x和z进行随机初始化,然后在吉布斯采样的每轮迭代过程中,根据公式(2)对每个字的作者和主题进行顺序采样:其中,a表示某一具体的作者,t表示某一具体的主题,w表示某一具体的字;xdi表示训练样本集中第d个文档中的第i个字所对应的作者;zdi表示训练样本集中第d个文档中的第i个字所对应的主题;wdi表示训练样本集中第d个文档中的第i个字所对应的字;z-di表示向量z中除去第d个文档中的第i个字所对应的主题以外,由其它元素所组成的向量;x-di表示向量x中除去第d个文档中的第i个字所对应的作者以外,由其它元素所组成的向量;w-di表示向量w中除去第d个文档中的第i个字所对应的字以外,由其它元素所组成的向量;W表示音频字典中的字的总数目,T表示主题的总数目;CTA表示统计得到的“作者—主题”矩阵,表示矩阵CTA中第t行第a列的矩阵元素,即训练样本集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的作者为a,同时主题为t的字的总数目;CWT表示“主题—字”矩阵,表示矩阵CWT中第w行第t列的矩阵元素,即训练样本集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的字为w,同时主题为t的字的总数目;表示矩阵CTA中第t*行第a列的矩阵元素,这里用t*是为了和中的t进行区分;表示矩阵CWT中第w*行第t列的矩阵元素,这里用w*是为了和中的w进行区分;吉布斯采样的每一轮迭代指的是按照公式(2)对每个字的...

【专利技术属性】
技术研发人员:冷严程传福齐广慧徐新艳万洪林
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1