一种混叠音频事件分类方法技术

技术编号：10866915 阅读：322 留言：0更新日期：2015-01-07 08:05

本发明专利技术公开了一种混叠音频事件分类方法，该方法在训练阶段通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ。在测试阶段，根据训练阶段得到的“作者—主题”模型θ和“主题—字”模型Φ，通过求解音频文档相对于各个混叠音频类的不确定值来进行分类。本发明专利技术提出的混叠音频事件分类方法能分类识别出音频样本中的多个音频事件，而不仅仅是其中的某个音频事件，因而有助于更好地分析音频文档的内容。目前对混叠音频事件的分类研究还很少，本发明专利技术提出的方法是对这方面研究的一个很好补充。

全部详细技术资料下载

【技术实现步骤摘要】
一种混叠音频事件分类方法
本专利技术涉及一种音频事件分类方法，尤其涉及一种混叠音频事件分类方法。
技术介绍
音频事件分类是计算听觉场景分析的重要研究内容。音频事件能为我们提供丰富的信息，比如，说话声能使人们了解当前的谈话内容，音乐声能帮助人们分析当前所处的环境，会议室内的鼓掌声能使人们了解当前会议的进展状态等等。音频文档中所包含的音频事件一般可分为两种，一种是纯净的音频事件，即同一时间只有一个音频事件发生；另一种是混叠音频事件，即同一时间有多个音频事件同时发生。目前的分类技术已经能很好地分类纯净的音频事件，但是对混叠音频事件的分类性能还较差。此外，目前针对混叠音频事件的分类研究还很少，在目前能查到的关于混叠音频事件分类的研究中，对混叠音频事件进行分类时采取的策略是将混叠音频事件分类为其所包含的某一音频事件，而没能识别出混叠音频事件中所包含的多个音频事件。然而识别出混叠音频事件中所包含的多个音频事件对于音频场景识别以及对于音频文档内容的理解都是很有帮助的。比如，假设某一混叠音频事件中包含说话声和汽车行驶的声音，如果能同时分类识别出这两种音频事件，则有助于我们推断出当前的音频场景是发生在室外，而如果只识别出其中的说话声则难以推断出室外场景。由此可见，对混叠音频事件的分类研究具有很重要的研究意义，2010年，IBM海法研究实验室的MICHALROSEN-ZVI等人提出了一种文本集的“作者—主题”模型，将其用于文本分析。而当前在音频领域对于混叠音频的研究主要集中在语音识别领域，对于不同类型的音频事件的混叠研究还很少，而且现有的研究未能识别出混叠音频中的多个音频事件...
一种混叠音频事件分类方法

【技术保护点】
一种混叠音频事件分类方法，其特征是，包括如下步骤：步骤(1)：输入包含纯净音频事件的音频文档和包含混叠音频事件的音频文档；步骤(2)：对步骤(1)的包含纯净音频事件的音频文档和包含混叠音频事件的音频文档分别进行分帧，并对每帧进行特征提取，特征提取得到音频特征，得到的所有帧的音频特征即为所有音频事件的训练样本；步骤(3)：利用Kmeans算法对步骤(2)的所有音频事件的训练样本进行聚类，聚类得到训练样本聚类的各个簇和各个簇的中心，进而根据训练样本落入的簇的簇中心的编号得到各个音频事件训练样本的字表达；步骤(4)：根据步骤(3)的各个音频事件训练样本的字表达、已知各个样本的作者、提前设定Dirichlet分布的α参数和提前设定Dirichlet分布的β参数的条件下，通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ；步骤(5)：输入待测试音频文档；步骤(6)：对步骤(5)的测试音频文档进行分帧，并对每帧进行特征提取，提取与步骤(2)相同类型的音频特征；步骤(7)：计算步骤(6)提取的音频特征与步骤(3)的训练样本聚类的各个簇的中心位置的距离，取距离最小的簇中心对应的字为测试...

【技术特征摘要】
1.一种混叠音频事件分类方法，其特征是，包括如下步骤：步骤(1)：输入包含纯净音频事件的音频文档和包含混叠音频事件的音频文档；步骤(2)：对步骤(1)的包含纯净音频事件的音频文档和包含混叠音频事件的音频文档分别进行分帧，并对每帧进行特征提取，特征提取得到音频特征，得到的所有帧的音频特征即为所有音频事件的训练样本；步骤(3)：利用Kmeans算法对步骤(2)的所有音频事件的训练样本进行聚类，聚类得到训练样本聚类的各个簇和各个簇的中心，进而根据训练样本落入的簇的簇中心的编号得到各个音频事件训练样本的字表达；步骤(4)：根据步骤(3)的各个音频事件训练样本的字表达、已知各个样本的作者、提前设定Dirichlet分布的α参数和提前设定Dirichlet分布的β参数，通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ；步骤(5)：输入待测试音频文档；步骤(6)：对步骤(5)的测试音频文档进行分帧，并对每帧进行特征提取，提取与步骤(2)相同类型的音频特征；步骤(7)：计算步骤(6)提取的音频特征与步骤(3)的训练样本聚类的各个簇的中心位置的距离，取距离最小的簇中心对应的字为测试音频样本的字表达；步骤(8)：根据步骤(7)的测试音频样本的字表达，利用步骤(4)的“作者—主题”模型θ和“主题—字”模型Φ，求得测试音频文档相对于各个混叠音频类的不确定值；步骤(9)：求测试音频文档相对于各个混叠音频类的最小不确定值，将最小不确定值所对应的混叠音频类作为该音频文档的分类结果。2.如权利要求1所述的一种混叠音频事件分类方法，其特征是，所述步骤(2)的具体步骤为：步骤(2-1)：在提取特征之前进行分帧处理，帧长取设定值，相继两帧之间有50％的重叠；步骤(2-2)：以帧为单位提取音频特征，用提取的特征来表征各个样本。3.如权利要求1所述的一种混叠音频事件分类方法，其特征是，所述步骤(3)的具体步骤为：步骤(3-1)：用Kmeans聚类算法对训练样本聚类共得到C个簇，用这C个簇的中心作为字典中的字，进而构造字典，同时对字典中的各个字进行编号；步骤(3-2)：训练样本的编号用训练样本落到的相应簇的簇中心的编号来表达，进而得到各个音频事件训练样本的字表达。4.如权利要求1所述的一种混叠音频事件分类方法，其特征是，所述步骤(4)的具体步骤为：步骤(4-1)：通过吉布斯采样方法对概率分布P(z,x|D,α,β)采样；首先，对向量x和z进行随机初始化，然后在吉布斯采样的每轮迭代过程中，根据公式(2)对每个字的作者和主题进行顺序采样：其中，a表示某一具体的作者，t表示某一具体的主题，w表示某一具体的字；xdi表示训练样本集中第d个文档中的第i个字所对应的作者；zdi表示训练样本集中第d个文档中的第i个字所对应的主题；wdi表示训练样本集中第d个文档中的第i个字所对应的字；z-di表示向量z中除去第d个文档中的第i个字所对应的主题以外，由其它元素所组成的向量；x-di表示向量x中除去第d个文档中的第i个字所对应的作者以外，由其它元素所组成的向量；w-di表示向量w中除去第d个文档中的第i个字所对应的字以外，由其它元素所组成的向量；W表示音频字典中的字的总数目，T表示主题的总数目；CTA表示统计得到的“作者—主题”矩阵，表示矩阵CTA中第t行第a列的矩阵元素，即训练样本集中除去第d个文档中的第i个字之外，由其它所有的字统计得到的作者为a，同时主题为t的字的总数目；CWT表示“主题—字”矩阵，表示矩阵CWT中第w行第t列的矩阵元素，即训练样本集中除去第d个文档中的第i个字之外，由其它所有的字统计得到的字为w，同时主题为t的字的总数目；表示矩阵CTA中第t*行第a列的矩阵元素，这里用t*是为了和中的t进行区分；表示矩阵CWT中第w*行第t列的矩阵元素，这里用w*是为了和中的w进行区分；吉布斯采样的每一轮迭代指的是按照公式(2)对每个字的...

【专利技术属性】
技术研发人员：冷严，程传福，齐广慧，徐新艳，万洪林，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人