本发明专利技术公开了一种结合PLSA和AT的音频事件分类方法,该方法在训练阶段用训练样本训练PLSA模型和AT模型;在分类阶段,对于待分类的音频文档,首先用PLSA模型求得文档中潜在的音频事件,然后用AT模型从潜在音频事件中找出若干音频事件作为分类结果。本发明专利技术提出的结合PLSA和AT的音频事件分类方法既能很好地分类纯净音频事件,又能很好地分类混叠音频事件,而且在分类混叠音频事件时能识别出其中的多个音频事件,而不仅仅是识别出其中的一个音频事件。
【技术实现步骤摘要】
本专利技术涉及一种结合PLSA和AT的音频事件分类方法。
技术介绍
音频信息是多媒体信息的一种重要表现形式。音频领域中的音频事件分类技术在 实际生活中具有广泛的应用,不但可以用于进行多媒体检索、安全监控,而且可以用于智能 机器人和智能家居工程。 音频文档主要包含两类音频事件,即纯净音频事件和混叠音频事件。纯净音频事 件是指某一时刻只有一个音频事件发生,发生的音频事件在此刻与其它音频事件没有时间 上的交叠;混叠音频事件是指某一时刻有多个音频事件同时发生,发生的音频事件在此刻 产生时间上的交叠。 目前的音频分类技术能很好地分类纯净音频事件,但在对混叠音频事件分类时则 分类性能大为降低。这主要是因为混叠音频事件受混叠的影响,其特征较混叠之前的纯净 音频事件的特征发生了明显的改变,加大了分类的难度。此外,目前多数的混叠音频事件分 类技术是将混叠音频事件分类为其所包含的某一音频事件,而未能识别出其中的多个音频 事件,这也影响了分类性能的提高。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供一种结合PLSA和AT的音频事件分类 方法,本专利技术结合两种主题模型,即PLSA(Probabilistic Latent Semantic Analysis)模 型和AT (Author-Topic model)模型,进行分类。PLSA模型和AT模型的提出最初都是用于 文本分析。PLSA已有研宄将其引入音频领域进行语义标注和视频分类等,而对于AT模型, 现在还未见将其应用于音频领域的相关研宄。本专利技术创新性地将AT模型引入到音频分类 领域,并创新性地将其和PLSA模型结合起来进行分类。本专利技术提出的结合PLSA和AT的 音频事件分类方法既能很好地分类纯净音频事件,又能很好地分类混叠音频事件,而且在 分类混叠音频事件时能识别出其中的多个音频事件,而不仅仅是识别出其中的一个音频事 件。 为了实现上述目的,本专利技术采用如下技术方案: 一种结合PLSA和AT的音频事件分类方法,包括如下步骤: 步骤⑴:通过训练音频文档训练得到AT模型; 步骤⑵:通过训练音频文档训练得到PLSA模型; 步骤(3):通过步骤(2)得到的PLSA模型,求得待分类的音频文档包含的潜在的 M个音频事件; 步骤⑷:通过步骤⑴得到的AT模型,从步骤⑶潜在的M个音频事件中选择N 个音频事件作为分类结果,其中,K N < M。 所述步骤(1)的具体步骤为: 步骤(1-1):输入训练音频文档: 训练音频文档中既包含纯净音频事件的音频文档,又包含混叠音频事件的音频文 档; 步骤(1-2):分帧及特征提取: 对训练音频文档进行分帧处理,每一帧作为一个样本;然后,以帧为单位提取音频 特征; 步骤(1-3):通过聚类得到各个音频样本的字表达; 步骤(1-4):通过吉布斯采样训练得到AT模型的"作者一主题"分布Θ和"主题一 字"分布Φ。 所述步骤(1-3)的步骤为: 采用Kmeans聚类算法对步骤(1-2)中分帧得到的样本进行聚类; 假设训练集中共有L个样本,记为{fi,f2,…,fj ;聚类共得到W个簇,W个簇的簇 中心样本记为IC1, C2,…,Cj,…,CJ,将IC1, C2,…,Cj,…,CJ作为音频字典,则音频字典中 的每个样本e {1,2, ···,}表示音频字典中的一个音频字; 根据音频字典,每个样本都能够得到如下的音频字表达:【主权项】1. 一种结合PLSA和AT的音频事件分类方法,其特征是,包括如下步骤: 步骤(1):通过训练音频文档训练得到AT模型; 步骤(2):通过训练音频文档训练得到PLSA模型; 步骤(3):通过步骤(2)得到的PLSA模型,求得待分类的音频文档包含的潜在的M个 音频事件; 步骤(4):通过步骤(1)得到的AT模型,从步骤(3)潜在的M个音频事件中选择N个 音频事件作为分类结果,其中,K N < M。2. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是,所述步骤 (1)的具体步骤为: 步骤(1-1):输入训练音频文档: 训练音频文档中既包含纯净音频事件的音频文档,又包含混叠音频事件的音频文档; 步骤(1-2):分帧及特征提取: 对训练音频文档进行分帧处理,每一帧作为一个样本;然后,以帧为单位提取音频特 征; 步骤(1-3):通过聚类得到各个音频样本的字表达; 步骤(1-4):通过吉布斯采样训练得到AT模型的"作者一主题"分布Θ和"主题一字" 分布Φ。3. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述步骤(1-3)的步骤为: 采用Kmeans聚类算法对步骤(1-2)中分帧得到的样本进行聚类; 假设训练集中共有L个样本,记为{f\,f2,…,f J ;聚类共得到W个簇,W个簇的簇中 心样本记为IA,C2,…,C」,…,Cw}将IC1, C2,…,C」,…,CJ作为音频字典,则音频字典 中的每个样本e {1,2,,W}表示音频字典中的一个音频字; 根据音频字典,每个样本都能够得到如下的音频字表达:其中, fi表示训练集中的第i个样本,下标i表示第i个; Cj表示聚类得到的第j个簇的簇中心样本,下标j表示第j个; W表示聚类得到的簇的个数,或者称为音频字典中字的个数; IDX(A)表示样本&在音频字典中的索引,或者称为样本匕的字表达; Dis (4 Cj)表示样本&和簇中心样本Cj之间的距离。4. 如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是, 所述步骤(1-4)的步骤为:将训练样本中包含的音频事件作为样本的作者;假设 "作者一主题"分布Θ和"主题一字"分布Φ的先验分布分别是服从参数为α和β的 Dirichlet分布,α和β是已知的参数值; 将每个音频文档中的所有字连接成一个向量,将整个训练集中所有音频文档连接起来 组成一个新的向量,用w表示此新的向量; 每个字对应一个作者和一个主题,因此W中每个字的作者组成一个向量,用X表示;W 中每个字的主题组成一个向量,用Z表示; 假设训练集中共有A个作者、T个主题,则向量X中的每个元素在A个作者中取值,向 量z中的每个元素在T个主题中取值; 训练"作者一主题"分布Θ和"主题一字"分布Φ是在同一个训练过程中同时进行的; 此训练过程具体分两步执行:第一步,吉布斯采样; 第二步:假设吉布斯采样在z和X的联合概率分布收敛之后又迭代了 S轮,每轮迭代后 的z和X的采样值记为(zs,xs),s = 1,2,…,S ; s表示z和X的联合概率分布收敛之后继续迭代的第s轮,由(zs,Xs)统计得到相应的 (CTA)S矩阵和(CWT)S矩阵,(C ta)^P ((:"广分别表示由第s轮采样值(zs,Xs)统计得到的Cta 矩阵和Cwt矩阵; 对S个矩阵(CTA)S,s = 1,2,…,S取平均,并对平均矩当前第1页1 2 本文档来自技高网...
【技术保护点】
一种结合PLSA和AT的音频事件分类方法,其特征是,包括如下步骤:步骤(1):通过训练音频文档训练得到AT模型;步骤(2):通过训练音频文档训练得到PLSA模型;步骤(3):通过步骤(2)得到的PLSA模型,求得待分类的音频文档包含的潜在的M个音频事件;步骤(4):通过步骤(1)得到的AT模型,从步骤(3)潜在的M个音频事件中选择N个音频事件作为分类结果,其中,1≤N<M。
【技术特征摘要】
【专利技术属性】
技术研发人员:冷严,李登旺,程传福,万洪林,王晶晶,方敬,徐新艳,
申请(专利权)人:山东师范大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。