一种融合了短时与长时特征建模的环境声识别方法及装置制造方法及图纸

技术编号:15022189 阅读:93 留言:0更新日期:2017-04-05 00:02
本发明专利技术公开了一种融合了短时与长时特征建模的环境声识别方法及装置。本发明专利技术提出了一种模型级联融合的方法,使得短时和长时的信息在整个识别过程中都能够得以运用。本发明专利技术的方案包括下列步骤:对于滑动窗,首先基于短时特征使用混合高斯模型(GMM)建模进行预分类;对GMM的分类结果,进行置信度判别,置信度高的结果直接作为最终的分类结果,置信度较低时,则基于长时特征再分类;在第二阶段,基于对GMM分类结果混淆矩阵的分析,找出容易混淆的类,训练这些类之间的支持向量机(SVM)分类模型,使用SVM进行再分类。第二阶段的建模过程使用GMM的概率得分加入长时特征一起作为SVM的输入。

【技术实现步骤摘要】

本专利技术涉及环境声识别领域,特别涉及环境声的声学建模领域。
技术介绍
近年来,针对非语音感知的研究已逐渐成为研究的热点。非语音的环境声音也能传递有用信息,如在特定环境中人的活动通常会产生种类丰富的声学事件。通过对这些环境声音的分析和处理,能够有效获知人的活动情况和相应的环境状态,如鼓掌声、笑声、脚步声、枪声、爆炸声、玻璃碎裂声等。针对环境声识别,研究者们尝试了各种方法。由于都是对声音的处理,环境声识别首先借鉴了语音识别领域的GMM(GaussianMixtureModel:混合高斯模型)/HMM(HiddenMarkovModel:隐马尔科夫模型)技术。该方法使用HMM为每一个环境声类别建立声学模型,HMM的每一个状态关联一个GMM模型,识别时则采用Viterbi算法进行解码。GMM可作为一个状态的HMM,被用于单独的声学建模。此类方法都是基于分帧后提取的短时特征。在解码过程中,通过逐帧处理实现声音的分割和识别。相比与逐帧的处理策略,另一种环境声识别的策略则是通过滑动窗来分段声音信号,然后进行逐段分类。通过设定合适的窗长,每一次选择一小段音频,处理若干帧数据。此类方法以滑动窗为处理单元,因此可以在滑动窗内,对音频进行长时分析,提取描述声音长时变化的特征。将一个滑动窗使用长时特征表示为一个向量之后,再使用SVM等分类器进行分类。此类方法的优点是可以加入更多的长时特征,不足之处在于,将含有若干帧的滑动窗用一个向量表示时,其短时特征的细节信息便不得不丢弃。如实际处理中,会将短时特征的均值和方差作为滑动窗向量表示的一部分。如上所述,传统的GMM/HMM方法基于短时特征建模,识别时采取逐帧处理的策略,处理过程中不便于长时信息的引入。基于滑动窗的方法虽然可以进行长时的分析,但为了方便使用分类器,需要把每一个滑动窗表示为一个向量,短时特征的细节信息将会抛弃。实际上音频短时和长时特征分别是音频信息表达的不同尺度,它们含有了声音不同方面的特性,对声音的识别都有一定的帮助作用。但现有的环境声识别方法或基于短时特征建模,或基于长时特征建模,顾此失彼。本专利技术中的算法提出了一种能够融合两种尺度建模的方法,在识别过程中,兼顾短时与长时的信息,提高了识别率。
技术实现思路
(一)要解决的技术问题本专利技术的目的在于解决现有环境声识别中算法中信息利用不充分的情况。(二)技术方案为解决上述问题,本专利技术提出了一种融合短时与长时特征建模的环境声识别方法,包括以下步骤:步骤1:对待识别声音进行分帧处理,基于每一帧提取短时特征;步骤2:基于短时特征,利用GMM环境声分类模型对待识别声音的每一个滑动窗进行分类,给出每个滑动窗的GMM分类结果;其中,所述GMM环境声分类预先基于训练语料中的短时特征训练得到;步骤3:对GMM环境声分类模型的分类结果进行置信度判别,若置信度高于预定阈值,则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果,否则转下一步进行再分类;步骤4:对于置信度低于预定阈值的待识别声音,以滑动窗为处理单元,提取所述待识别声音的长时特征;步骤5:将所述长时特征与所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类,得到最终的识别结果;其中,所述SVM环境声再分类模型是预先训练得到的用于分类所述GMM环境声分类模型的中易混淆类的SVM分类器。根据本专利技术另一方面,其提供了一种融合短时与长时特征建模的环境声识别装置,包括:短时特征提取模块,对待识别声音进行分帧处理,基于每一帧提取短时特征;GMM分类模块,基于短时特征,利用GMM环境声分类模型对待识别声音的每一个滑动窗进行分类,给出每个滑动窗的GMM分类结果;其中,所述GMM环境声分类预先基于训练语料中的短时特征训练得到;第一识别模块,对GMM环境声分类模型的分类结果进行置信度判别,若置信度高于预定阈值,则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果,否则进行再分类;长时特征提取模块,对于置信度低于预定阈值的待识别声音,以滑动窗为处理单元,提取所述待识别声音的长时特征;再分类模块,将所述长时特征与所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类,得到最终的识别结果;其中,所述SVM环境声再分类模型是预先训练得到的用于分类所述GMM环境声分类模型的中易混淆类的SVM分类器。(三)有益效果本专利技术针对现有环境声识别算法中音频信息利用不充分的情况,提出了一种级联模型,以融合短时特征与长时特征的建模。该方法引入置信度判别,首先使得第一阶段基于短时特征建模的置信度较高的识别结果得以保留。对于置信度低的结果,使用SVM进行第二阶段的再分类。在再分类过程中,使用GMM的概率得分与长时特征一起作为SVM的输入。GMM的概率得分携带了大量来自短时特征的区分性信息,使得短时信息在长时建模时再次得到利用。此外,GMM是产生式模型,SVM是典型的判别式模型,通过GMM与SVM两种方法的级联融合,不仅使音频的短时与长时信息在整个识别过程中都得到了利用,还使得两种模型各自发挥自己的优势。最终提高了识别结果。附图说明图1是根据本专利技术的融合短时与长时特征建模的环境声识别算法的流程图;图2是根据本专利技术的基于帧提取短时特征的流程图;图3是根据本专利技术的使用EM算法训练混合高斯模型的流程图;图4是根据本专利技术的使用已训练的GMM进行环境声识别的流程图;图5是根据本专利技术的对GMM分类结果进行置信度判别的示意图;图6是根据本专利技术的基于滑动窗提取长时特征的示意图;图7是根据本专利技术的基于对GMM分类结果混淆矩阵的分析,找出易混淆的类,进而训练SVM模型的示意图。图8是根据本专利技术使用SVM进行再分类的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。为了环境声识别过程中能够充分地利用音频各个尺度的信息,本专利技术基于音频的短时特征与长时特征,提出了一个级联融合模型。整个过程分别采用了GMM与SVM基于不同的特征进行了建模。GMM模型的实施基于音频的短时特征。SVM分类器的输入则包括长时特征与GMM的概率得分。在这个两阶段的框架内,首先通过引入置信度使得第一阶段正确的分类结果予以保留,同本文档来自技高网
...

【技术保护点】
一种融合短时与长时特征建模的环境声识别方法,包括以下步骤:步骤1:对待识别声音进行分帧处理,基于每一帧提取短时特征;步骤2:基于短时特征,利用GMM环境声分类模型对待识别声音的每一个滑动窗进行分类,给出每个滑动窗的GMM分类结果;其中,所述GMM环境声分类模型预先基于训练语料中的短时特征训练得到;步骤3:对GMM环境声分类模型的分类结果进行置信度判别,若置信度高于预定阈值,则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果,否则转下一步进行再分类;步骤4:对于置信度低于预定阈值的待识别声音,以滑动窗为处理单元,提取所述待识别声音的长时特征;步骤5:将所述长时特征与所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类,得到最终的识别结果;其中,所述SVM环境声再分类模型是预先训练得到的用于分类所述GMM环境声分类模型的中易混淆类的SVM分类器。

【技术特征摘要】
1.一种融合短时与长时特征建模的环境声识别方法,包括以下步骤:
步骤1:对待识别声音进行分帧处理,基于每一帧提取短时特征;
步骤2:基于短时特征,利用GMM环境声分类模型对待识别声音的每一个滑动窗进行分类,给出每个滑动窗的GMM分类结果;其中,所述GMM环境声分类模型预先基于训练语料中的短时特征训练得到;
步骤3:对GMM环境声分类模型的分类结果进行置信度判别,若置信度高于预定阈值,则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果,否则转下一步进行再分类;
步骤4:对于置信度低于预定阈值的待识别声音,以滑动窗为处理单元,提取所述待识别声音的长时特征;
步骤5:将所述长时特征与所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类,得到最终的识别结果;其中,所述SVM环境声再分类模型是预先训练得到的用于分类所述GMM环境声分类模型的中易混淆类的SVM分类器。
2.如权利要求1所述的方法,其特征在于,所述步骤1中提取的短时特征包括MFCC及其差分、过零率、质心比率、频谱熵和频谱滚降。
3.如权利要求1所述的方法,其特征在于,使用期望最大化算法训练混合高斯模型并逐渐增加所述混合高斯模型中高斯分量的个数,最终得到所述GMM环境声分类模型。
4.如权利要求1所述的方法,其特征在于,步骤2具体包括:
步骤201:计算滑动窗内每一帧的特征在GMM环境声分类模型上的概率取对数;
步骤202:将所有帧的概率对数相加,最后再除以帧数,得到所有帧平均联合概率的对数形式;
步骤203:根据平均联合概率的对数大小得到分类结果;其中,将所述GMM环境声分类模型中得到的平均联合概率的对数最高的类别作为分类结果。
5.如权利要求1所述的方法,其特征在于,所述步骤3具体包括:
步骤301:对每一个滑动窗,基于识别过程中计算的对数概率,找到最优和次优的GMM的概率等分:L1和L2;然后使用下面的公式计算置信度:
步骤302:若置信度高于预定值,则将GMM环境声分类模型给出的分类结果作为所述待识别语音的最终识别结果。
6.如权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:刘文举胡鹏飞张邯平高鹏董理科刘晓飞乔利玮王桐
申请(专利权)人:中国科学院自动化研究所国网山西省电力公司电力科学研究院山西振中电力股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1