短时特定音频检测模型生成与检测方法技术

技术编号:12222993 阅读:82 留言:0更新日期:2015-10-22 01:10
本发明专利技术涉及一种短时特定音频检测模型生成方法,包括:对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;用训练语音数据的特征,进行通用背景模型的训练;由训练语音数据中某一类特定音频数据的特征,根据通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型。本发明专利技术还提供了一种短时特定音频检测方法,该方法通过模型打分进行特定音频的检测。这种方法不仅可以很好地解决特定音频模型训练数据不充足的问题,还可以一定程度的对输入数据的背景噪声进行抑制。

【技术实现步骤摘要】

本专利技术涉及短时特定音频检测的方法,更具体地说,本专利技术涉及利用混合高斯模 型进行短时特定音频的检测。
技术介绍
在许多领域,短时特定音频都有着重要的作用,尤其在安全领域,在一些特定的情 况下,我们需要检测出某一类的短时特定音频以方便我们对于一些紧急的事件进行及时的 处理。例如,在公共场合,我们需要监管公共安全以及检测意外事故的发生,像突然的尖叫 声、意外的爆炸声或者枪击声,我们必须及时检测到这些短时特定音频以方便及时处理这 些意外情况。除此之外,在一些相对重要的场所,短时特定音频的的检测还可以用于异常声 音检测,可以很好的起着预警的作用。 目前短时特定音频检测方法遇到的问题还是很多的,第一,因为短时特定音频发 生很快而且事件的发生时间很短暂,所以如何利用短时音频中的信息很重要;第二,短时特 定音频发生的频率不是很高,所以不得不面对训练数据不充足的问题;第三,由于使用的场 景经常有复杂的背景噪声,所以很好地抑制背景噪声也成为短时特定音频检测也是一个重 要的问题。
技术实现思路
本专利技术的目的在于克服已有的短时特定音频检测方法所存在的训练数据不足、无 法抑制背景噪声的缺陷,从而提供一种基于混合高斯模型的短时特定音频模型生成与检测 方法。 本专利技术还提供了一种短时特定音频检测模型生成方法,包括: 步骤101、对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音 频数据与特定音频数据; 步骤102、用步骤101所得到的训练语音数据的特征,进行通用背景模型的训练; 其中,所述通用背景模型为混合高斯模型,其表达式为: wi表示的是每个高斯的权重,取值范围在0~1,且满足归一化条件:2>'_ = 1 x I ? 表示训练语音片段的帧特征;A表示高斯混合模型中所有参数的集合;Pi (x)表示每个单 高斯模型的概率密度函数,其表达式为: D表示的是训练语音片段的帧特征的维度;表示的是该高斯函数的协方差矩 阵;y i表示的是该高斯函数的均值向量; 步骤103、由训练语音数据中某一类特定音频数据的特征,根据步骤102所得到的 通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语 音数据中所有类特定音频数据的模型。 上述技术方案中,在步骤101中,对训练语音数据所提取的特征为梅尔倒谱系数。 上述技术方案中,在步骤102中,进行通用背景模型的训练包括利用期望最大化 的方法对通用背景模型进行参数估计,所要估计的参数包括三类:高斯权重《、高斯方差S 以及高斯均值U,其中w是每个高斯权重^的集合,S是每个高斯方差S ,的集合,y是 每个高斯均值^的集合,i表示每个单高斯模型的编号;具体包括: 步骤102-1、对第k个高斯权重wk的更新: 第k个高斯权重wk更新过程如下列公式所示: 其中,xt表示输入的训练语音x中的第t帧特征向量,是在特征提取过程计算出来 的已知的向量;A是对高斯混合模型中所有参数的总称,这些都会在训练的开始阶段的初 始化中给出初始值,是已知的参数;T表示的是所有输入的训练语音的总帧数,是可以计算 出来已知数值;k表示的是高斯混合模型中第k个单高斯模型编号;p (k | xt,A )表示的是输 入的训练语音帧xt在通用背景模型第k个高斯上面的后验概率,由输入帧x t和混合高斯模 型参数A计算所得的; 步骤102-2、对第k个高斯均值y k的更新: 第k个高斯均值y k更新过程如下列公式所示: 其中,T、xt和入都是已知的变量,而p(k|xt,入)是由输入帧\和混合高斯模型 参数A计算所得的; 步骤102-3、对第k个高斯方差&的更新: 第k个高斯均值#更新过程如下列公式所示: 其中,T、xt、入和yk都是已知的变量,而p(k|x t,入)是由输入帧xt和混合高斯 模型参数X计算所得的。 上述技术方案中,在步骤103中,根据步骤102所得到的通用背景模型中自适应地 得到一类特定音频数据的模型包括: 步骤103-1、首先根据训练的特定音频的特征向量计算每个语音帧在通用背景模 型上的后验概率叫、一阶统计量Ei(x)以及二阶统计量£^12);具体计算过程如下列公式所 示: 其中,Pr(i|xt)表示输入音频x第t帧在通用背景模型第i个高斯的后验概率;xt 表示输入音频x第t帧数据的特征;T表示的是输入音频的总帧数;i表示的是通用背景模 型中第i个单高斯的编号; 步骤103-2、利用步骤103-1计算得到的后验概率、一阶统计量以及二阶统计量, 对通用背景模型的参数做自适应调整,得到特定音频模型的权重化、均值以及协方差 武:;自适应调整的公式如下: 其中,和分别是方差、均值、权重调整系数;T表示的是该类特定音频 训练数据总帧数,y表示归一化参数,保证=1 ' &表示的是通用背景模型中的第i个 高斯模型的权重;y i表示的是通用背景模型中第i个高斯模型的均值;^表示通用背景 模型中第i个高斯的协方差,Ui表示的是通用背景模型中第i个高斯的均值,A表示的是 自适应得到的该特定音频模型的第i个高斯的均值。 本专利技术又提供了一种短时特定音频检测方法,包括: 步骤201、对所输入的测试语音做特征提取; 步骤202、将步骤201提取的测试语音特征输入到所述的短时特定音频检测模型 生成方法所得到的通用背景模型当中,计算测试语音在通用背景模型上面的得分; 步骤203、将步骤201提取的测试语音特征输入所述的短时特定音频检测模型生 成方法所得到的各类特定音频的混合高斯模型,计算测试语音在每一类特定音频的混合高 斯模型上面的得分; 步骤204、对步骤202所得到的测试语音在通用背景模型的得分与步骤203得到 的测试语音在各类特定音频的混合高斯模型上面的得分分别求差值,将差值与阈值进行比 较,从而判决这个测试音频属于哪一类特定音频,如果有多个模型得分都在阈值范围内,则 采用取最大值的方法来判决,选择分数最大模型所表征的特定音频作为测试语音最终判决 结果。 上述技术方案中,在步骤202中,计算测试语音在通用背景模型上面的得分包括: 选取通用背景模型中后验概率最大的N个高斯,并计算这N个概率之和,同时标记这N个高 斯序列号。 上述技术方案中,在步骤203中,计算测试语音在每一类特定音频的混合高斯模 型上面的得分包括:通过步骤202记录的通用背景模型的N个高斯序列,对应地计算特定音 频的混合高斯模型中这N个高斯的后验概率之和,将该值作为测试语音在各类特定音频的 混合高斯模型上面的得分。 上述技术方案中,在步骤201中,对测试语音所提取的特征为梅尔倒谱系数。 本专利技术的优点在于: 本专利技术的方法不仅可以很好地克服短时特定音频模型训练数据不充足的问题,还 可以一定程度上很好地抑制背景噪声。【附图说明】 图1是短时特定音频检测模型生成方法中关于通用背景模型的训练基本原理框 图; 图2是短时特定音频检测模型生成方法中关于特定音频模型的训练基本原理框 图; 图3是短时特定音频检测方当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种短时特定音频检测模型生成方法,包括:步骤101、对训练语音数据进行特征提取;其中,所述训练语音数据包括非特定音频数据与特定音频数据;步骤102、用步骤101所得到的训练语音数据的特征,进行通用背景模型的训练;其中,所述通用背景模型为混合高斯模型,其表达式为:p(x|λ)=Σi=1Mwipi(x);]]>wi表示的是每个高斯的权重,取值范围在0~1,且满足归一化条件:x表示训练语音片段的帧特征;λ表示高斯混合模型中所有参数的集合;pi(x)表示每个单高斯模型的概率密度函数,其表达式为:pi=1(2π)D/2|Σi|1/2exp{-12(x-μi)′(Σi)-1(x-μi)};]]>D表示的是训练语音片段的帧特征的维度;Σi表示的是该高斯函数的协方差矩阵;μi表示的是该高斯函数的均值向量;步骤103、由训练语音数据中某一类特定音频数据的特征,根据步骤102所得到的通用背景模型中自适应地得到该类特定音频数据的模型;重复这一操作,直至得到训练语音数据中所有类特定音频数据的模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:云晓春颜永红袁庆升黄宇飞任彦周若华黄文廷邹学强包秀国
申请(专利权)人:国家计算机网络与信息安全管理中心中国科学院声学研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1