一种声音信号检测和识别的方法技术

技术编号:7301834 阅读:261 留言:0更新日期:2012-04-27 04:05
本发明专利技术涉及一种声音信号检测和识别的方法,公开了一种主要基于声音特征化表达、背景抑制算法、信号检出和数据融合这四个过程的声音检测和识别方法。其中声音信号特征化表达的方法是基于声音频谱能量和分布进行计算的;背景抑制算法,是根据声音的相似度加权值对声音的频域进行滤波进行计算的;信号检出是通过对能量归一化的数据与抑制后数据求差来进行计算的;最后,数据融合是通过变参数加权的方式一方面避免因分帧造成的延时效应从而保证即时性,另一方面抵消非平稳背景的干扰,从而提高鲁棒性。该声音信号检测和识别方法识别精度高,能够有效的避免背景干扰的影响,即便在极低的信噪比情况下亦可以达到满意的检测和识别结果。

【技术实现步骤摘要】

本专利技术涉及一种声音的检测和识别方法,特别涉及一种能够对弱声音信号的检测和识别也特别有效的基于声音信号的特征化表达、背景抑制处理、信号检出和数据融合的声音信号检测和识别方法。
技术介绍
声音检测和识别技术在国防,安全监控,人机交互等领域均有着广泛的应用,特别是由于声音的检测和识别的方法相对于图像的检测与识别方法,机动灵活且不易受到自然条件的影响,近年来吸引了越来越多研究者的注意。成为当前计算机声音处理领域中的研究热点之在计算机声音处理领域,目前常用的数学分析工具有短时傅里叶变换、小波变换、 小波包变换等。通过这些数学分析工具,我们可以对声音信号进行详细的时频域分析,比如在对声音信号进行时域分析时,可以获得声音信号的过零率、振幅、周期、能量等信息;进行频域分析时可以获得声音信号的频谱分布、基频频率、各次谐波频率,Mel倒频谱系数等信息。通过对这些声音信号进行时频谱分析,可以检测出声音信号中所包含的有用信息。其中,短时傅里叶变换通过选择不同的窗函数可以反映出不同时变信号局部的时域和频域的综合信息,而小波变换则是法国从事石油信号处理的工程师J. Morlet在1974年首先提出的一种变换方法,它与傅里叶变换等变换相比,是一个时间和频率的局网域变换,因而能有效的从信号中提取资讯,它可以通过伸缩和平移等运算功能对函数或信号进行多尺度细化分析,解决傅里叶变换不能解决的许多困难问题,因而小波变化被誉为“数学显微镜”,它是调和分析发展史上里程碑式的进展。它的正交性和多分辨分析性已经成功应用于很多领域,特别在声音信号处理领域,小波变换的的多分辨分析性已经被广泛地利用作由粗到精的逐步观察声音信号。诸多学者在这一领域进行了大量的研究,例如马宁等人用短时傅里叶变换及小波变换理论分析了强噪声背景下雷达弱信号检测方法,利用小波变换的“变焦特性”能够有效地从强噪声背景中检测到弱信号,从而将目标从噪声中检测出来。徐岩等人采用从强噪声中提取话音信号的自适应噪声抵消技术入手,对最小均方误差的性能进行了分析,针对其收敛速度慢、提取信号频带窄的缺点,提出了改进的有动量因子的自适应最小均方误差算法,对解决弱信号提取问题有一定效果。童宁宁等人分析了小波包变换的良好时频分析特性,根据信号与噪声具有不同的Lipschitz指数,通过引入子频带⑴-范数,对信号和噪声进行频谱分析,将最佳子空间的熵值及最佳子空间在完整二叉树中的位置参数作为特征量,并应用浮动阈值去噪方法,解决了低信噪比情况下的弱信号检测问题。通过计算机的数值计算,模拟了浮动阈值去噪法基于小波包变换和小波变换的强噪声背景下的弱信号检测,从仿真的波形图中得出在低信噪比情况下的弱信号检测方面小波包变换优于小波变换。在当前声音检测和识别领域中,广泛应用的理论和方法是基于统计学中假设检验的似然比检验。但是由于在实际应用中对人类有用的信息往往被淹没在强的背景声音干扰中,人类采集到数据信号一般是非平稳的,并且只有很低的信干比(信噪比)。而当传统的信号检测与识别方法在碰到信干比(信噪比)很低或非白噪声干扰或非平稳干扰声音(噪声)的时候,系统的检测性能会急剧下降,很难获得较高的检测率。
技术实现思路
为了解决上述声音检测和识别领域中的问题,从而在更低的信噪比条件下和更加复杂的信号环境下也能有效地进行声音信号的检测和识别,专利技术人利用目前热门的信号处理理论进行信号检测方面的研究,提出了一种基于声音时频域变换的声音检测算法,能够克服当前统计学中假设检验似然比检验方法的固有缺陷,提供一套有效的系统的实时声音信号检测和识别算法。本专利技术采用的技术方案如下—种声音信号检测和识别的方法,包括以下步骤步骤一,预处理过程首先利用目标声音的特征化表达方式将目标声音制作成目标模板{QJ ;接着将实时获取的原始声音信号进行分帧,每一定长度的数据分成一帧,每帧之间重叠一定的长度;同时初始化计数器i为零,初始化最终检测和识别量化结果IRi I i = 1,2,…LENGTH}的每个元素为零,初始化加权系数{a」i = 1,2,…Μ}的所有元素为零;步骤二,帧数据的特征化通过分帧后原始声音的特征化表达方式计算第i帧数据的特征向量ISJ ;步骤三,基于背景抑制的处理方式将步骤一和步骤二得到的目标模板IAJ和第 i帧数据的特征向量ISJ通过基于背景抑制的方法进行处理,以抑制第i帧数据中的背景噪音和干扰部分,从而得到处理结果序列;步骤四,信号检出的过程利用信号检出的方法对步骤三得到的处理结果序列进行信号检出,以进一步抑制背景噪声或干扰并同时补偿由于原始信号非平稳而造成的影响,从而得到检出结果序列丨《ι X = 1,2,…M};步骤五,数据融合利用数据融合的方法对检出结果序列·}《1进行加权处理,依据每一帧的数据结果和检测的即时性,从而得到一个用于判断最终结果的统一的相似度量化序列R ;步骤六,遍历每帧数据首先判断当前相似度量化序列R中是否有元素大于阈值 Τ,如果是则输出该元素的位置;然后更新计数器『=/ + 1并且重复上面步骤二到步骤六,直至遍历所有帧数据。通过以上的六个步骤后的算法输出结果就是从原始声音中检测和识别到的目标声音发生的位置。本专利技术通过上述6个重要方面对声音信号进行处理,从而得到一个最终的相似度统一量化序列,该相似度统一量化序列中的每一个元素的值与在该元素位置上发生了原始声音包含目标声音这个事件的概率成正比。我们最后通过阈值的方法对该相似度量化序列进行滤波处理,从而检测和识别该原始声音中是否有目标声音发生,并且定位该目标声音出现的位置(即发生时间)。附图说明图1是小波包变换示意图;图2是13层小波包变换以及时频域矩阵示意图;图3是步骤六得到的检测与和识别结果{ α j}图4是一种数据融合的方法中系数{ α j}的变换示意图。具体实施例方式下面结合附图对本专利技术做进一步详细描述参见图1-4,本专利技术欲解决的问题可以举出如下一个例子说明,即就是从一段有着强的环境干扰声音或噪声的原始声音中,检测其中是否有目标声音发生,并且定位该目标声音出现的位置(即发生时间)。本专利技术的方法将通过如下文提到的技术部分予以实现。1目标声音的特征化表达方式。其目的是将目标声音通过该方法制作成特征模板以供后面的检测和识别过程使用。2原始声音的分帧处理。其目的是将待检测和识别的原始声音信号数据分割成为若干具有一定相互重叠的以帧为单位的数据。3帧信号的特征化表达方式。其目的是从帧数据中提取有用的特征序列。本方法与上文提到大目标声音的特征化表达方式非常相似,都是利用相同的声音的特征化表达方法来计算该帧数据的特征序列,并将得到的特征序列提供给后面的算法使用。4基于背景抑制的信号处理方式。其目的是利用前面计算得到的目标声音特征模板和原始声音特征序列,使用本处理方法抑制原始声音中的背景干扰信号分量并增强其中的目标声音分量。5 一种信号检出方式。其目的是进一步增强背景抑制的效果,并兼顾考虑前后帧之间的影响。6—种数据融合方式。其目的是在信号检出结果的基础上,进一步增加算法的鲁棒性并同时保证算法的即时检测效率。(1)目标声音的特征化表达方式对于目标声音信号来说,其特征化表达方法亦称为目标信号的模板化。由于声音信号的频谱中包含有大量的信息,所以根据不同的频谱可以区分不同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1. 一种声音信号检测和识别的方法,其特征在于,包括以下步骤 步骤一,预处理过程首先利用目标声音的特征化表达方式将目标声音制作成目标模板{aJu= l,2r··};接着将实时获取的原始声音信号进行分帧,每一定长度的数据分成一帧,每帧之间重叠一定的长度;同时初始化计数器i为零,初始化最终检测和识别量化结果 (Ri Ii = 1,2,…LENGTH}的每个元素为零,初始化加权系数{a」i = 1,2,…M}的所有元素为零;其中LENGTH表示该待检测声音的数据长度。M表示一帧数据的长度。步骤二,帧数据的特征化通过分帧后原始声音的特征化表达方式计算第i帧数据的特征向量 ISuIu = 1,2, ···};步骤三,基于背景抑制的处理方式将步骤一和步骤二得到的目标模板IAJ和第i帧数据的特征向量{SJ通过基于背景抑制的方法进行处...

【专利技术属性】
技术研发人员:冯祖仁程欣贠光梅高紫晨刘振郭文涛
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术