本发明专利技术公开了一种语音信号相似度检测方法,包括以下步骤:步骤1、将基准通道中基准语音信号和待测通道中待测语音信号均提取得到N段语音片段,对N段基准语音信号的语音片段和N段待测语音信号的语音片段分别进行排序,并使N段基准语音信号的语音片段与N段待测语音信号的语音片段一一对应;步骤2、逐一计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度;步骤3、待N段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度均计算完成后,采用累积平均值计算方法计算累积相似度平均值。本发明专利技术应用时能提升检测待测通道相对于基准通道的语音相似度的准确率,进而便于在衡量待测通道性能方面进行推广应用。
【技术实现步骤摘要】
本专利技术涉及音频处理
,具体是一种语音信号相似度检测方法。
技术介绍
音频是多媒体应用的一种重要媒体,人们能听见的音频信号的频率范围大约在20Hz~20kHz,而其中语音信号大约分布在300Hz~4kHz之内。在音频信号的传输过程中常常会涉及信号传输通道性能的检测,目前人们普遍通过检测待测通道与基准通道两者语音片段相似度来测试待测通道的性能。采用现有方式检测语音片段相似度时,受偶发性噪声干扰的影响,检测的准确率较低,衡量待测通道性能时参考意义不大。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供了一种语音信号相似度检测方法,其能提升检测待测通道相对于基准通道的语音相似度的准确率,进而便于在衡量待测通道性能方面进行推广应用。本专利技术的目的主要通过以下技术方案实现:一种语音信号相似度检测方法,包括以下步骤:步骤1、将基准通道中基准语音信号和待测通道中待测语音信号均提取得到N段语音片段,对N段基准语音信号的语音片段和N段待测语音信号的语音片段分别进行排序,并使N段基准语音信号的语音片段与N段待测语音信号的语音片段一一对应;其中,N为不小于2的整数;步骤2、逐一计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度;步骤3、待N段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度均计算完成后,采用累积平均值计算方法计算累积相似度平均值。本专利技术通过对语音信号连续采集,获取连续片段,取片段相似度的累积算术平均值,以抵消偶发性噪声干扰。进一步的,所述步骤1中提取基准语音信号和待测语音信号两者的语音片段时包括以下步骤:步骤1.1、分帧,其中,每帧语音信号对应一段语音片段;步骤1.2、加矩形窗形成加窗信号,计算短时平均过零率;步骤1.3、计算短时能量,并调整能量门限;步骤1.4、端点检测,并提取语音片段。语音信号是连续的信号,本专利技术通过分帧将一次接收到的一大块语音信号分割成多个小块语音信号进行处理。本专利技术通过计算短时平均过零率(即计算每帧内信号通过零值的次数)来反应频率信息,得到频谱特性。因语音信号的能量随时间变化较明显,而短时能量能有效的判断信号幅度的大小,故本专利技术通过计算短时能量,用于有声或无声的判断。因语音信号的能量随时间变化比较明显,故本专利技术在判断信号是有声还是无声时,对每帧的信号门限做出了相应的调整。本专利技术在端点检测时,具体根据步骤1.2中计算的短时平均过零率和步骤1.3中计算的短时能量,与每帧数据做比较来判断是否是语音信号。进一步的,所述步骤1.2中计算短时平均过零率的公式为:Zn=12Σm=-∞∞|sgn[x(m)]-sgn[x(m-1)]|]]>其中,Zn为短时平均过零率,m为经矩形窗处理后数据的索引,n为原始信号数据索引,x(m)为经过加窗处理后的信号。进一步的,所述步骤1.3中计算短时能量的公式为:En=Σm=nn+Q-1x2(m)]]>其中,En为短时能量,Q为窗函数的长度。进一步的,所述步骤1.3中调整能量门限的公式如下:a其中,amp1为能量门限的上限值,amp2为能量门限的下限值。本专利技术在调整能量门限时,限定上限值为10与max(En)/4中的较小值,下限值为2与max(En)/8中的较小值,低于下限的情况,则认定为静音,高于上限的情况,则认定为偶发的噪声。进一步的,所述步骤2中计算相似度包括以下步骤:步骤2.1、对待测语音信号的语音片段及其对应的基准语音信号的语音片段均进行FFT变换;步骤2.2、计算功率;步骤2.3、计算相似度。语音信号是时域信号,本专利技术通过FFT变换以获得时域信号的频谱特性,进而获得语音信号的频率,相位,功率等特性。进一步的,所述步骤2.1中FFT变换的公式如下:X(k)=Σn=0M-1x(n)*e-i2πkn/M]]>其中,X(k)为经过FFT变换后的数据,k为经FFT变换后数据索引,x(n)为原始数据,n为原始信号数据索引,i为虚数,M为变换数据的个数。进一步的,所述步骤2.2计算功率的公式如下:Ps(ω)=limT→∞|X(k)|2T]]>其中,T为信号数据长度,Ps(ω)为语音片段音频数据点所对应的功率。进一步的,所述步骤2中计算语音片段相似度的公式如下:S=(Σi=1N(Xi-X‾)*(Yi-Y‾))÷(Σi=1N(Xi-X‾)2)*(Σi=1N(Yi-Y‾)2)]]>其中,S为语音片段相似度,i表示语音片段,Xi为基准语音信号第i段语音片段音频数据点所对应的功率,Yi为待测语音信号第i段语音片段音频数据点所对应的功率,为基准语音信号的平均功率,为待测语音信号的平均功率。进一步的,所述步骤3中所述累积平均值计算方法采用的公式如下:S‾=(Σi=1NSi)/N.]]>综上所述,本专利技术具有以下有益效果:本专利技术应用时先通过将基准通道中基准语音信号和待测通道中待测语音信号均分为N段语音片段,再计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度,然后计算累积相似度平均值,所获得的相似度值为多次检测相似度的累积平均值,其能降低偶发性噪声干扰的影响,检测值更接近于真实值,能提升检测待测通道相对于基准通道的语音相似度的准确率,进而便于在衡量待测通道性能方面进行推广应用。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:图1为本专利技术一个具体实施例的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例:如图1所示,一种语音信号相似度检测方法,包括以下步骤:步骤1、将基准通道中基准语音信号和待测通道中待测语音信号均提取得到N段语音片段,对N段基准语音信号的语音片段和N段待测语音信号的语音片段分别进行排序,并使N段基准语音信号的语音片段与N段待测语音信号的语音片段一一对应;其中,N为不小于2的整数;步骤2、逐一计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度;步骤3、待N段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度均计算完成后,采用累积平均值计算方法计算累积相似度平均值。本实施例步骤1中提取基准语音信号和待测语音信号两者的语音片段时包括以下步骤:步骤1.1、分帧,其中,每帧语音信号对应一段语音片段;步骤1.2、加矩形窗形成加窗信号,计算短时平均过零率;步骤1.3、计算短时能量,并调整能量门限;步骤1.4、端点检测,并提取语音片段。本实施例步骤1.4中端点检测具体操作步骤为:根据步骤1.2中计算的短时平均过零率和步骤1.3中计算的短时能量,对这每个片段做判断,超过平均过零率且在能量门限范围内的,则为语音片段,多个连续的语音片段组合在一起,就能获得一大块信号的语音。本实施例本文档来自技高网...
【技术保护点】
一种语音信号相似度检测方法,其特征在于,包括以下步骤:步骤1、将基准通道中基准语音信号和待测通道中待测语音信号均提取得到N段语音片段,对N段基准语音信号的语音片段和N段待测语音信号的语音片段分别进行排序,并使N段基准语音信号的语音片段与N段待测语音信号的语音片段一一对应;其中,N为不小于2的整数;步骤2、逐一计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度;步骤3、待N段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度均计算完成后,采用累积平均值计算方法计算累积相似度平均值。
【技术特征摘要】
1.一种语音信号相似度检测方法,其特征在于,包括以下步骤:步骤1、将基准通道中基准语音信号和待测通道中待测语音信号均提取得到N段语音片段,对N段基准语音信号的语音片段和N段待测语音信号的语音片段分别进行排序,并使N段基准语音信号的语音片段与N段待测语音信号的语音片段一一对应;其中,N为不小于2的整数;步骤2、逐一计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度;步骤3、待N段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度均计算完成后,采用累积平均值计算方法计算累积相似度平均值。2.根据权利要求1所述的一种语音信号相似度检测方法,其特征在于,所述步骤1中提取基准语音信号和待测语音信号两者的语音片段时包括以下步骤:步骤1.1、分帧,其中,每帧语音信号对应一段语音片段;步骤1.2、加矩形窗形成加窗信号,计算短时平均过零率;步骤1.3、计算短时能量,并调整能量门限;步骤1.4、端点检测,并提取语音片段。3.根据权利要求2所述的一种语音信号相似度检测方法,其特征在于,所述步骤1.2中计算短时平均过零率的公式为:Zn=12Σm=-∞∞|sgn[x(m)]-sgn[x(m-1)]|]]>其中,Zn为短时平均过零率,m为经矩形窗处理后数据的索引,n为原始信号数据索引,x(m)为经过加窗处理后的信号。4.根据权利要求3所述的一种语音信号相似度检测方法,其特征在于,所述步骤1.3中计算短时能量的公式为:En=Σm=nn+Q-1x2(m)]]>其中,En为短时能量,Q为窗函数的长度。5.根据权利要求4所述的一种语音信号相似度检测方法,其特征在于,所述步骤1.3中调整能量门限的公式如下:其中,amp1为能量门限的上限值,amp2为能量门...
【专利技术属性】
技术研发人员:张洪英,张杰良,成立然,郑泽俊,
申请(专利权)人:成都普创通信技术股份有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。