一种语音数据的去混响方法及装置制造方法及图纸

技术编号:14452732 阅读:75 留言:0更新日期:2017-01-18 22:32
本发明专利技术提供一种语音数据的去混响方法,旨在频域对混响语音进行谱减操作以消除混响干扰,主要包括以下步骤:步骤a:对当前语音帧数据                                                进行快速傅里叶变换后,将得到的频谱系数进行复功率计算,其中;步骤b:利用复功率谱计算谱减增益函数,在频域中利用谱减增益函数对混响成分进行抑制;步骤c:快速傅里叶逆变换,得到时域的去除混响的加窗语音帧数据,并进行幅值补偿处理;步骤d:语音帧输出处理。本发明专利技术一种语音数据的去混响方法和装置,对混响语音进行谱减处理,实现语音混响成分的去除。同时,无需环境及信号的先验知识,无应用场景限制,计算强度较低,易于实现并可用于实时传输场合。

【技术实现步骤摘要】

本专利技术属于通讯领域,尤其基于移动通讯设备的音频处理技术。
技术介绍
众所周知,麦克风接收的信号易受到环境混响的影响。比如房间内,语音经过墙壁、天花板以及地面等反射,麦克风接收到的信号是直达的声音信号和反射声音信号的混合信号。混响会导致语音质量下降,在语音识别场景中会使系统性能显著下降。现有的去混响方法主要是基于反卷积方法来实现。其中一类方法需要提前知道混响环境的冲击响应或传递函数,然后利用这个传递函数构造一个反向滤波器来恢复原始无混响信号。显然,提前获取混响环境传递函数使该类方法在实际应用中受到很大限制。另一类是基于盲反卷积的方法,该类方法试图利用混响语音信号估计出环境传递函数进而通过反卷积运算实现去混响,该类方法需要进行环境传递函数盲估计等操作,计算强度非常大。已有技术中,申请号200810040707.X、名为“基于维纳滤波的语音去混响的消减方法”的专利,提出一种基于维纳滤波来实现的去混响方法。该方法需进行两次反卷积运算,首先利用预存的“喂”、“Hi”等纯净语音,通过维纳滤波反卷积运算得到混响环境的冲击响应,然后利用得到的混响环境冲击响应估计逆滤波器,对混响语音进行反卷积运算获得去混响的语音信号。该方法无需提前预知混响环境的冲击响应,且计算强度远低于盲反卷积方法。但是由于该方法利用维纳滤波反卷积计算混响环境冲击响应时,需依赖预存的纯净音,使得其应用场景受到很大的限制。申请号201310398174.3、名为“一种音频混响的抑制装置及其抑制方法”的专利,提出一种基于谱减思想的去混响方法。该方法需要先对混响时间进行估算,然后利用混响时间建立混响统计模型从而得到混响功率谱,再基于功率谱构建谱减函数,最后将经过谱减函数处理得到的前期语音输入复倒谱域滤波模块得到去混响语音。该方法无需进行盲反卷积,但增加了混响时间估计、混响统计模型建立、复倒谱域滤波等操作,计算强度较高。
技术实现思路
本专利技术目的在于提供一种语音数据的去混响方法,旨在频域对混响语音进行谱减操作以消除混响干扰,从而解决去混响中依赖环境传递函数以及计算复杂度较高的问题。为了实现上述专利技术目的,本专利技术的一种语音数据的去混响方法,主要包括以下步骤:步骤a:对当前语音帧数据进行快速傅里叶变换后,将得到的频谱系数进行复功率计算,其中;步骤b:利用所述复功率谱计算谱减增益函数,在频域中利用所述谱减增益函数对混响成分进行抑制;步骤c:快速傅里叶逆变换,得到时域的去除混响的加窗语音帧数据,并进行幅值补偿处理;步骤d:语音帧输出处理。优选的,上述步骤b之前还包括以下操作:将复功率谱与所述当前帧的距离在设置的时长范围内某一帧的复功率谱进行平滑处理,得到当前帧复功率谱。优选的,上述当前帧的谱减增益函数计算公式为:,其中,为到当前帧的距离在设置的时长范围内其中一帧的复功率谱,为谱减增益计算系数。优选的,上述谱减增益计算系数可通过以下公式进行计算:,其中,取值范围为[0.02,0.1],,取值范围为(0,2.5]。优选的,上述选为0.06,选为1.25,进而计算得为0.5152,选取所述当前帧的前面第二帧的复功率谱。优选的,对所述谱减增益函数进行平滑处理,得到均值谱减增益函数。利用上述均值谱减增益函数对混响成分进行谱减处理:,为去除混响成分后的频谱,其后对进行傅里叶逆变换:。优选的,在上述步骤a中,如果采用了非矩形窗的加窗分帧处理,则需进行幅值补偿处理:,其中,为去除混响的加窗语音帧数据,为加窗幅值补偿系数,为幅值补偿后得到的去混响语音帧数据。优选的,步骤a中,如果采用了矩形窗的加窗分帧处理,需要再次进行加窗处理。此外,本专利技术也提供一种语音数据的去混响装置,旨在频域对混响语音进行谱减操作以消除混响干扰,主要包括:加窗分帧预处理单元、快速傅里叶变换单元、复功率谱计算单元、谱减增益计算单元、谱减处理单元、快速傅里叶逆变换单元、幅值补偿单元,以及输出处理单元,其中,该复功率谱计算单元用于进行复功率谱的计算,以及对所述复功率谱进行平滑处理。优选的,谱减增益计算单元实现谱减增益函数的计算,以及对该谱减增益函数进行平滑处理得到均值的谱减增益函数,谱减增益函数的计算为:,其中,为当前帧的谱减增益函数,为到当前帧的距离在设置的时长范围内某帧的复功率谱,为当前帧复功率谱,为谱减增益计算系数,可通过下式进行计算:,取值范围为[0.04,0.08],,取值范围为[0.5,2.5]。优选的,谱减处理单元负责在频域消除混响成分,即通过以下公式进行处理:,其中,为谱减增益函数,为快速傅里叶变换得到的频谱,为去除混响成分后的频谱。本专利技术披露的一种语音数据的去混响方法和装置,其仅利用计算当前帧以及到当前帧的距离在设置的时长范围内若干帧的复功率谱得到的谱减增益函数,对混响语音进行谱减处理,实现语音混响成分的去除。此外,本专利技术方法无需环境及信号的先验知识,无应用场景限制,且计算强度较低,易于实现并可用于实时传输场合。附图说明图1为本专利技术去混响方法的去除语音混响的流程框图;图2为本专利技术去混响装置中实现去除语音混响的功能模块图;图3为混响语音时域波形图;图4为本专利技术实施例中去除混响后的语音时域波形图;图5为混响语音的语谱图;图6为本专利技术实施例中去除混响语音的语谱图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术实施例中的技术方案进行清楚、完整的描述。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域的技术人员所获得的所有其他实施例都属于本专利技术保护的范围。本专利技术基本原理是:基于谱减思想的语音去混响新方法,即通过在频域对混响语音数据进行复功率谱计算,对平滑后的复功率谱进行加权及平均处理得到谱减增益函数,将该谱减增益函数施加于语音帧频谱,频谱中的混响成分可以得到较好去除。将去除混响的频域数据转换到时域,得到去除混响的语音数据。图1为本专利技术去混响方法的去除语音混响的流程框图。下面结合图1,对本专利技术方法的具体实施步骤作进一步描述。步骤1加窗分帧预处理:从MIC采集语音信号,该语音信号包含说话者的直达音,也包含经过墙壁、天花板等反射传入MIC的反射音,二者共同构成待处理混响语音。对输入语音数据进行分帧处理,通过加窗处理得到待处理的语音帧数据:其中,为窗函数。窗函数是用于对信号进行截断的截取函数,常用的窗函数包括汉明窗、海宁窗、高斯窗、矩形窗等等。不同的窗函数对信号频谱的影响也不同,需要根据具体应用场景选择合适的窗函数。本专利技术实施实例中此处选用矩形窗对语音信号进行截断处理。对语音信号加窗分帧过程可以理解为使用窗函数在语音信号序列上进行滑动截取的过程,每次截取窗函数非零区域长度的语音数据进行处理,窗函数采用语音信号处理中常用的帧叠方式进行滑动,滑动步长选为半帧。具体实施过程可参照本专利技术实施实例的操作方式:窗函数长度选为640,即每次截取640个语音采样点,窗函数滑动步长选为320,也即每截取处理长度为640采样点的语音数据后,窗函数向后滑动320个采样点。这样,窗函数每次截取的640个语音数据采样点包含点来自上一帧的320个采样点和320个新数据采样点。步骤2快速傅里叶变换:对加窗处理得到的当前语音帧数据进行已知的快速傅里本文档来自技高网
...

【技术保护点】
一种语音数据的去混响方法,旨在频域对混响语音进行谱减操作以消除混响干扰,其特征在于,主要包括以下步骤:步骤a:对当前语音帧数据进行快速傅里叶变换后,将得到的频谱系数进行复功率计算,其中;步骤b:利用所述复功率谱计算谱减增益函数,在频域中利用所述谱减增益函数对混响成分进行抑制;步骤c: 快速傅里叶逆变换,得到时域的去除混响的加窗语音帧数据,并进行幅值补偿处理;步骤d:语音帧输出处理。

【技术特征摘要】
1.一种语音数据的去混响方法,旨在频域对混响语音进行谱减操作以消除混响干扰,其特征在于,主要包括以下步骤:步骤a:对当前语音帧数据进行快速傅里叶变换后,将得到的频谱系数进行复功率计算,其中;步骤b:利用所述复功率谱计算谱减增益函数,在频域中利用所述谱减增益函数对混响成分进行抑制;步骤c:快速傅里叶逆变换,得到时域的去除混响的加窗语音帧数据,并进行幅值补偿处理;步骤d:语音帧输出处理。2.根据权利要求1所述的去混响方法,其特征在于,所述步骤b之前还包括以下操作:将所述复功率谱与所述当前帧的距离在设置的时长范围内某一帧的复功率谱进行平滑处理,得到当前帧复功率谱。3.根据权利要求2所述的去混响方法,其特征在于,所述当前帧的谱减增益函数计算公式为:,其中,为到当前帧的距离在设置的时长范围内其中一帧的复功率谱,为谱减增益计算系数。4.根据权利要求3所述的去混响方法,其特征在于,所述谱减增益计算系数可通过以下公式进行计算:,其中,取值范围为[0.02,0.1],,取值范围为[0,2.5]。5.根据权利要求4所述的去混响方法,其特征在于,所述选为0.06,选为1.25,进而计算得为0.5152,选取所述当前帧的前面第二帧的复功率谱。6.根据权利要求5所述的去混响方法,其特征在于,对所述谱减增益函数进行平滑处理,得到均值谱减增益函数。7.根据权利要求6所述的去混响方法,其特征在于,利用所述均值谱减增益函数对混响成分进行谱减处理:,为去除混响成分...

【专利技术属性】
技术研发人员:韩翀蛟高可攀羊开云徐晓峰李夏宾
申请(专利权)人:深圳市潮流网络技术有限公司潮流网络有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1