本发明专利技术公开了多音源的噪声处理方法,包括以下步骤:S1:采集实时采音设备的各通道语音信号;S2:对通道语音进行特征分析和挖掘;S3:排除采集环境噪音的麦克风通道;S4:消除串音通道中串音音源;S5:将正常音源送入语音识别系统进行识别。具有防串音过程不受环境、硬件和参与人行为的影响,通过有效的声学特征提取和串音辨识策略模型,实时识别和过滤串音通道,显著降低了串音现象的发生。显著降低了串音现象的发生。显著降低了串音现象的发生。
【技术实现步骤摘要】
多音源的噪声处理方法
[0001]本专利技术涉及噪声处理
,特别涉及多音源的噪声处理方法。
技术介绍
[0002]目前多音源的噪声处理保证高识别准确率需要诸多前提,例如发言人讲话稳定清晰明了,且能被拾音设备平稳采集,发言人需逐一讲话,多人同时发言易出现错误的识别结果,最常见的错误现象是其他人讲话的识别结果在自己识别界面上出现,实录现场环境需保持安静,使白噪音少且需有均匀的收音环境。
[0003]现有技术中噪声处理技术存在许多问题:受环境、硬件和人为影响,存在串音情况。
[0004]例如,一种在中国专利文献上公开的“用于减小光学传感器中串音的方法”,其公告号:CN101688807A,其申请日:2008年5月30日,不增大传感器的尺寸或者不增大任何可靠性风险的情况下减小了串音,但是存在受环境、硬件和人为影响的情况。
技术实现思路
[0005]针对现有技术的不足,本专利技术提出了多音源的噪声处理方法,具有防串音过程不受环境、硬件和参与人行为的影响,通过有效的声学特征提取和串音辨识策略模型,实时识别和过滤串音通道,显著降低了串音现象的发生。
[0006]以下是本专利技术的技术方案,多音源的噪声处理方法,包括以下步骤:S1:采集实时采音设备的各通道语音信号;S2:对通道语音进行特征分析和挖掘;S3:排除采集环境噪音的麦克风通道;S4:消除串音通道中串音音源;S5:将正常音源送入语音识别系统进行识别。
[0007]作为优选,所述S1存在n个采音设备,在第t时间帧的语音信号有4000个,则输出的数据是4000n的矩阵,某采音设备该时间帧采集到的数字信号
[0008]所述S2数字信号划分为200窗口大小,20窗口总数,维度为20
×
200的窗口数据,表达为512长度的矢量在对所有通道进行如上操作后,输出维度为512n的特征数据。
[0009]所述S3获取原始数字信号,分别建立功率指标判定。对某通道的声学数字信号,计算其功率对特征数据经过分类模型,输出其为噪音音源的概率若或超过阈值,无需进入后续分析步骤。
[0010]所述S4对各通道的特征数据进行相似度计算,对相似度高的通道,再通过马尔可夫过程进行数字信号的时序对齐,识别出在时间上有向后延迟的相似通道,并判定其为串
音通道,存在n个通道的特征数据对两两相似度计算,输出相似度最高的三个通道u,v,w和相似度s
u,v
、s
u,w
和s
v,w
,对u,v,w通道的原始采集到的声学数字信号进行时序对齐,判断串音通道和出现串音的概率,取每个通道在当前时间的特征数据和历史时间帧上的特征数据进行异常检测。
[0011]所述S5将正常音源送入语音识别系统进行识别,并将对应结果输出到其对应的角色通道进行显示。提高识别结果精确性和高效性。
[0012]所述判断串音通道的过程为:计算相似通道对之间相似的部分发生的时间段,并取概率最大的对齐路径,例如对齐后v通道和w通道均延后于u通道,v通道和w通道则是相对于u通道的串音通道。有效处理串音通道,提高识别结果精确性。
[0013]所述串音的概率计算方法为:某通道在该时间桢上的特征数据取K桢历史特征数据对该K+1帧的特征进行时序上的前馈记忆网络建模并输出建模结果串音的概率。计算串音的概率,在大量数据时,提高串音处理效率。
[0014]非正常音源包括环境噪声音源和串音音源,且识别结果置空。处理非正常音源,进一步减少音源污染,提高识别结果精确性。
[0015]所述相似度大于70%。使方法更具显著性,提高识别结果精确性。
[0016]本专利技术的有益效果是:具有防串音过程不受环境、硬件和参与人行为的影响,通过有效的声学特征提取和串音辨识策略模型,实时识别和过滤串音通道,显著降低了串音现象的发生。
附图说明
[0017]图1本专利技术提供的多音源的噪声处理方法流程图。
具体实施方式
[0018]下面通过实施例,并结合附图,对本专利技术的技术方案作进一步具体的说明。另外,为了更好的说明本专利技术,在下文中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本专利技术同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段未做详细描述,以便于凸显本专利技术的主旨。
[0019]实施例:如图1所示,多音源的噪声处理方法,包括以下步骤:S1:采集实时采音设备的各通道语音信号;S2:对通道语音进行特征分析和挖掘;S3:排除采集环境噪音的麦克风通道;S4:消除串音通道中串音音源;S5:将正常音源送入语音识别系统进行识别。
[0020]一桢的声音信号,一般有4000个,声音信号记录为L
in
={l1,l2...l
4000
},给定放大倍数α,最后输出给语音识别系统的声音信号为L
out
=α
·
L
in
={α
·
l1,α
·
l2...α
·
l
4000
},对某个通道的发言人在当前桢采集到的声学数字信号需K帧该发言人的历
史桢信号共K+1帧信号通过前馈记忆网络,网络经过多层前向神经网络和记忆网络,输出长度为H的表征局部声学信息特征的浮点数向量和维度为H的表征历史声学信息特征的浮点数向量二者加权激活后输出一个浮点数p=Relu(W
l
h
l
+W
g
h
g
+b),其中Relu是一种激活函数,W、b是训练好的参数,如p=0.5,则L
out
=0.5
·
L
in
,并将增益后的信号输入到语音识别服务。
[0021]步骤S1的具体操作为:采集每个麦克风实时采集到的语音数字信号,并将其传给后续的分析过程。首先将所有麦克风在当前时间桢采集到的声音信号汇集,并交由后续方法分析,综合考虑声音信号和串音处理的方法。
[0022]本实施例中,存在4个麦克风(即4个人参与实录),在第t时间帧的语音信号有4000个,则输出的数据是一个4*4000维的矩阵,每一行代表在该时间帧某麦克风采集到的数字信号。
[0023]步骤S2的具体操作为:将所有通道采集到的声学信号进行特征量化提取,该过程考虑到提取有助于表示混合音源中非串音部分信号,以便后续步骤的串音辨识和串音抑制在该过程中,为了适配不同的环境造成的串音不均匀和延时性问题,方法通过提取每个通道的多个窗口声学数字信号,并进行融合表征。
[0024]本实施例中,步骤S1输出的某个通道的数据其共有4000个数,取窗口大小为200,窗口总数为20,则将获得维度为20
×
200的窗口数据,该数据再通过特征融合,最后表达为一个长度为512的矢量在对所有通道进行如上操作后,将输出维度为512*4的特征数据。
[0025]步骤S3的具本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.多音源的噪声处理方法,其特征在于,包括以下步骤:S1:采集实时采音设备的各通道语音信号;S2:对通道语音进行特征分析和挖掘;S3:排除采集环境噪音的麦克风通道;S4:消除串音通道中串音音源;S5:将正常音源送入语音识别系统进行识别。2.根据权利要求1所述的多音源的噪声处理方法,其特征在于,所述S1存在n个采音设备,在第t时间帧的语音信号有4000个,则输出的数据是4000n的矩阵,某采音设备该时间帧采集到的数字信号3.根据权利要求2所述的多音源的噪声处理方法,其特征在于,所述S2数字信号划分为200窗口大小,20窗口总数,维度为20
×
200的窗口数据,表达为512长度的矢量在对所有通道进行如上操作后,输出维度为512n的特征数据。4.根据权利要求3所述的多音源的噪声处理方法,其特征在于,所述S3获取原始数字信号,分别建立功率指标判定。对某通道的声学数字信号,计算其功率对特征数据经过分类模型,输出其为噪音音源的概率若或超过阈值,无需进入后续分析步骤。5.根据权利要求4所述的多音源的噪声处理方法,其特征在于,所述S4对各通道的特征数据进行相似度计算,对相似度高的通道,再通过马尔可夫过程进行数字信号的时序对齐,识别出在时间上有向后延迟的相似通道,并判定其为串音通道,存在n个通道的...
【专利技术属性】
技术研发人员:麦联韬,唐海江,朱宇,袁宇豪,
申请(专利权)人:杭州云嘉云计算有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。