本发明专利技术公开了一种基于麦克风阵列的语音增强降噪系统,涉及语音处理技术领域,该系统包括:麦克风,所述麦克风用于采集用户语音,所述麦克风的数量为多个且组成麦克风阵列;视觉传感器,所述视觉传感器用于采集用户位置信息,所述视觉传感器的数量为多个且组成视觉传感器阵列;控制模块,分别与麦克风和视觉传感器电性连接,用于接收麦克风和视觉传感器的数据。本发明专利技术通过设置麦克风阵列和与之配合的视觉传感器,从而可以检测人所在的位置,并增强人发出的声音,而屏蔽非人所在位置的噪音。本发明专利技术通过模块划分噪音区域和重叠语音区域,并通过三个区域内不同优先级的声音进行语音和噪音的判定,增强输出语音而屏蔽噪音。增强输出语音而屏蔽噪音。增强输出语音而屏蔽噪音。
【技术实现步骤摘要】
一种基于麦克风阵列的语音增强降噪系统
[0001]本专利技术涉及语音处理
,尤其涉及一种基于麦克风阵列的语音增强降噪系统。
技术介绍
[0002]工厂、医院等是噪声的集中区域,在工厂中,例如各种机器工作时会产生强烈的噪声,严重影响工人之间的沟通和工作效率,在医院中,在核磁共振扫描时,由于梯度切换产生强大的机械噪声,使得医生与患者的语音对讲系统受到梯度噪声强烈干扰。
[0003]随着语音处理技术的发展,语音增强,又称作语音降噪,是指从被噪声污染的信号中恢复出原始的语音信号,从而提高语音信号的可懂度和清晰度。大部分语音增强技术一般是将原始信号的功率谱和估计出的噪声信号功率谱直接相减,但是其对于噪音的检测较为粗略,尤其是针对是否为人发出的语音和非人产生的噪音判断不够准确,不利于在工厂或医院等人机共存的场合交流。
技术实现思路
[0004]本专利技术的目的是为了解决上述的问题,而提出的一种基于麦克风阵列的语音增强降噪系统。
[0005]为了实现上述目的,本专利技术采用了如下技术方案:
[0006]一种基于麦克风阵列的语音增强降噪系统,该系统包括:
[0007]麦克风,所述麦克风用于采集用户语音,所述麦克风的数量为多个且组成麦克风阵列;
[0008]视觉传感器,所述视觉传感器用于采集用户位置信息,所述视觉传感器的数量为多个且组成视觉传感器阵列;
[0009]控制模块,分别与麦克风和视觉传感器电性连接,用于接收麦克风和视觉传感器的数据。
[0010]可选地,控制模块对检测到用户所在的视觉传感器的区域定义为语音区域,并对语音区域内所有的声音标记为语音并增强输出;
[0011]对未检测到用户的区域定义为噪音区域,并对噪音区域内所有的声音标记为噪音,该噪音不包括语音区域内优先检测到的声音;
[0012]对检测到用户所在的视觉传感器之间的重叠区域定义为重叠语音区域,并对重叠语音区域内所有的语音剔除噪音区域内优先检测到的噪音;
[0013]对位于最外侧的麦克风同时监测到的声音标记为噪音。
[0014]可选地,所述视觉传感器的视觉观测范围为圆形,且观测范围内至少包括四个麦克风。
[0015]可选地,所述视觉传感器采用摄像头热红外人体传感器中的一种或多种。
[0016]可选地,所述麦克风阵列为矩形阵列,所述视觉传感器阵列为矩形阵列且分布在
麦克风阵列之间。
[0017]本专利技术具备以下优点:
[0018]本专利技术通过设置麦克风阵列和与之配合的视觉传感器,从而可以检测人所在的位置,并增强人发出的声音,而屏蔽非人所在位置的噪音。
[0019]本专利技术通过模块划分噪音区域和重叠语音区域,并通过三个区域内不同优先级的声音进行语音和噪音的判定,增强输出语音而屏蔽噪音。
[0020]本专利技术突出的特点在于,适应性广,对于非人的噪音屏蔽效果好,且在人不断走动中,视觉传感器可以根据人所在的位置不断的转换语音区域噪音区域和重叠语音区域,实现始终输出语音区域和重叠语音区域内优先级较高的语音,而屏蔽非人噪音。
附图说明
[0021]图1为本专利技术麦克风阵列和视觉传感器阵列示意图;
[0022]图2为本专利技术中语音区域、噪音区域和重叠语音区域示意图。
[0023]图中:1基板、2麦克风、3视觉传感器、3a语音区域、3b噪音区域、3c重叠语音区域。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0025]一种基于麦克风阵列的语音增强降噪系统,该系统具体如下:
[0026]参照图1,麦克风2用于采集用户语音,麦克风2的数量为多个且组成麦克风阵列分布在基板1上,
[0027]参照图1,视觉传感器3用于采集用户位置信息,视觉传感器3的数量为多个且组成视觉传感器阵列分布在基板1上,视觉传感器3采用摄像头、热红外人体传感器中的一种或多种。
[0028]参照图1,麦克风阵列为矩形阵列,视觉传感器阵列为矩形阵列且分布在麦克风阵列之间。
[0029]参照图2,每个视觉传感器3的视觉观测范围为圆形,且观测范围内至少包括四个麦克风2,参照图2所示,根据麦克风2阵列可以为四个、十二个、十六个等等。
[0030]控制模块分别与麦克风2和视觉传感器3电性连接,用于接收麦克风2和视觉传感器3的数据。
[0031]控制模块对检测到用户所在的视觉传感器3的区域定义为语音区域3a,并对语音区域3a内所有的声音标记为语音并增强输出,声音由语音区域3a内的麦克风2检测。
[0032]对未检测到用户的区域定义为噪音区域3b,并对噪音区域3b内所有的声音标记为噪音,该噪音不包括语音区域3a内优先检测到的声音。
[0033]对检测到用户所在的视觉传感器3之间的重叠区域定义为重叠语音区域,并对重叠语音区域3c内所有的语音剔除噪音区域3b内优先检测到的噪音。
[0034]对位于最外侧的麦克风2同时监测到的声音标记为噪音,值得一提的时,位于最外侧的麦克风2之间的距离不应过近,当周围噪音较大时,会使得最外侧边角处的麦克风2都能同时监测到该声音,而人正常讲话40
‑
60dB明显不能传播这么远,此时则应当将该声音作
为噪音屏蔽。假设人和噪音源均位于语音区域3a内时,通过上述噪音判定,可以避免噪音优先级比人高且同处于语音区域3a内时优先输出噪音。
[0035]上述语音区域3a、噪音区域3b和重叠语音区域3c均按照声音接收时间排列优先级,优先级越高则判定为声音距离语音区域3a越近,具体判定如下:
[0036]当语音区域3a和重叠语音区域3c内优先级最高的声音,但在噪音区域3b优先级较低时,则增强语音区域3a和重叠语音区域3c高优先级的声音;
[0037]当噪音区域3b内优先级较高的声音,但在语音区域3a和重叠语音区域3c内优先级较低时,则判定为非人发出的噪音,在后续声音输出中屏蔽;
[0038]当仅存在噪音区域3b时,屏蔽所有声音。
[0039]在人不断走动的场合,视觉传感器3可以根据人所在的位置不断的转换语音区域3a、噪音区域3b和重叠语音区域3c,实现始终输出语音区域3a和重叠语音区域3c内优先级较高的语音,而屏蔽非人噪音。
[0040]以上所述,仅为本专利技术较佳的具体实施方式,这里无法对所有的实施方式予以穷举,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,根据本专利技术的技术方案及其专利技术构思加以等同替换或改变,都应涵盖在本专利技术的保护范围之内。
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于麦克风阵列的语音增强降噪系统,其特征在于,该系统包括:麦克风(2),所述麦克风(2)用于采集用户语音,所述麦克风(2)的数量为多个且组成麦克风阵列;视觉传感器(3),所述视觉传感器(3)用于采集用户位置信息,所述视觉传感器(3)的数量为多个且组成视觉传感器阵列;控制模块,分别与麦克风(2)和视觉传感器(3)电性连接,用于接收麦克风(2)和视觉传感器(3)的数据。2.根据权利要求1所述的一种基于麦克风阵列的语音增强降噪系统,其特征在于,控制模块对检测到用户所在的视觉传感器(3)的区域定义为语音区域(3a),并对语音区域(3a)内所有的声音标记为语音并增强输出;对未检测到用户的区域定义为噪音区域(3b),并对噪音区域(3b)内所有的声音标记为噪音,该噪音不包括语音区域(3...
【专利技术属性】
技术研发人员:胡程远,
申请(专利权)人:合肥三恩信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。