一种基于麦克风和摄像头的一体化降噪系统技术方案

技术编号:32706534 阅读:14 留言:0更新日期:2022-03-20 08:01
本实用新型专利技术公开了一种基于麦克风和摄像头的一体化降噪系统,包括采集模块、存储模块、声纹识别装置、声波处理装置、人面识别装置、终端。采集模块包括麦克风和摄像头,麦克风采集音频和声波信号,摄像头采集用户图像;存储模块存储数据;声波处理装置,根据麦克风阵列采集到的声波信号确定声音来源用户的位置;声纹识别装置,根据麦克风采集到的音频提取用户声纹特征确定目标用户的音频;人面识别装置,根据摄像头采集到的用户图像,确定正在说话的目标用户;终端,把过滤后的目标用户音频转化为文字输出到屏幕上,展示与用户的交互过程。该系统能实现在复杂的多人嘈杂环境中精准识别目标用户,并与之完成连续的交互。并与之完成连续的交互。并与之完成连续的交互。

【技术实现步骤摘要】
一种基于麦克风和摄像头的一体化降噪系统


[0001]本技术涉及语音处理领域,具体涉及一种基于麦克风和摄像头的一体化降噪系统。

技术介绍

[0002]目前服务机器人的应用越来越广泛,特别是在各种营业厅中应用,然而营业厅嘈杂的现场环境,对服务机器人的智能识别目标会话对象提出了更高的要求。当服务机器人面前有多个正在发声的用户时,传统技术无法区别其中哪个用户是激活当次会话的目标用户。目前国内的技术方案重点从音频的角度来解决上述问题,抗噪能力一般,容易被周围无关用户和噪声影响与服务机器人的交互。

技术实现思路

[0003]本技术的目的是提供一种基于麦克风和摄像头的一体化降噪系统,为了解决服务机器人在复杂的多人嘈杂环境中精准识别目标用户,并与之完成连续的交互。
[0004]本技术是通过以下技术方案来实现的:
[0005]一种基于麦克风和摄像头的一体化降噪系统,包括:
[0006]采集模块,用于采集数据,包括麦克风和摄像头;
[0007]麦克风,用于采集音频和声波信号,采用六麦环形阵列;
[0008]摄像头,用于采集用户图像;
[0009]存储模块,用于存储数据;
[0010]声波处理装置,根据麦克风阵列采集到的声波信号确定声音来源用户的位置;
[0011]声纹识别装置,根据麦克风采集到的音频提取用户声纹特征,确定目标用户的音频;
[0012]人面识别装置,根据摄像头采集到的用户图像,确定正在说话的目标用户;
[0013]终端,把过滤后的目标用户音频转化为文字输出到屏幕上,展示与用户的交互过程。
[0014]作为上述技术方案的进一步改进,所述麦克风阵列六麦环形阵列可增加麦克风数量,能更好地确定用户的位置和音频。
[0015]作为上述技术方案的进一步改进,所述麦克风阵列六麦环形阵列可改为六麦圆形阵列。
[0016]作为上述技术方案的进一步改进,所述摄像头也采用多个摄像头环形阵列,与麦克风阵列一一对齐,朝向目标用户区域。
[0017]作为上述技术方案的进一步改进,所述终端可以采用平板电脑。
[0018]作为上述技术方案的进一步改进,所述终端显示器可以采用触摸屏,使用户的交互过程更方便。
[0019]本技术的有益效果是:
[0020]本技术提供了一种基于麦克风和摄像头的一体化降噪系统,麦克风采集音频和声波信号,摄像头采集用户图像,存储模块存储数据,声波处理装置根据麦克风阵列采集到的声波信号确定声音来源用户的位置,声纹识别装置根据麦克风采集到的音频提取用户声纹特征确定目标用户的音频,人面识别装置根据摄像头采集到的用户图像确定正在说话的目标用户,终端把过滤后的目标用户音频转化为文字输出到屏幕上,展示与用户的交互过程。最终实现在复杂的多人嘈杂环境中精准识别目标用户,并与之完成连续的交互。
附图说明
[0021]为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本技术的一种基于麦克风和摄像头的一体化降噪系统的结构图。
[0023]图2为本技术的一种基于麦克风和摄像头的一体化降噪系统的声波处理装置示意图。
[0024]图3为本技术的一种基于麦克风和摄像头的一体化降噪系统的人面识别装置示意图。
具体实施方式
[0025]为使本技术的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体实施例来描述本技术,但是应该理解,这些描述只是示例性的,而并非要限制本技术的范围,此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本技术的概念。
[0026]如图1所示,本具体实施方式采用以下技术方案:它包含采集模块S10、存储模块S20、声波处理装置S30、声纹识别装置S40、人面识别装置S50和终端S60,其中采集模块S10包含麦克风S11和摄像头S12。
[0027]如采集模块S10所示,麦克风S11将采集到的音频和声波信号数据传输到存储模块S20,摄像头S12将采集到的用户图像传输到存储模块S20。
[0028]声波处理装置S30从存储模块S20提取麦克风S11采集到的声波信号,如图2所示,确定声波信号来源,即目标用户的位置,最后将目标用户的位置存储到存储模块S20中。
[0029]声纹识别装置S40从存储模块S20提取麦克风S11采集到的音频数据,根据声纹特征确定目标会话对象,避免会话受不相干语音的干扰,最后将目标用户声纹特征存储到存储模块S20中。
[0030]人面识别装置S50从存储模块S20提取摄像头S12采集到的图像,如图3所示,确定正在说话的目标用户的位置和长相,存储到存储模块S20中。
[0031]终端S60把过滤后的目标用户音频转化为文字输出到屏幕上,展示与目标会话用户的交互过程。
[0032]以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在
其他相关的
,均同理包括在本技术的专利保护范围内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于麦克风和摄像头的一体化降噪系统,其特征在于,包括:采集模块,用于采集数据,包括麦克风和摄像头;麦克风,用于采集音频和声波信号,采用六麦环形阵列;摄像头,用于采集用户图像;存储模块,用于存储数据;声波处理装置,根据麦克风阵列采集到的声波信号确定声音来源用户的位置;声纹识别装置,根据麦克风采集到的音频提取用户声纹特征,确定目标用户的音频;人面识别装置,根据摄像头采集到的用户图像,确定正在说话的目标用户;终端,把过滤后的目标用户音频转化为文字输出到屏幕上,展示与用户的交互过程。2.根据权利要求1所述的一种基于麦克风和摄像头的一体化降噪系统,其特征在于,包括:所述采集模块包括麦克风阵列和摄像头;所述麦克风阵列采用六麦环形阵列的麦克风硬件设计,所有麦克风处于同一水平面上,在目标用户区域面前呈环状分布;所述摄像头位于麦克风阵列居中的正上面,即在目标用户的前上方,朝向目标用户区域。3.根据权利要求1所述的一种基于麦克风和摄像头的一体化降噪系统,其...

【专利技术属性】
技术研发人员:梁东贵李韫莛陈光辉梁哲辉陈敏熊伟李莹欧志萍黄妃谢贤聪冯伟进杜嘉颖刘浩贤
申请(专利权)人:广东电网有限责任公司广州供电局
类型:新型
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1