基于声源定位和人脸检测的智能机器人转动方法技术

技术编号:14348293 阅读:106 留言:0更新日期:2017-01-04 18:59
本发明专利技术公开了一种基于声源定位和人脸检测的智能机器人转动方法,其包括以下步骤:步骤一,接收唤醒词并进行启动;步骤二,采用多麦克声源定位技术确定目标人的大致方向,并控制机器人头部转动到目标方向;步骤三,头部摄像头转向目标人的方向实施人脸定位技术,通过头部摄像头采集图像;步骤四,通过头部摄像头采集图像后,基于人脸检测技术进行更精准的定位,最后再转动机器人头部对准目标说话人方向。本发明专利技术不仅可以提高定位准确度,而且可以大大提高机器人与用户交互的拟人化效果。

【技术实现步骤摘要】

本专利技术涉及一种智能机器人转动方法,特别是涉及一种基于声源定位和人脸检测的智能机器人转动方法
技术介绍
在常规的拟人智能家用机器人产品中,大多头部转动都是采用预先设定的方式或者随机的方式,很难达不到拟人化的效果。少量采用多麦克的声源定位,但是受限于硬件大小、环境噪音以及算法性能,其定位精度不太高,只能检测到大致声源的方向和位置。人脸检测技术已经有非常广泛的应用,包括照相机、摄像头监控等,其优点是检测精度高,但是缺陷是镜头覆盖度有限,如果镜头所采集的图像中没有对着目标人脸,则无法检测出。基于多麦克的声源定位技术一般精度较低,只能检测到大致声源的方向,但其优点是360度全方位覆盖。现有技术对任何声音均会定位,不能区分自然界噪声,更不可能选择性的进行语音定位。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于声源定位和人脸检测的智能机器人转动方法,其不仅可以提高定位准确度,而且可以大大提高机器人与用户交互的拟人化效果。本专利技术是通过下述技术方案来解决上述技术问题的:一种基于声源定位和人脸检测的智能机器人转动方法,其特征在于,其包括以下步骤:步骤一,接收唤醒词并进行启动;步骤二,采用多麦克声源定位技术确定目标人的大致方向,并控制机器人头部转动到目标方向;步骤三,头部摄像头转向目标人的方向实施人脸定位技术,通过头部摄像头采集图像;步骤四,通过头部摄像头采集图像后,基于人脸检测技术进行更精准的定位,最后再转动机器人头部对准目标说话人方向。优选地,所述步骤一把唤醒词转换成音节,再分解成音素序列。优选地,所述步骤二采用的多麦克声源定位技术是采用基于到达时间差方法的语音定位技术。优选地,所述基于达到时间差方法分为两步,第一步计算出声源到达各个麦克风的相对时间差,第二步结合麦克风阵列的物理结构得到声源的位置。优选地,所述第一步中时延估计的准确与否,直接决定第二步定位的精度。优选地,所述时延估计采用广义互相关函数法。优选地,所述人脸定位技术是采用基于计算机视觉的人脸检测算法来实现对人脸的定位。优选地,所述人脸检测算法的原理是通过摄像头采集数字影像,对图像数据进行特征分析和提取,通过检测算法判断图像中是否包含人脸,并得到人脸的位置。本专利技术的积极进步效果在于:本专利技术将声源定位和人脸检测技术相结合,不仅可以提高定位准确度,而且可以大大提高机器人与用户交互的拟人化效果。本专利技术实现选择性启动定位,定位速度更快,精度更高,机器人交互中的拟人化效果更好。具体实施方式下面给出本专利技术较佳实施例,以详细说明本专利技术的技术方案。本专利技术基于声源定位和人脸检测的智能机器人转动方法包括以下步骤:步骤一,接收唤醒词并进行启动;把唤醒词转换成音节,再分解成音素序列,比如说,关闭电灯->guanbidiandeng->guanbidianddeng,每一个音素都对应一个声学模型,将采集的音频信号与唤醒词的音素模型进行匹配。步骤二,采用多麦克声源定位技术确定目标人的大致方向,并控制机器人头部转动到目标方向;本专利技术中采用的多麦克声源定位技术是采用基于到达时间差方法的语音定位技术。基于达到时间差方法分为两步,首先(第一步)计算出声源到达各个麦克风的相对时间差,然后(第二步)结合麦克风阵列的物理结构得到声源的位置。第一步中时延估计的准确与否,直接决定第二步定位的精度。时延估计方法种类很多,本专利技术采用广义互相关函数法。广义互相关函数法通过求两信号之间的互功率谱,并在频域内给予一定的加权来抑制噪声和反射的影响,再反变换到时域,从而得到两信号之间的互相关函数。该互相关函数峰值位置即两信号之间的相对时延。设两麦克风接收信号的模型为式(1)和(2):x1(n)=s(n)+n1(n)……………………(1)x2(n)=s(n)+n2(n)……………………(2)s(n)为原始语音,n1(n)和n2(n)为噪声信号两麦克风信号的广义互相关函数R12(τ)可表示为式(3):R12(τ)=∫0πψ12(ω)X1(ω)X2*(ω)e-jωτdω...(3)]]>其中X1(ω)和分别为x1(n)和x2(n)的傅立叶变换,ψ12为广义互相关加权函数,针对不同的噪声和反射情况,可以选择不同的加权函数。广义互相关加权函数使两麦克风信号的广义互相关函数具有比较尖锐的峰值。两麦克风信号的广义互相关函数峰值处为两麦克风之间的时延。在本专利技术中,考虑到机器人的头部为圆形,多个(一般不少于3个)麦克风的位置均匀的分布在头部的四周,形成一个圆形的麦克风阵列来测量声源不同麦克风的时间差。下面以三个麦克风为例来进行详细的说明,三个麦克风分别命名为MIC1、MIC2、MIC3,芯片负责采集这三路麦克风的声音数据并更新数据缓存。一旦从外部收到定位指令,则根据之前缓存的多路麦克风采集的语音数据,来计算不同音频数据之间的延迟采样点数,然后用采样点数/采样频率即可获得音频数据之间的时间差。在时延估计完成后,再估计声源的坐标。由于两个麦克风可以确定一个双曲线方程。三个麦克风可以确定两个双曲线方程。两个双曲线可以确定一个二维平面的坐标。计算出两个双曲线方程的交点,即为声源的坐标。步骤三,头部摄像头转向目标人的方向实施人脸定位技术,通过头部摄像头采集图像;人脸定位技术是采用基于计算机视觉的人脸检测算法来实现对人脸的定位。人脸检测算法的原理是通过摄像头采集数字影像,对图像数据进行特征分析和提取,通过检测算法判断图像中是否包含人脸,并得到人脸(可能有多个)的位置。人脸检测算法早期主要方法是模板匹配,子空间方法,变形模板匹配等。本专利技术采用的是近年比较先进成熟的基于数据驱动,机器学习的方法。作为人脸检测算法的基础,我们对一个有大量通用人像的库进行了特征分析,比如关键五官的形态和位置,脸部轮廓边缘,肤色等等。对这些大量的数据和特征进行统计,用机器学习的方法生成模型。在本专利技术应用人脸定位技术的时候,通过产品摄像头采集的到实时影像,进行特征特征提取,然后和模型进行比对分析,最后输出人脸检测的结果。人脸检测通常能输出多个结果。如果产品前方有多个人的话,人脸检测能检测出多个人脸及其对应的位置。在我们的应用场景中,选取最大的一个结果即可。因为最大的表示这个人脸距离最近,并且准确度最高。选取最大的一个结果,再计算人脸中心偏离画面中心的举例,折算成人脸偏离摄像头中轴线的角度。计算公式为式(4):偏离角度=(|人脸中心x坐标-画面中心x坐标|)*镜头广角角度/画面宽度……………………(4)如摄像头是140°广角镜头,画面分辨率为1024*768,检测到的主人脸中心坐标为(400,380),则偏离角度为:(1024/2-400)*140°/1024=15.3°。表明人脸在摄像头中轴线偏左15.3。步骤四,通过头部摄像头采集图像后,基于人脸检测技术进行更精准的定位,最后再转动机器人头部对准目标说话人方向。考虑到拟人家用机器人都是与人进行交互,本专利技术可以在确定声源大致方向的基础上,控制头部及摄像头转动到目标方向,然后通过摄像头捕捉图像,并基于人脸检测技术进行更精确的目标人定位。虽然单独的人脸本文档来自技高网...

【技术保护点】
一种基于声源定位和人脸检测的智能机器人转动方法,其特征在于,其包括以下步骤:步骤一,接收唤醒词并进行启动;步骤二,采用多麦克声源定位技术确定目标人的大致方向,并控制机器人头部转动到目标方向;步骤三,头部摄像头转向目标人的方向实施人脸定位技术,通过头部摄像头采集图像;步骤四,通过头部摄像头采集图像后,基于人脸检测技术进行更精准的定位,最后再转动机器人头部对准目标说话人方向。

【技术特征摘要】
1.一种基于声源定位和人脸检测的智能机器人转动方法,其特征在于,其包括以下步骤:步骤一,接收唤醒词并进行启动;步骤二,采用多麦克声源定位技术确定目标人的大致方向,并控制机器人头部转动到目标方向;步骤三,头部摄像头转向目标人的方向实施人脸定位技术,通过头部摄像头采集图像;步骤四,通过头部摄像头采集图像后,基于人脸检测技术进行更精准的定位,最后再转动机器人头部对准目标说话人方向。2.如权利要求1所述的基于声源定位和人脸检测的智能机器人转动方法,其特征在于,所述步骤一把唤醒词转换成音节,再分解成音素序列。3.如权利要求1所述的基于声源定位和人脸检测的智能机器人转动方法,其特征在于,所述步骤二采用的多麦克声源定位技术是采用基于到达时间差方法的语音定位技术。4.如权利要求3所述的基于声源定位和人脸检测的智能机器人转动方法,其特征在于,所...

【专利技术属性】
技术研发人员:赖伟
申请(专利权)人:上海元趣信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1