一种基于个体化HRTF立体声的视觉辅助方法与设备技术

技术编号:23861460 阅读:62 留言:0更新日期:2020-04-18 14:05
本发明专利技术提供一种基于个体化HRTF立体声的视觉辅助方法,利用惯性测量单元、深度摄像头与彩色摄像头进行环境数据采集,利用小型计算机对数据进行处理得到所识别物体的类型、方向与距离,最后将描述物体类型的音频使用经个体化配置的HRTF处理为空间音效,可以用于头戴式游戏,也可以对视觉障碍人士进行方向指引的视觉辅助。相比现有的视觉辅助设备,本发明专利技术环境适用性强,便携性好,物体位置追踪连续性好,空间音效准确性高。相比复杂的语音方位描述,本发明专利技术直接将描述物体类型的简短单声道语音信号转化为具有空间感的立体声信号,在用户的听觉中生成直观的声源位置,用户无需学习复杂的语音位置描述规则,容易理解。

A vision assistant method and device based on individualized HRTF stereo

【技术实现步骤摘要】
一种基于个体化HRTF立体声的视觉辅助方法与设备
本专利技术涉及三维环境感知技术以及空间音效技术,特别涉及头相关传递函数HRTF体声的视觉辅助技术。
技术介绍
双目摄像头的视觉辅助设备主要运用双目视觉技术,使用可见光或红外波段对环境进行成像。双目视觉技术依赖于环境中纹理的复杂程度,对于简单场景,或场景有积水或镜面干扰时会失效。双目视觉技术的原理要求双摄像头在设备上安装时存在最小距离限制,且以高刷新率进行识别时其计算能力需求对于现有的便携式视觉辅助设备的供电、散热与电池容量要求高,不利于设备的防水密封与小型化、轻量化设计。传统的电子式视觉辅助设备完全依赖摄像头对物体进行识别,在物体因距离过近、短暂受到其他物体的干扰或因用户运动而离开摄像头视野时立即失去对物体的跟踪能力。使用语音提示与用户进行交互的视觉辅助设备,通常播报物体的方位、距离与类型,需要消耗大量时间,传递的信息量少,不能随用户发生的运动及时修正该播报内容,造成延迟且存在事故风险。而使用不同音色与音量进行播报的交互方式不够直观,用户需要进行学习与适应,且能够表达的方位有限。头相关传递函数(HeadRelatedTransferFunction,HRTF)是一种立体空间声音定位的处理技术,用于描述声波从声源到双耳的传输过程,是声音向我们传来时,对应于我们头部的相位与频率响应。
技术实现思路
本专利技术所要解决的技术问题是,提供一种通过环境数据采集将描述物体类型的音频使用经个体化配置的HRTF处理为空间音效的视觉辅助方法与设备。本专利技术为解决上述技术问题所采用的技术方案是,一种基于个体化HRTF立体声的视觉辅助方法,包括以下步骤:1)采集数据接收步骤:实时接收彩色摄像头输入的彩色图像、深度摄像头输入的深度图像以及惯性测量单元输入的加速度和姿态角读数;2)彩色图像的处理步骤:利用已训练完成的神经网络对彩色图像进行物体检测,识别出当前物体类型与得到物体所在的矩形边框,之后将该矩形边框的尺寸与已存储的该物体类型对应尺寸的参考值进行比对,计算得到物体到设备的粗略距离dRGB;当前物体类型为利用神经网络对彩色图像进行物体检测时输出的识别概率最高的物体类型;所述备选物体类型为识别概率较当前物体类型低的其它物体类型;3)深度图像处理步骤:计算物体在深度图像中的位置,再根据深度图像中该位置的深度信息作为物体到设备的准确距离dTOF;4)对物体类型的再次判断:判断准确距离与粗略距离之间的差值是否大于预设值,如是,进入步骤5)进行备选物体类型判断,否则,将当前物体类型作为确定的物体类型并用(∠x,∠y,dTOF)作为物体的初始相对位置,将确定的物体类型存入物体信息队列;其中,∠x,∠y为物体相对彩色摄像头的X轴偏移角度∠x与Y轴偏移角度∠y;5)备选物体类型判断步骤:在备选物体类型中选择其准确距离与粗略距离差值小于等于预设值的物体类型作为确定的物体类型并将确定的物体类型存入物体信息队列,如没有备选物体类型或者没有备选物体类型的准确距离与粗略距离差值小于等于预设值,则认为物体类型识别失败;6)绝对位置坐标生成步骤:根据姿态角读数中偏航角∠IMUyaw和俯仰角∠IMUpitch分别生成物体在X轴和Y轴上的绝对方向∠xabs和∠yabs,∠xabs=∠x+∠IMUyaw,∠yabs=∠y+∠IMUpitch,用(∠xabs,∠yabs,dTOF)作为物体的绝对位置坐标Pobj-abs,并将绝对位置坐标Pobj-abs存入物体信息队列;7)相对位置的更新步骤:当已经在物体信息队列中的物体再次被识别到时,直接使用(∠x,∠y,dTOF)作为进行更新的相对位置Pobj,并根据新的测量结果对物体信息队列存放的绝对位置进行修正,而在图像处理的帧间或该物体脱离彩色或深度摄像头工作范围的设定时间长度内,通过利用来自惯性测量单元的加速度和姿态角得到用户位置改变信息Pmove,从而计算物体当前的空间位置Pobj-now=(Pobj-abs-Pmove),再将物体当前的空间位置Pobj-now根据当前的偏航角∠IMUyaw和俯仰角∠IMUpitch进行旋转得到更新的相对位置Pobj;8)虚拟声源的生成步骤:将更新的相对位置Pobj根据存储的个体化头相关传递函数HRTF配置进行映射得虚拟声源位置P′obj,将虚拟声源位置P′obj以及物体类型作为虚拟声源信息通过立体声耳机接口输出。将上述方法通过一个小型计算机实施,从而提供一种基于个体化HRTF立体声的视觉辅助设备,包括彩色摄像头、深度摄像头、惯性测量单元、支架和带有立体声耳机接口的小型计算机,彩色摄像头、深度摄像头、惯性测量单元与带有立体声耳机接口的小型计算机均固定在支架上;彩色摄像头和深度摄像头的两个光轴相互平行,且安装于支架的前端;彩色摄像头、深度摄像头和惯性测量单元分别与小型计算机相连;小型计算机存储有训练完成的用于物体检测的神经网络、各类物体对应尺寸的参考值、个体化头相关传递函数HRTF配置信息;彩色摄像头采集彩色图像输出至小型计算机;深度摄像头采集深度图像输出至小型计算机;惯性测量单元用于采集加速度和姿态角读数输出至小型计算机。本专利技术利用惯性测量单元、深度摄像头与彩色摄像头进行环境数据采集,利用小型计算机对数据进行处理得到所识别物体的类型、方向与距离,最后将描述物体类型的音频使用经个体化配置的HRTF处理为空间音效,可以用于头戴式游戏,也可以对视觉障碍人士进行方向指引的视觉辅助。本专利技术的有益效果是,相比现有的视觉辅助设备:1.环境适用性强。由于使用的3D-TOF摄像头通过红外波段激光光源获取场景信息,该方法不存在双目视觉技术对场景中可见光波段的纹理复杂程度的要求,在简单、复杂场景均可使用,其结果也不受到环境光干扰,在白天和夜间均可使用。2.便携性好。由于结合3D-TOF与RGB摄像头对物体进行测距,该方法不存在双目视觉技术的双摄像头最小安装间距限制与同时处理两路高清视频信号的计算性能要求,设备内部结构紧凑,体积相比双目视觉技术的方案小,计算能力、散热、电力供应需求降低,提高了设备的使用时长。3.物体位置追踪连续性。由于使用惯性测量单元对用户的运动进行测量,在物体因用户运动处于摄像头所识别范围外,如在用户侧面或背面、被其他物体短暂遮挡、或在物体因观测角度原因暂时无法被识别到时,继续提供对物体的位置指示,用户无需时刻保持摄像头对准需要追踪的物体。4.易理解性。相比复杂的语音方位描述,本专利技术直接将描述物体类型的简短单声道语音信号转化为具有空间感的立体声信号,物体的位置指示直接附加在物体类型描述的音频信号上,并直接在用户的听觉中生成直观的声源位置,用户无需学习复杂的语音位置描述规则。5.运动反馈的即时性。在播放过程中该虚拟声源位置也会随着惯性测量单元获得的运动数据进行每秒大于100次的实时修正,用户不会因运动或转向而得到不及时的或错误的方向指示。6.空间音效准确性。使用基于HRTF的个体化立体声信号,HRTF本文档来自技高网...

【技术保护点】
1.一种基于个体化HRTF立体声的视觉辅助设备,其特征在于,包括彩色摄像头、深度摄像头、惯性测量单元、支架和带有立体声耳机接口的小型计算机,彩色摄像头、深度摄像头、惯性测量单元与带有立体声耳机接口的小型计算机均固定在支架上;彩色摄像头和深度摄像头的两个光轴相互平行,且安装于支架的前端;彩色摄像头、深度摄像头和惯性测量单元分别与小型计算机相连;小型计算机存储有训练完成的用于物体检测的神经网络、各类物体对应尺寸的参考值、个体化头相关传递函数HRTF配置信息;/n彩色摄像头用于采集彩色图像输出至小型计算机;/n深度摄像头用于采集深度图像输出至小型计算机;/n惯性测量单元用于采集加速度和姿态角读数输出至小型计算机;/n小型计算机用于进行以下处理:/n对彩色图像的处理:利用神经网络对彩色图像进行物体检测,识别出当前物体类型与得到物体所在的矩形边框,之后将该矩形边框的尺寸与已存储的该物体类型对应尺寸的参考值进行比对,计算得到物体到设备的粗略距离d

【技术特征摘要】
1.一种基于个体化HRTF立体声的视觉辅助设备,其特征在于,包括彩色摄像头、深度摄像头、惯性测量单元、支架和带有立体声耳机接口的小型计算机,彩色摄像头、深度摄像头、惯性测量单元与带有立体声耳机接口的小型计算机均固定在支架上;彩色摄像头和深度摄像头的两个光轴相互平行,且安装于支架的前端;彩色摄像头、深度摄像头和惯性测量单元分别与小型计算机相连;小型计算机存储有训练完成的用于物体检测的神经网络、各类物体对应尺寸的参考值、个体化头相关传递函数HRTF配置信息;
彩色摄像头用于采集彩色图像输出至小型计算机;
深度摄像头用于采集深度图像输出至小型计算机;
惯性测量单元用于采集加速度和姿态角读数输出至小型计算机;
小型计算机用于进行以下处理:
对彩色图像的处理:利用神经网络对彩色图像进行物体检测,识别出当前物体类型与得到物体所在的矩形边框,之后将该矩形边框的尺寸与已存储的该物体类型对应尺寸的参考值进行比对,计算得到物体到设备的粗略距离dRGB;当前物体类型为利用神经网络对彩色图像进行物体检测时输出的识别概率最高的物体类型;所述备选物体类型为识别概率较当前物体类型低的其它物体类型;
对深度图像的处理:计算物体在深度图像中的位置,再根据深度图像中该位置的深度信息作为物体到设备的准确距离dTOF;
对物体类型的再次判断:判断准确距离与粗略距离之间的差值是否大于预设值,如是,进行备选物体类型判断,否则,将当前物体类型作为确定的物体类型并用(∠x,∠y,dTOF)作为物体的初始相对位置,将确定的物体类型存入物体信息队列;其中,∠x,∠y为物体相对彩色摄像头的X轴偏移角度∠x与Y轴偏移角度∠y;
对备选物体类型判断:当准确距离与粗略距离之间的差值大于预设值时,在备选物体类型中选择其准确距离与粗略距离差值小于等于预设值的物体类型作为确定的物体类型并将确定的物体类型存入物体信息队列,如没有备选物体类型或者没有备选物体类型的准确距离与粗略距离差值小于等于预设值,则认为物体类型识别失败;
绝对位置坐标生成:根据姿态角读数中偏航角∠IMUyaw和俯仰角∠IMUpitch分别生成物体在X轴和Y轴上的绝对方向∠xabs和∠yabs,∠xabs=∠x+∠IMUyaw,∠yabs=∠y+∠IMUpitch,用(∠xabs,∠yabs,dTOF)作为物体的绝对位置坐标Pobj-abs,并将绝对位置坐标Pobj-abs存入物体信息队列;
相对位置的坐标生成:当已经在物体信息队列中的物体再次被识别到时,直接使用(∠x,∠y,dTOF)作为进行更新的相对位置Pobj,并根据新的测量结果对物体信息队列存放的绝对位置进行修正,而在图像处理的帧间或该物体脱离彩色或深度摄像头工作范围的设定时间长度内,通过利用来自惯性测量单元的加速度和姿态角得到用户位置改变信息Pmove,从而计算物体当前的空间位置Pobj-now=(Pobj-abs-Pmove),再将物体当前的空间位置Pobj-now根据当前的偏航角∠IMUyaw和俯仰角∠IMUpitch进行旋转得到更新的相对位置Pobj;
虚拟声源的生成:一方面将确定的物体类型的单声道音频信号载入,另一个方面将更新的相对位置Pobj根据存储的个体化头相关传递函数HRTF配置进行映射得虚拟声源位置P′obj;再将确定的物体类型的单声道音频信号与P′obj所对应的个体化HRTF频域信号相乘,得到具有空间感的立体声信号,最后将立体声信号输出到小型计算机的立体声耳机接口。


2.如权利要求1所述设备,其特征在于,小型计算机根据彩色摄像头的X轴与Y轴的视场角以及分辨率获得物体相对彩色摄像头的X轴偏移角度∠x与Y轴偏移角度∠y:



其中,物体所在的矩形边框的中心位置,xmax,ymax为彩色摄像头的分辨率,∠XFOV,∠YFOV分别为彩色摄像头的X轴与Y轴的视场角。


3.如权利要求1所述设备,其特征在于,小型计算机将矩形边框的尺寸与已存储的物体类型对应尺寸的参考值进行比对,计算得到物体到设备的粗略距离dRGB的具体方式是:计算矩形边框在图像上的半径其中(x2,y2)为矩形边框的一个边角坐标,随后将rRGB与内置数据库中对应物体类型在不同标准距离下在彩色图像上的大小依次比对并进行线性插值,从而获得物体粗略距离dRGB。


4.如权利要求1所述设备,其特征在于,小型计算机计算物体在深度图像中的位置(xTOF,yTOF)的具体方法是:



其中,∠X′FOV...

【专利技术属性】
技术研发人员:解梅张志强王方杰王源巍
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1