当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于事件相机的端对端目标运动估计方法技术

技术编号:21005001 阅读:171 留言:0更新日期:2019-04-30 21:45
一种基于事件相机的端对端目标运动估计方法,涉及计算机视觉的目标运动估计。针对传统相机对目标快速运动和环境光照变化不鲁棒的缺点,提出一种基于事件相机的端对端目标帧间运动估计深度人工神经网络。由于事件相机仅产生异步的视觉事件,而所提出的深度网络需要同步的图像帧用于输入,还提出一种异步视觉事件集到同步图像帧表示的转换。该视觉事件帧能够清晰地展现所对应运动的模式,便于所提出的深度网络对这些模式的提取和识别。所提出的深度网络包含三个主要部分:开始的卷积模块用于提取视觉事件帧上的运动特征、中间的长短时记忆模块用于加速训练与压缩特征和最后的全连接层部分用于实时地预测5自由度的目标二维帧间运动。

An End-to-End Target Motion Estimation Method Based on Event Camera

【技术实现步骤摘要】
一种基于事件相机的端对端目标运动估计方法
本专利技术涉及计算机视觉的目标运动估计,尤其是涉及一种基于事件相机的端对端目标运动估计方法。
技术介绍
目标运动估计是计算机视觉领域的重要研究方向之一,它在自动驾驶、智能监控、虚拟、增强现实、异常行为检测、人机交互等领域有着重要的作用。目标运动估计所要解决的基本问题是在一个图像序列或一个图像对中选择感兴趣的目标(可以是其中包含的某个物体或者是整张图像),通过计算机视觉算法求解出目标在帧间的运动模型参数。所得到的运动模型可以进而估计目标运动轨迹或目标在下一帧的位置等目标有关的时空信息。目标运动估计目前仍然是一个颇具挑战性的问题,相关算法的性能容易受到:难以提取目标的运动特征、摄像机的快速运动、目标的非刚体变化、复杂的光照变化和目标与场景间的遮挡等现实中无法避免的不可控因素的影响。事件相机(EventCamera)是受生物视网膜运行机制启发专利技术,最近三年间在学术和工业界都得到广泛关注和快速发展的新型视觉传感器,它具有:(1)异步性:每个像素点可以单独被触发,不需要像传统相机一样同步曝光获取图像帧,取而代之的是事件相机仅在运动发生的像素上产生像素值指数级别变亮(On)和变暗(Off)的两种事件用于记载相关的运动信息。这种机制与生物的视网膜类似,所以事件相机也被称为硅视网膜。(2)非常低的响应延迟:事件相机具有非常低的响应延迟,它可以达到微秒(10-6s)级别的时间精度,所以对于事件相机来说,它几乎不可能产生普通相机在高速移动过程中所产生的运动模糊问题。(3)高动态响应范围(HDR):事件相机可以达到1000lux的动态范围,能够准确反映运动在高、低光照场景下造成的像素灰度值变化,基本不会受到场景的明暗条件影响。这些独特、优秀的特性可以有效地弥补基于传统RGB相机的目标运动估计算法在目标快速运动和低光照环境条件下的不足。基于事件相机的目标运动估计或目标追踪在计算机视觉研究领域虽然得到快速发展和广泛关注,但是由于相关研究的难度,到目前为止有价值的相关研究成果为数不多。这些研究成果基本来自国外的相关研究,国内暂时没有相关的研究出现。这些基于事件相机的目标运动估计或目标追踪的相关研究可以大致分为基于聚类算法的方法和不基于聚类算法的方法两类:第一种类型的研究包括:Litzenberger等人受均值漂移(Meanshift)启发所提出的目标运动估计方法。Piatkowska等人基于高斯混合模型(GaussianMixtureModel)提出的带遮挡的多目标运动估计、追踪方法。Camunas-Mesa等人针对运动估计中的遮挡问题,使用两个事件相机组成立体视觉系统,并提出相应的运动估计方法。Glover等人基于霍夫变换(HoughTransform)构建簇心,并使用粒子滤波(ParticleFilter)追踪簇心,进而估计目标运动的方法。第二种类型的研究包括:Liu等人在普通图像帧上构建特征,并使用事件相机数据进行跟踪,进而结合两种传感器数据进行运动估计的方法。Mitrokhin等人提出一种运动补偿(MotionCompensation)的思想,将场景运动不一致的部分的视觉事件分割出来用于目标检测和运动估计、追踪的方法。此外,Maqueda等人首先将深度人工神经网络引入基于事件相机的运动估计中,并用于端到端地回归、预测自动驾驶时方向盘的运动角度的研究。这些前驱研究都实验验证了事件相机在目标运动估计方面的优异性,同时也对更有效的基于事件相机的运动估计提出了期望。
技术实现思路
本专利技术的目的在于针对传统相机对目标快速运动和环境光照变化不鲁棒的缺点,提供一种基于事件相机的端对端目标运动估计方法。本专利技术包括以下步骤:1)给定事件相机拍摄的图像帧间由于目标运动所产生的异步视觉事件的集合,并按照事件类型将异步视觉事件分为开事件集合和闭事件集合两部分;所述事件相机(EventCamera)是模仿人类视网膜运作机制的新型视觉传感器,使用的事件相机为DAVIS240c,所述DAVIS240c可以高速、异步地捕捉场景中存在的视觉事件,所述视觉事件属于开(On)事件或闭(Off)事件的其中一种,所述开事件表示对应的像素坐标的像素值相较于前一时间点发生指数程度的增长(变亮);所述闭事件则与开事件相反,表示指数程度的下降(变暗);像素灰度变化一般由物体运动造成,所以视觉事件可以较为精确地反映物体的运动信息,每个由事件相机捕捉、记录的视觉事件可以表示为如下所示的四元组形式:其中,(uk,vk)表示该视觉事件发生在图像平面上的二维坐标,pk表示该视觉事件ek为开事件还是闭事件(对应设置为0或1),tk表示视觉事件发生时微秒级别的时间戳;因为物体运动可能同时产生开事件(像素值低于背景部分)和闭事件(像素值高于背景部分),且其互相之间不存在联系,所以将视觉事件根据开、闭属性分开,使其并行地进入之后的步骤中;2)对步骤1)中的开事件和闭事件集合分别按6.66ms的时间窗口进行分段,形成若干子异步视觉事件集合;因为事件相机是以异步的形式记录视觉事件,即每个像素可以被相应的像素值指数级别变化单独触发,没有传统相机每隔固定时间间隔所有像素同步触发形成同步图像帧的概念;若单独研究每个视觉事件没有意义,则浪费计算资源,所以需要将视觉事件集合中每隔一段采样时间间隔内所记录的视觉事件聚合起来,形成子异步视觉事件集合的形式进入后续的步骤,这里所用到的采样时间间隔设置为T;3)对步骤2)中的每一个子异步视觉事件集合,将其内部的异步视觉事件根据其时空属性投影到一个与事件相机相同尺寸的图像平面上,形成其对应的同步视觉事件帧表示;具体过程如下:假设当前子异步视觉事件集合所对应的采样阶段的开始时刻为tk,所以对应的采样时间间隔为tk到tk+T;首先,初始化一个要投影到的图像平面,该图像平面的尺寸与事件相机分辨率相同;接着,将图像平面的每个坐标的像素值都初始化为0,在投影过程中,当前采样阶段tk+i-1时刻所对应的第i个视觉事件ek+i-1将会被投影在对应二维图像平面的(uk+i-1,vk+i-1)坐标上;然后,图像(uk+i-1,vk+i-1)坐标位置的像素值按照如下所示计算并赋值为gi:gi=round(255*(tk+i-1-tk))/T)通过将时间间隔tk到tk+T内所有视觉事件投影到该事件平面,最终生成的图像帧即为tk到tk+T时刻子异步视觉事件集合所对应的同步视觉事件帧表示;在这个过程中开事件和闭事件将会被分别投影到图像的两个通道中,所以对应生成的视觉事件帧将会包含两个通道,分别对应开事件和闭事件。在视觉事件帧生成过程中,较大的运动量将会被反映为较长的相应方向的运动轨迹,便于后续基于深度人工神经网络的运动特征提取和运动参数估计;4)将步骤3)中的视觉事件帧输入包含卷积、长短时记忆和全连接模块的目标运动估计深度人工神经网络中,训练该深度网络学习回归的视觉事件帧中蕴含的5自由度二维目标相似变换运动模型参数,具体过程如下:对于任意目标o,其在第i和i+1图像帧之间的二维图像面上运动可以表示为如下的二维相似变换其中,dx和dy表示目标前后两帧间在图像平面的水平和竖直方向的位移量,θ表示目标前后两帧间的二维旋转角度,sx和sy表示目标前本文档来自技高网
...

【技术保护点】
1.一种基于事件相机的端对端目标运动估计方法,其特征在于包括以下步骤:1)给定事件相机拍摄的图像帧间由于目标运动所产生的异步视觉事件的集合,并按照事件类型将异步视觉事件分为开事件集合和闭事件集合两部分;所述事件相机是模仿人类视网膜运作机制的新型视觉传感器,使用的事件相机为DAVIS240c,所述DAVIS240c异步地捕捉场景中存在的视觉事件,所述视觉事件属于开事件或闭事件的其中一种,所述开事件表示对应的像素坐标的像素值相较于前一时间点发生指数程度的增长;所述闭事件则与开事件相反,表示指数程度的下降;像素灰度变化由物体运动造成,所以视觉事件反映物体的运动信息,每个由事件相机捕捉、记录的视觉事件表示为如下所示的四元组形式:

【技术特征摘要】
1.一种基于事件相机的端对端目标运动估计方法,其特征在于包括以下步骤:1)给定事件相机拍摄的图像帧间由于目标运动所产生的异步视觉事件的集合,并按照事件类型将异步视觉事件分为开事件集合和闭事件集合两部分;所述事件相机是模仿人类视网膜运作机制的新型视觉传感器,使用的事件相机为DAVIS240c,所述DAVIS240c异步地捕捉场景中存在的视觉事件,所述视觉事件属于开事件或闭事件的其中一种,所述开事件表示对应的像素坐标的像素值相较于前一时间点发生指数程度的增长;所述闭事件则与开事件相反,表示指数程度的下降;像素灰度变化由物体运动造成,所以视觉事件反映物体的运动信息,每个由事件相机捕捉、记录的视觉事件表示为如下所示的四元组形式:其中,(uk,vk)表示该视觉事件发生在图像平面上的二维坐标,pk表示该视觉事件ek为开事件还是闭事件,对应设置为0或1,tk表示视觉事件发生时微秒级别的时间戳;因为物体运动同时产生开事件和闭事件,开事件为像素值低于背景部分,闭事件为像素值高于背景部分,且其互相之间不存在联系,所以将视觉事件根据开、闭属性分开,使其并行地进入之后的步骤中;2)对步骤1)中的开事件和闭事件集合分别按6.66ms的时间窗口进行分段,形成若干子异步视觉事件集合;因为事件相机是以异步的形式记录视觉事件,即每个像素被相应的像素值指数级别变化单独触发,没有传统相机每隔固定时间间隔所有像素同步触发形成同步图像帧的概念;若单独研究每个视觉事件没有意义,则浪费计算资源,所以需要将视觉事件集合中每隔一段采样时间间隔内所记录的视觉事件聚合起来,形成子异步视觉事件集合的形式进入后续的步骤,这里所用到的采样时间间隔设置为T;3)对步骤2)中的每一个子异步视觉事件集合,将其内部的异步视觉事件根据其时空属性投影到一个与事件相机相同尺寸的图像平面上,形成其对应的同步视觉事件帧表示;具体过程如下:假设当前子异步视觉事件集合所对应的采样阶段的开始时刻为tk,所以对应的采样时间间隔为tk到tk+T;首先,初始化一个要投影到的图像平面,该图像平面的尺寸与事件相机分辨率相同;接着,将图像平面的每个坐标的像素值都初始化为0,在投影过程中,当前采样阶段tk+i-1时刻所对应的第i个视觉事件ek+i-1将会被投影在对应二维图像平面的(uk+i-1,vk+i-1)坐标上;然后,图像(uk+i-1,vk+i-1)坐标位置的像素值按照如下所示计算并赋值为gi:gi=round(255*(tk+i-1-tk))/T)通过将时间间隔tk到tk+T内所有视觉事件投影到该事件平面,最终生成的图像帧即为tk到tk+T时刻子异步视觉事件集合所对应的同步视觉事件帧表示;在这个过程中开事件和闭事件将会被分别投影到图像的两个通道中,所以对应生成的视觉事件帧将会包含两个通道,分别对应开事件和闭事件;在视觉事件帧生成过程中,较大的运动量将会被反映为较长的相应方向的运动轨迹,便于后续基于深度人工神经网络的运动特征提取和运动参数估计;4)将步骤3)中的视觉事件帧输入包含卷积、长短时记忆和全连接模块的目标运动估计深度人工神经网络中,训练该深度网络学习回归的视觉事件帧中蕴含的5自由度二维目标相似变换运动模型参数,具体过程如下:对于任意目标o,其在第i和i+1图像帧之间的二维图像面上运动表示为如下的二维相似变换其中,dx和dy表示目标前后两帧间在图像平面的水平和竖直方向的位移量,θ表示目标前后两帧间的二维旋转角度,sx和sy表示目标前后两帧间在图像平面的水平和竖直方向的缩放量;所以目标在图像帧间的运动是包含5个运动参数的5自由度的二维相似变换,所述5个运动参数包括两维平移、一维旋转及两维缩放;对于已经生成的视觉事件帧和上述5个要估计的运动参数,使用...

【专利技术属性】
技术研发人员:王菡子陈昊升吴强强
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1