本发明专利技术公开了邻近位姿融合引导的单幅图像场景六自由度定位方法,首先从已标记内参和位置信息的参考图像库中检索出输入图像的一组邻近图像集;然后估计出输入图像与每一个邻近图像之间的相对位姿,并结合邻近图像的位姿,得到输入图像的一组候选位姿集;最后通过融合输入图像的候选位姿集,得到输入图像的六自由度位姿。为此,在估计输入图像与相似图像之间的相对位姿时,本发明专利技术提出了一种基于奇异值分解的快速估计算法。在融合候选位姿集时,定义了一个有效的几何误差函数,通过最小化误差函数值,得到输入图像的位置信息,其姿态信息由候选位姿的姿态信息平均计算得到。
【技术实现步骤摘要】
本专利技术涉及计算机视觉、计算机图像处理、增强现实等领域,尤其涉及邻近位姿融合引导的单幅图像场景六自由度定位方法。
技术介绍
图像的位姿信息对于很多基于位置的服务非常关键,例如旅行路线推荐、图像导览、基于位置的图像检索、增强现实场景生成、自动驾驶等。图像的六自由度位姿信息包括三个自由度的位置信息和三个自由度的姿态信息。标注图像的六自由度位姿信息是非常耗时和困难的,因此研究图像六自由度位姿信息的自动计算方法具有非常重要的意义。针对图像六自由度位姿信息的计算,现有的文献中提出了很多方法。一些方法利用了场景的三维点云模型,场景的三维点云模型往往通过在场景的大量图像上应用运动恢复结构算法重建得到。利用场景三维点云模型,这些方法将图像定位问题建模为二维图像到三维场景间的注册问题。从而通过查找输入图像上特征点与三维点云模型之间的匹配点对,并应用直接线性变换算法(direct linear transformation algorithm,简称DLT)估计出输入图像的位姿信息。在此方法流程下,这些方法主要目的在于找到尽量多的稳定的匹配点对。受益于预先重建好的三维点云模型,这些方法常常可以得到较好的结果。但是如果场景三维点云模型不存在的话,这些方法将无法发挥作用。同时重建场景的三维点云模型也是一个很耗时的过程,因而无法及时使用最新的含有位姿信息的图片数据,方法的灵活性不够。除了基于三维点云模型的工作,另外一些方法通过识别输入图像中的地标,并将地标的位置信息迁移到输入图像上,从而定位输入图像。或者检索出输入图像的一组邻近图像,并综合考虑这组邻近图像的位置信息,得到输入图像的最终位置信息。受益于识别方法或者检索方法可以处理大规模的数据,这种方法通常也可以处理大规模数据,但是这种方法只能计算出输入图像的位置信息,很难计算出输入图像的六自由度信息。
技术实现思路
本专利技术技术解决问题:针对上述技术存在的问题,提供邻近位姿融合引导的单幅图像场景六自由度定位方法,该方法直接使用包含有位姿信息的图像数据,不需要重建场景的三维点云模型,因而具有很好的灵活性。本专利技术技术解决方案:邻近位姿融合引导的单幅图像场景六自由度定位方法,对于一幅输入图像I,应用基于内容的相似图像检索方法从参考图像集中检索出一组输入图像的邻近图像集。其中参考图像集中的每张图像均标注了六自由度的位姿信息,并且已经标定了相机内参。然后,通过已标定的参考图像标定,估计出输入图像I与每个邻近图像N之间的相对位姿,结合邻近图像的位姿,得到输入图像的一组候选位姿集。最后,定义了一个几何误差函数,通过最小化该函数,融合输入图像的候选位姿集,得到输入图像的最终位置信息。输入图像的位置确定后,其姿态信息由两个候选姿态信息平均计算得到,从而完成输入图像的六自由度定位。本专利技术主要通过以下技术方案实现,如图1所示:对于一幅输入图像,首先应用视觉词袋检索算法从参考图像集中检索出一组输入图像的邻近图像集。具体来说,提取参考图像集中每个图像上的尺度变换不变特征作为局部特征,并应用k均值聚类算法计算得到视觉单词树,且建立的视觉单词树包含20000~40000个视觉描述符。利用所得到的视觉单词树,计算输入图像和参考图像集中每个图像的视觉描述文本,即每个图像的所有局部特征对于视觉单词树的每个视觉单词的统计直方图。通过计算输入图像与参考图像集中每个图像的视觉描述文本的差异,选取差异最小的15~30个参考图像作为输入图像的邻近图像。然后,估计输入图像I与每个邻近图像N之间的相对位姿,结合邻近图像的位姿,得到输入图像的候选位姿。具体来说:a)提取输入图像与邻近图像中的所有尺度变换不变特征,并寻找输入图像上的特征点与邻近图像特征点之间的匹配,从而得到一组匹配点对。b)在匹配点对中随机选取11对特征点对,使用这些特征点对,建立线性方程组,通过奇异值分解算法求解线性方程组,得到输入图像与邻近图像之间的基础矩阵。c)从得到的基础矩阵中估计出输入图像的焦距,从而得到输入图像与邻近图像之间的本征矩阵。d)使用5点算法从得到的本征矩阵中估计出输入图像与邻近图像的相对位姿,结合邻近图像的位姿,从而得到输入图像的一个候选位姿。e)重复b)到d)的过程200次,选取最好的相对位姿计算结果,选取准则为:在每个得到的相对位姿基础上,计算输入图像与邻近图像满足外极几何约束的特征匹配点对个数,个数最多的作为最终的结果。在输入图像与每个邻近图像的相对位姿基础上,比较满足外极几何约束的匹配点对个数,只选择匹配点对个数最多的两个作为输入图像的候选位姿。最后,通过定义并最小化一个几何误差,得到输入图像的最终位姿,几何误差的定义方法是:由于候选位姿只是输入图像与邻近图像的相对位姿,因此一个候选位姿只能决定输入图像的位置应该在一条直线上,多个候选位姿对应多条直线,所定义的几何误差即为输入图像位置到直线的距离平方之和;同时由于输入图像与邻近图像的位置较为接近,为了方法的稳定,增加了输入图像位置到邻近图像位置的距离平方和作为正则项。输入图像的位置确定后,其姿态信息由两个候选位姿的姿态信息平均计算得到,从而实现输入图像的六自由度定位。本专利技术与现有技术相比的优点在于:本专利技术能够直接利用含有位姿信息的图片定位输入图像,不需要重建场景的三维点云模型,具有良好的灵活性,并且所定义的几何误差函数能够有效的从一组候选位姿集中得到输入图像的最终位姿信息,从而实现单幅图像场景的六自由度定位。附图说明图1为本专利技术的总体流程示意图;图2为输入图像的邻近图像检索结果示例图;图3为通过多个融合候选位姿得到输入图像最终位姿的方法示意图;图4为部分定位结果的在三维空间中的可视化结果。具体实施方式下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。本专利技术假设已经存在一个标记好内参和六自由度位姿信息的参考图像集,对于输入图像,在参考图像集的基础上,计算其六自由度位姿信息。同时,为了能够提高方法的适用性,假设输入图像的内参未标定,且假设输入图像的内参包括焦距f和一阶径向畸变λ两个参数。在上述条件下,如图1所示,对于一幅输入图像,(1)首先使用视觉词袋检索算法从参考图像集中检索出一组输入图像的邻近图像,检索方法的具体过程包括:(11)提取参考图像集中每个图像上的尺度变换不变特征作为局部特征,并应用k均值聚类算法计算得到视觉单词树,且建立的视觉单词树包含30000个视觉描述符。(12)利用所得到的视觉单词树,计算输入图像和参考图像集中每个图像的视觉描述文本,即每个图像的所有局部特征关于视觉单词树中每个视觉单词的统计直方图。(13)通过计算输入图像与参考图像集中每个图像的视觉描述文本的差异,选取差异最小的20个参考图像作为输入图像的邻近图像。如图2所示,为3幅输入图像,及其部分邻近图像检索结果的示例图。(2)接着,在邻近图像检索结果上,估计输入图像与每个邻近图像之间的相对位姿。(21)为此,对于输入图像和每个邻近图像,先寻找他们之间的匹配点对。分别在其中提取尺度变换不变特征,对于输入图像上的一个特征点假设邻近图像上与其特征描述符的欧式距离最近的特征点为第二近的特征点为如果:那么将作为输入图像和邻近图像之间的一对匹配点,其中是特征和描述符之间的欧式距离本文档来自技高网...
【技术保护点】
邻近位姿融合引导的单幅图像场景六自由度定位方法,其特征在于实现步骤如下:步骤一、对于输入图像I,应用视觉词袋检索算法从参考图像集中检索出一组输入图像的邻近图像集,其中参考图像集中的每张图像均标注了六自由度的位姿信息,并且已经标定了相机内参;步骤二、对邻近图像集中的每个邻近图像N标定输入图像的内参,在此基础上,估计出输入图像I与每个邻近图像N之间的相对位姿,结合邻近图像的位姿,从而得到输入图像的一组候选位姿集;步骤三、定义一个几何误差函数,通过最小化几何误差函数,融合输入图像的候选位姿集,得到输入图像的最终位置信息;输入图像的位置确定后,其姿态信息由两个候选位姿的姿态信息平均计算得到,从而实现图像场景的六自由度定位。
【技术特征摘要】
1.邻近位姿融合引导的单幅图像场景六自由度定位方法,其特征在于实现步骤如下:步骤一、对于输入图像I,应用视觉词袋检索算法从参考图像集中检索出一组输入图像的邻近图像集,其中参考图像集中的每张图像均标注了六自由度的位姿信息,并且已经标定了相机内参;步骤二、对邻近图像集中的每个邻近图像N标定输入图像的内参,在此基础上,估计出输入图像I与每个邻近图像N之间的相对位姿,结合邻近图像的位姿,从而得到输入图像的一组候选位姿集;步骤三、定义一个几何误差函数,通过最小化几何误差函数,融合输入图像的候选位姿集,得到输入图像的最终位置信息;输入图像的位置确定后,其姿态信息由两个候选位姿的姿态信息平均计算得到,从而实现图像场景的六自由度定位。2.根据权利要求1所述的邻近位姿融合引导的单幅图像场景六自由度定位方法,其特征在于:所述步骤一中视觉词袋检索算法的具体实现过程包括:(11)提取参考图像集中每个图像上的尺度变换不变特征作为局部特征,并应用k均值聚类算法计算得到视觉单词树,且建立的视觉单词树包含20000~40000个视觉描述符;(12)利用所得到的视觉单词树,计算输入图像和参考图像集中每个图像的视觉描述文本,即每个图像的所有局部特征在视觉单词树上的统计直方图;(13)通过计算输入图像与参考图像集中每个图像的视觉描述文本的差异,选取差异最小的15~30个参考图像作为输入图像的邻近图像。3.根据权利要求1所述的邻近位姿融合引导的单幅图像场景六自由度定位方法,其特征在于...
【专利技术属性】
技术研发人员:陈小武,宋亚斐,李甲,赵沁平,王小刚,张宇,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。