一种基于热力图的单幅图像室内物体姿态估计方法技术

技术编号:19858231 阅读:67 留言:0更新日期:2018-12-22 11:51
本发明专利技术属于目标姿态估计领域,公开了一种基于热力图的单幅图像室内物体姿态估计方法,所述基于热力图的物体姿态估计方法通过RPN网络提取多个目标物体的候选框;通过全卷积(FCN)网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图,然后再通过使用PnP的方法计算目标物体的6D姿态估计;通过使用ShapeNet作为CAD模型库来合成大量的训练数据。本发明专利技术采用的基于热力图的物体姿态估计检测技术,具有很强的鲁棒性,可以在背景比较杂乱的室内场景和物体有部分遮挡的情况估计不同室内物体的姿态,适用范围较广,对光照不敏感而且不要求物体具有明显的纹理外观。

【技术实现步骤摘要】
一种基于热力图的单幅图像室内物体姿态估计方法
本专利技术涉及姿态估计
,特别是涉及一种基于热力图的单幅图像室内物体姿态估计方法。
技术介绍
室内场景下物体的姿态估计对于社交机器人的运动规划和虚拟现实、增强现实中的人机交互都起着重要的作用。目前在姿态估计的研究中,主要分为特征点匹配、模版匹配、稠密特征匹配和基于卷积网络端到端的方法。这些方法都存在一定的问题,在复杂的实际环境应用中表现不是十分稳定。例如基于特征点匹配的传统方法依赖于纹理来提取特征点,然后根据二维特征点计算与三维物体对应点之间的旋转与平移,因此无法处理表面光滑、纹理较少的物体;基于模版匹配的方法虽然改进了基于特征点匹配的方法,可以处理纹理较少的物体,但是对于光照和遮挡非常敏感,因此姿态估计结果时常不稳定;基于稠密特征匹配的方法直接对目标物体提取稠密特征点,再进行二维和三维对应姿态计算,由于稠密特征点的抽取需要学习样本空间的统计特性,所以比较耗时,而且通常还需要后处理(如ICP点匹配)来优化姿态估计的结果;基于卷积网络端到端的方法是最近比较流行的方法,但是该方法需要大量的训练数据,目前不管是基于分类还是直接回归的此类算法大都针对单个物体目标比较准确,对于多个目标而且在背景比较杂乱和遮挡较多的场景准确度有待提高;虽然也有学者结合端到端和传统的算法,先用CNNs预测特征点,然后用PnP方法计算姿态,但是这些方法大多是针对单个目标,因此没有考虑目标之间的遮挡情况。综上所述,现有技术存在的问题是:传统的基于特征点匹配的方法不能处理光滑无纹理的物体;基于模板匹配的方法对光照和遮挡比较敏感;基于稠密特征匹配的方法需要通过学习样本空间来抽取特征因此耗时而且姿态一般还需要后续优化;基于卷积网络端到端的方法对多目标和复杂场景及物体间遮挡情况还解决不好,无法满足较高准确度的应用需求。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于热力图的单幅图像室内物体姿态估计方法。为实现上述目的,本专利技术的技术方案为一种基于热力图的单幅图像室内物体姿态估计方法,首先通过conv5(VGG卷积神经网络的第五层卷积层)对输入的单幅RGB图像进行特征提取;再基于RPN网络提取室内场景下目标物体的候选框;然后通过FCN卷积得到每个目标物体的三维包围盒8个顶点在二维图像上对应的热力图;最后通过PnP方法计算每个目标物体和对应CAD模型之间的姿态变换矩阵即旋转矩阵和平移向量,获得物体的6D姿态。该方法中使用ShapeNet作为CAD模型库合成大量训练数据。具体包括以下步骤:(1)将单幅RGB图像输入到conv5卷积神经网络中;利用三个3*3的卷积核进行特征提取,每个卷积核使用步长3,填充为1,将得到的结果即特征图送入RPN神经网络进行目标侯选框预测;(2)RPN神经网络使用9个锚点,大小为128*128,256*256,单位是像素,3个长宽比为1:1的锚点,3个长宽比为1:2的锚点,3个长宽比为2:1的锚点,每个图像生成200个候选框,再将得到的200个候选框和步骤(1)得到的特征图送入FCN进行目标物体8个顶点对应的热力图预测;(3)FCN神经网络在每个图像的候选框中,随机选取16个图片块,确保每个图片块的所有部分都在候选框中,每个图片块的大小为7*7,如果候选框太小,就舍弃该候选框;预测每个图片块的热力图,叠加形成完整图像的热力图,包含物体三维包围盒的8个顶点在二维图像的投影;(4)使用EPnP计算出物体的6D姿态。上述技术方案中,步骤(3)中FCN神经网络预测每个图片块的热力图,是使用5个卷积层进行预测,最终得到目标物体顶点的8个热力图,具体包括:(1)第一个卷积层为512个3*3的卷积核,步长为1,将卷积层输出的特征图送入ReLU激活函数,将第一层卷积层的填充设为100;以确保最后结果对可以对齐;(2)第二个卷积层为512个3*3的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;(3)第三层卷积层为512个3*3的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;(4)第四层卷积层为256个1*1的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;(5)第五层卷积层为8个1*1的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;获得每个图片块的热力图;根据每个图像块的热力图,叠加起来形成一个完整的图像热力图,这个热力图包含物体三维包围盒的8个顶点在二维图像的投影。步骤(4)中EPnP预测物体的6D姿态,具体包括以下步骤:1)对于物体三维包围盒8个顶点在二维图像中的投影坐标,选取这8个点当做三维图像的坐标,在三维空间,对于每个物体默认的三维包围盒,都有一个长、宽、高为1∶1∶1的三维包围盒,通过网络训练,回归出一个新的长、宽、高的比例;2)然后再使用训练出来的新的长、宽、高的比例,求得物体三维包围盒顶点对应的三维坐标,获取8个三维的点,从而获得8个二维到三维的点对,使用opencv的solvePnP函数,计算出从物体坐标到相机做的旋转和平移向量,从而得到目标物体的姿态。其中,网络训练回归出一个新的长宽高的比例,采用如下公式:Lpose=Lproj+αLdim+βLreg公式(1)公式(1)中Lpose是网络预测的姿态和真实值的姿态之间的损失函数,Ldim用来测量三维度的真实值和网络预测值之间的损失函数,Lreg是正则项,用来防止训练时候过拟合,α、β为权重,控制不同损失的影响,公式(2)中ProjR,t(Mi)是用训练时候的真实旋转矩阵R和平移矩阵T的投影,Lproj是ProjR,t(Mi)的期望,smoothL1为损失函数,Mi为第i个三维模型的8个顶点集合,为FCN的预测值,公式(4)E表示概率中的期望值,di是真实的第i个维度,是预测的第i个维度。因为没有足够的训练数据,所以采用对二维图像数据集进行渲染的方法生成训练数据,渲染步骤如下:(1)ShapeNet渲染:使用Blender的Python渲染RGB图像、深度图像,生成相机到物体的旋转矩阵和平移向量;(2)渲染RGB图像:使用Cycles引擎,随机选取一张SUN_VOC数据集图像当做背景,根据PASCAL3D数据集每类物体的视角,用概率核密度函数估计算出对应该类物体的仰角和方位角,然后进行摄像机坐标的定位,采用的灯光类型为点光源;(3)渲染深度图像:使用Cycles引擎,用Z缓冲区算法生成从物体到影像面距离的深度图,将Blender摄像机的裁剪距离设为0.5-4m;在这个范围内的所有距离将会被线性映射到0-255的区间内。本专利技术提供的技术方案的有益效果为:本专利技术首次提出采用基于热力图的物体姿态估计检测技术,首先通过Conv5对输入的单幅RGB图像进行特征提取,得到热力图,再用RPN预测出目标物体的候选框(候选区域),然后通过FCN卷积得到每个目标物体的8个顶点对应的热力图;最后通过PnP来计算每个目标物体和对应CAD模型之间的姿态变换矩阵(旋转矩阵和平移向量)。同时通过使用ShapeNet作为CAD模型库来合成大量的不同角度训练图像,从而得到在复杂环境下识别率较高的姿态估计模型。热力图的带来的优点是:直接预测关键点的坐本文档来自技高网
...

【技术保护点】
1.一种基于热力图的单幅图像室内物体姿态估计方法,其特征在于,首先通过conv5(VGG卷积神经网络的第五层卷积层)对输入的单幅RGB图像进行特征提取;再基于RPN网络提取室内场景下目标物体的候选框;然后通过FCN卷积得到每个目标物体的三维包围盒8个顶点在二维图像上对应的热力图;最后通过PnP方法计算每个目标物体和对应CAD模型之间的姿态变换矩阵即旋转矩阵和平移向量,获得物体的6D姿态;该方法中使用ShapeNet作为CAD模型库合成训练数据。

【技术特征摘要】
1.一种基于热力图的单幅图像室内物体姿态估计方法,其特征在于,首先通过conv5(VGG卷积神经网络的第五层卷积层)对输入的单幅RGB图像进行特征提取;再基于RPN网络提取室内场景下目标物体的候选框;然后通过FCN卷积得到每个目标物体的三维包围盒8个顶点在二维图像上对应的热力图;最后通过PnP方法计算每个目标物体和对应CAD模型之间的姿态变换矩阵即旋转矩阵和平移向量,获得物体的6D姿态;该方法中使用ShapeNet作为CAD模型库合成训练数据。2.根据权利要求1所述的一种基于热力图的单幅图像室内物体姿态估计方法,其特征在于,具体步骤如下:(1)将单幅RGB图像输入到conv5卷积神经网络中;利用三个3*3的卷积核进行特征提取,每个卷积核使用步长3,填充为1,将得到的结果即特征图送入RPN神经网络进行目标侯选框预测;(2)RPN神经网络使用9个锚点,大小为128*128,256*256,单位是像素,3个长宽比为1∶1的锚点,3个长宽比为1∶2的锚点,3个长宽比为2∶1的锚点,每个图像生成200个候选框,再将得到的200个候选框和步骤(1)得到的特征图送入FCN进行目标物体8个顶点对应的热力图预测;(3)FCN神经网络在每个图像的候选框中,随机选取16个图片块,确保每个图片块的所有部分都在候选框中,每个图片块的大小为7*7,如果候选框太小,就舍弃该候选框;预测每个图片块的热力图,叠加形成完整图像的热力图,包含物体三维包围盒的8个顶点在二维图像的投影;(4)使用EPnP计算出物体的6D姿态。3.根据权利要求2所述的一种基于热力图的单幅图像室内物体姿态估计方法,其特征在于,所述的步骤(3)中FCN神经网络预测每个图片块的热力图,是使用5个卷积层进行预测,最终得到目标物体顶点的8个热力图,具体包括:(1)第一个卷积层为512个3*3的卷积核,步长为1,将卷积层输出的特征图送入ReLU激活函数,将第一层卷积层的填充设为100;(2)第二个卷积层为512个3*3的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;(3)第三层卷积层为512个3*3的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;(4)第四层卷积层为256个1*1的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;(5)第五层卷积层为8个1*1的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;获得每个图片块的热力图;根据每个图像块的热力图,叠加起来形成一个完整的图像热力图,这个热力图包含物体三维包围盒的8个顶点在二维图像的投影。4.根据权利要求2所述...

【专利技术属性】
技术研发人员:刘复昌白玉孟凡胜
申请(专利权)人:杭州师范大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1