一种基于热力图的单幅图像室内物体姿态估计方法技术

技术编号：19858231 阅读：67 留言：0更新日期：2018-12-22 11:51

本发明专利技术属于目标姿态估计领域，公开了一种基于热力图的单幅图像室内物体姿态估计方法，所述基于热力图的物体姿态估计方法通过RPN网络提取多个目标物体的候选框；通过全卷积(FCN)网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，然后再通过使用PnP的方法计算目标物体的6D姿态估计；通过使用ShapeNet作为CAD模型库来合成大量的训练数据。本发明专利技术采用的基于热力图的物体姿态估计检测技术，具有很强的鲁棒性，可以在背景比较杂乱的室内场景和物体有部分遮挡的情况估计不同室内物体的姿态，适用范围较广，对光照不敏感而且不要求物体具有明显的纹理外观。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于热力图的单幅图像室内物体姿态估计方法
本专利技术涉及姿态估计
，特别是涉及一种基于热力图的单幅图像室内物体姿态估计方法。
技术介绍
室内场景下物体的姿态估计对于社交机器人的运动规划和虚拟现实、增强现实中的人机交互都起着重要的作用。目前在姿态估计的研究中，主要分为特征点匹配、模版匹配、稠密特征匹配和基于卷积网络端到端的方法。这些方法都存在一定的问题，在复杂的实际环境应用中表现不是十分稳定。例如基于特征点匹配的传统方法依赖于纹理来提取特征点，然后根据二维特征点计算与三维物体对应点之间的旋转与平移，因此无法处理表面光滑、纹理较少的物体；基于模版匹配的方法虽然改进了基于特征点匹配的方法，可以处理纹理较少的物体，但是对于光照和遮挡非常敏感，因此姿态估计结果时常不稳定；基于稠密特征匹配的方法直接对目标物体提取稠密特征点，再进行二维和三维对应姿态计算，由于稠密特征点的抽取需要学习样本空间的统计特性，所以比较耗时，而且通常还需要后处理(如ICP点匹配)来优化姿态估计的结果；基于卷积网络端到端的方法是最近比较流行的方法，但是该方法需要大量的训练数据，目前不管是基于分类还是直接回归的此类算法大都针对单个物体目标比较准确，对于多个目标而且在背景比较杂乱和遮挡较多的场景准确度有待提高；虽然也有学者结合端到端和传统的算法，先用CNNs预测特征点，然后用PnP方法计算姿态，但是这些方法大多是针对单个目标，因此没有考虑目标之间的遮挡情况。综上所述，现有技术存在的问题是：传统的基于特征点匹配的方法不能处理光滑无纹理的物体；基于模板匹配的方法对光照和遮挡比较敏感；基于稠密特征...

【技术保护点】
1.一种基于热力图的单幅图像室内物体姿态估计方法，其特征在于，首先通过conv5(VGG卷积神经网络的第五层卷积层)对输入的单幅RGB图像进行特征提取；再基于RPN网络提取室内场景下目标物体的候选框；然后通过FCN卷积得到每个目标物体的三维包围盒8个顶点在二维图像上对应的热力图；最后通过PnP方法计算每个目标物体和对应CAD模型之间的姿态变换矩阵即旋转矩阵和平移向量，获得物体的6D姿态；该方法中使用ShapeNet作为CAD模型库合成训练数据。

【技术特征摘要】
1.一种基于热力图的单幅图像室内物体姿态估计方法，其特征在于，首先通过conv5(VGG卷积神经网络的第五层卷积层)对输入的单幅RGB图像进行特征提取；再基于RPN网络提取室内场景下目标物体的候选框；然后通过FCN卷积得到每个目标物体的三维包围盒8个顶点在二维图像上对应的热力图；最后通过PnP方法计算每个目标物体和对应CAD模型之间的姿态变换矩阵即旋转矩阵和平移向量，获得物体的6D姿态；该方法中使用ShapeNet作为CAD模型库合成训练数据。2.根据权利要求1所述的一种基于热力图的单幅图像室内物体姿态估计方法，其特征在于，具体步骤如下：(1)将单幅RGB图像输入到conv5卷积神经网络中；利用三个3*3的卷积核进行特征提取，每个卷积核使用步长3，填充为1，将得到的结果即特征图送入RPN神经网络进行目标侯选框预测；(2)RPN神经网络使用9个锚点，大小为128*128，256*256，单位是像素，3个长宽比为1∶1的锚点，3个长宽比为1∶2的锚点，3个长宽比为2∶1的锚点，每个图像生成200个候选框，再将得到的200个候选框和步骤(1)得到的特征图送入FCN进行目标物体8个顶点对应的热力图预测；(3)FCN神经网络在每个图像的候选框中，随机选取16个图片块，确保每个图片块的所有部分都在候选框中，每个图片块的大小为7*7，如果候选框太小，就舍弃该候选框；预测每个图片块的热力图，叠加形成完整图像的热力图，包含物体三维包围盒的8个顶点在二维图像的投影；(4)使用EPnP计算出物体的6D姿态。3.根据权利要求2所述的一种基于热力图的单幅图像室内物体姿态估计方法，其特征在于，所述的步骤(3)中FCN神经网络预测每个图片块的热力图，是使用5个卷积层进行预测，最终得到目标物体顶点的8个热力图，具体包括：(1)第一个卷积层为512个3*3的卷积核，步长为1，将卷积层输出的特征图送入ReLU激活函数，将第一层卷积层的填充设为100；(2)第二个卷积层为512个3*3的卷积核，步长为1，填充为0，将卷积层输出的特征图送入ReLU激活函数；(3)第三层卷积层为512个3*3的卷积核，步长为1，填充为0，将卷积层输出的特征图送入ReLU激活函数；(4)第四层卷积层为256个1*1的卷积核，步长为1，填充为0，将卷积层输出的特征图送入ReLU激活函数；(5)第五层卷积层为8个1*1的卷积核，步长为1，填充为0，将卷积层输出的特征图送入ReLU激活函数；获得每个图片块的热力图；根据每个图像块的热力图，叠加起来形成一个完整的图像热力图，这个热力图包含物体三维包围盒的8个顶点在二维图像的投影。4.根据权利要求2所述...

【专利技术属性】
技术研发人员：刘复昌，白玉，孟凡胜，
申请(专利权)人：杭州师范大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人