【技术实现步骤摘要】
一种基于深度学习的语义部件姿态估计方法
[0001]本专利技术涉及
6D
姿态估计
,具体为一种基于深度学习的语义部件姿态估计方法
。
技术介绍
[0002]在城市智能化交通潮流日渐兴盛的时代潮流中,人们对自动驾驶的热情逐渐高涨,尽管如今距离真正的全自动驾驶尚有差距,汽车所搭载的自动技术只能算作辅助驾驶系统,还无法完全取代人类驾驶员,但是其技术的进步已经远超从前,现在国内外搭载激光雷达和多个摄像头的半自动驾驶汽车已经在真实道路上进行人类监督的行驶测试
。
我们也应该看到这种种令人激动的背后,都离不开
6D
姿态估计技术的支持,汽车自动避障
、
自动变道等人类驾驶员能轻易完成的动作,对于自动驾驶的汽车来说,全都离不开对周边所有物体的检测与估计,只有准确探测并知晓了周遭事物,才有可能确保汽车能够持续平安地行驶
。
[0003]近些年以来,各种大小型电子设备算力大致依照芯片界摩尔定律那般,近乎于成倍地快速迭代增长,得益于此,以强大算力作为支撑基础的深度学习与神经网络等方式逐渐火热起来,足够强大的算力支持使得研究者在设计神经网络模型时不再以算力为主要掣肘因素,而是能尽可能优先考虑效果优化,与之相匹配的应用者在实际应用时也能更加得心应手
。
目前来说,对于基于深度学习的
6D
姿态估计方法,大致可分为图像整体估计
、
图像关键点匹配
、
图像结合深度信息三种
。<
【技术保护点】
【技术特征摘要】
1.
一种基于深度学习的语义部件姿态估计方法,其特征在于,包括以下步骤:步骤1:根据现有的物体原始模型的数据集构建可用于姿态估计的部件级物体姿态估计数据集,且选取具有可分离结构的模型作为目标模型;步骤2:考虑目标模型的几何特征信息和潜在的表面纹理信息,采用
SURF
‑
FPS
算法选取行目标模型三维关键点;步骤3:基于目标模型三维关键点构建物体
6D
姿态估计网络模型
CPFNet
,采用包含注意力机制的
Transformer
结构作为网络模型的架构,在
Transformer
的点云特征编码模块中对于输入的点云空间数据与相应的多维特征数据,首先进行能够代表物体部件的局部上下文特征的增强,再将增强后的各部件特征输送至注意力机制模块进总体的特征整合与提取;并且在图像特征和点云特征的编码模块与解码模块之间加入图像与点云双向融合模块,使得
RGB
图像信息与深度点云信息融合时不仅考虑点云的空间位置,同时还充分利用前述点云特征编码模块给出的点云综合特征;在获取包含样本所有综合特征的特征向量之后,在部件级自适应姿态回归模块中使用实例语义分割模块
、
实例中心点投票模块和关键点检测模块进行处理,并使用最小二乘法拟合出目标物体的姿态
。2.
根据权利要求1所述的基于深度学习的语义部件姿态估计方法,其特征在于,所述步骤2具体包括:步骤
2.1
:在视点采样球面从多角度对目标模型进行渲染,生成涵盖目标模型所有方位的图像,生成目标物体在相机坐标系中姿态的伪代码;步骤
2.2
:在各图像中使用
SURF
算法来寻找特征明显的二维关键点,再通过渲染时产生的映射关系找出所有视角图像的二维关键点所对应的模型原始三维点;步骤
2.3
:在筛选出的点集中通过
FPS
算法得到最终的目标模型关键点
。3.
根据权利要求2所述的基于深度学习的语义部件姿态估计方法,其特征在于,所述
SURF
算法具体包括:步骤
2.2.1
:通过搜索目标模型所有尺度空间上的图像并构建
Hessian
矩阵以识别潜在的对尺度与选择不变的极值兴趣点;首先对图像进行高斯滤波,经过滤波之后的
Hessian
矩阵如下式所示:其中,
(x,y)
表示图像
I
中的像素位置,
L
xy
(x,y,
σ
)
=
G(
σ
)*I(x,y)
代表图像
I
与高斯二阶混合偏导卷积所得的高斯尺度空间,
σ
表示用于卷积的高斯模版的尺度,
G(
σ
)
表示相应参数尺度的高斯二阶偏导运算,
I(x,y)
表示图像
I
在
(x,y)
处的值,
g(
δ
)
表示高斯模版函数;
L
xx
(x,y,
σ
)
与
L
yy
(x,y,
σ
)
则分别对应图像
I
在
x
方向和
y
方向与高斯二阶偏导进行卷积所得的高斯尺度空间;将
Hessian
矩阵判别式设置为下式:
det(H)
=
L
xx
*L
yy
‑
(0.9L
xy
)2其中,
L
xx
、L
yy
和
L
xy
分别与
L
xx
(x,y,
σ
)、L
yy
(x,y,
σ
)
和
L
xy
(x,y,
σ
)
含义相同;步骤
2.2.2
:构造尺度空间,进行特征点过滤并进行精确定位;
通过比较各点与其图像域周围像素点和相邻尺度域的像素点的
det(H)
来找出极值点作为初步筛选出的特征点,再经过错误定位点和能量较弱点的剔除得到稳定特征点;步骤
2.2.3
:特征方向赋值;以稳定特征点为圆心,以
15
°
的旋转步长来统计
60
°
扇形邻域内的
Harr
小波特征,并将特征值最大的扇形方向作为特征方向;步骤
2.2.4
:生成特征描述着各特征点主方向取若干矩形子区域,并在每个子区域内部将水平和垂直主方向的若干像素点的
Harr
小波特征与其绝对值相加,并将其依照二阶高斯函数加权求和,并对每个区域内的高斯模版和特征进行卷积并归一化
。4.
根据权利要求1所述的基于深度学习的语义部件姿态估计方法,其特征在于,所述物体
6D
姿态估计网络模型
CPFNet
中具体处理步骤如下:步骤
3.1
:点云特征编码模块对于输入的点云空间数据与相应的多维特征数据,首先通过上下文特征增强子模块进行增强,使其能够代表物体部件的局部上下文特征,再将增强后的各部件特征输送至注意力机制模块进总体的特征整合与提取;步骤
3.2
:图像与点云双向融合模块将图像所蕴含的物体模型外观特征与点云所蕴含的物体模型几何特征进行相互融合,在每层编码或解码模块对样本信息进行提取与聚合之后,将进一步处理后的图像特征融入到点云特征之中,并将进一步处理后的点云特征融入到图像特征之中,令整个
Transformer
结构最后获取到综合物体模型所有信息的最终特征;步骤
3.3
:再将终特征分别传入相对独立的实例语义分割模块
、
中心点投票模块和关键点检测模块中,通过实例语义分割模块将场景中归属于不同目标物体实例的点分别给出语意标签,通过实例中心点投票模块给出逐点指向其归属的目标物体实例的中心点的偏移方向,通过关键点检测模块在各目标物体模块中检测出其预先选定的关键点,三个模块输出的结果共同作用并辅以
MeanSift
的中心聚类滤波和最小二乘拟合来生成最终的物体姿态估计结果
。5.
根据权利要求4所述的基于深度学习的语义部件姿态估计方法,其特征在于,所述步骤
3.1
具体包括:步骤
3.1.1
:每层的点云特征编码模块的输入均为一个
N
×
(3+C
in
)
的矩阵,其中
N
表示当前层中需要处理的点云中点的总数,
(3+C
in
)
代表点的空间坐标的维度和上一层模块中融合过
RGB
特征的点云特征的维度;步骤
3.1.2
:对所述点云进行
ORB
‑
FPS
操作来获取具有几何特征和潜在纹理特征的子点集,即
S
×
(3+C
in
)
维度的矩阵
D0,然后将其送入上下文特征增强子模块中以提取物体模型的部件上下文特征;其中,
S
表示
ORB
‑
FPS
操作后新的样本数量;步骤
3.1.3
:在获取整合部件语义信息的特征之后,将其输送至全局特征提取模块,此处采用的注意力模块基于采用线性注意力和核因子分解的
Lambda
注意力算法,
Atnn(Q,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。