一种基于深度学习的语义部件姿态估计方法技术

技术编号:39742787 阅读:9 留言:0更新日期:2023-12-17 23:42
本发明专利技术公开一种基于深度学习的语义部件姿态估计方法,提出了

【技术实现步骤摘要】
一种基于深度学习的语义部件姿态估计方法


[0001]本专利技术涉及
6D
姿态估计
,具体为一种基于深度学习的语义部件姿态估计方法


技术介绍

[0002]在城市智能化交通潮流日渐兴盛的时代潮流中,人们对自动驾驶的热情逐渐高涨,尽管如今距离真正的全自动驾驶尚有差距,汽车所搭载的自动技术只能算作辅助驾驶系统,还无法完全取代人类驾驶员,但是其技术的进步已经远超从前,现在国内外搭载激光雷达和多个摄像头的半自动驾驶汽车已经在真实道路上进行人类监督的行驶测试

我们也应该看到这种种令人激动的背后,都离不开
6D
姿态估计技术的支持,汽车自动避障

自动变道等人类驾驶员能轻易完成的动作,对于自动驾驶的汽车来说,全都离不开对周边所有物体的检测与估计,只有准确探测并知晓了周遭事物,才有可能确保汽车能够持续平安地行驶

[0003]近些年以来,各种大小型电子设备算力大致依照芯片界摩尔定律那般,近乎于成倍地快速迭代增长,得益于此,以强大算力作为支撑基础的深度学习与神经网络等方式逐渐火热起来,足够强大的算力支持使得研究者在设计神经网络模型时不再以算力为主要掣肘因素,而是能尽可能优先考虑效果优化,与之相匹配的应用者在实际应用时也能更加得心应手

目前来说,对于基于深度学习的
6D
姿态估计方法,大致可分为图像整体估计

图像关键点匹配

图像结合深度信息三种
。<br/>[0004]图像整体估计是指神经网络基于输入的
RGB
图像直接估计出视图中目标物体的
6D
位姿信息,这是一种端到端的估计过程,直接由单个网络模型一步完成整个位姿估计
。Do
等人提出了
Deep

6DPose
网络,该网络内部可分为目标物体检测分割和估计两大部分,前一部分使用区域提议网络
(Region Proposal Networks)
来将多种物体进行检测与分割,后一部分对分割之后的物体进行
6D
姿态估计,在估计时将变换矩阵内的待估参数解耦为平移参数与旋转参数,如此处理可以使旋转参数通过
Lie
代数表示来进行回归,并且该端到端网络的推断速度可达
10FPS
,能达到实际机器人的使用要求

但是
Deep

6DPose
网络由于实际上是预测区域提议网络处理过的物体对象的位姿,而非直接预测输入图像中的目标物体位姿,所以在估计小型物体或者对称物体的
6D
位姿时效果并不是十分理想

[0005]基于图像关键点匹配的方法是指建立起图像上的
2D
点与物体模型上
3D
点的映射关系,再通过一系列映射的关键点得出目标物体的位姿信息,具体来说分两个阶段,首先检测出输入图像中的二维关键点,第二阶段使用
PnP
算法计算出目标物体的
6D
姿态结果

由于提取图像关键点的步骤本就借助神经网络处理,再加上还要将检测出的关键点经由固定算法计算才能得出目标物体的位姿估计结果,故此类图像关键点匹配的方法一般来说会比图像整体估计的方法慢一些

[0006]上述两种方式主要都是应用
RGB
图像作为
6D
位姿估计网络的输入信息,但是对于越来越贴近真实场景的复杂位姿估计挑战,仅仅采用片面的图像根本无法达到比较理想可
用的位姿估计精确度,在某些相对有利的场景中,在获取目标物体图像时,是可以通过深度探测设备同时获取其深度信息的,而且就算在实际应用时无法在拍摄目标物体的图像的同时实时获取其深度信息,也可以在训练网络时以
RGB

D
数据为输入,为位姿估计网络对于分析模式的学习提供更丰富的颜色与深度信息,使得在实际推理时有更好的表现


技术实现思路

[0007]针对上述问题,本专利技术的目的在于提供一种基于深度学习的语义部件姿态估计方法,通过高质量的关键点选取方法

显著增强局部上下文信息的点云编码模块

高质量聚合全局特征的注意力机制模块和部件姿态的注意力融合机制,能更具有倾向性地利用特征更加明显的关键部件来综合提升姿态估计的效果

技术方案如下:
[0008]一种基于深度学习的语义部件姿态估计方法,包括以下步骤:
[0009]步骤1:根据现有的物体原始模型的数据集构建可用于姿态估计的部件级物体姿态估计数据集,且选取具有可分离结构的模型作为目标模型;
[0010]步骤2:考虑目标模型的几何特征信息和潜在的表面纹理信息,采用
SURF

FPS
算法选取行目标模型三维关键点;
[0011]步骤3:基于目标模型三维关键点构建物体
6D
姿态估计网络模型
CPFNet
,采用包含注意力机制的
Transformer
结构作为网络模型的架构,在
Transformer
的点云特征编码模块中对于输入的点云空间数据与相应的多维特征数据,首先进行能够代表物体部件的局部上下文特征的增强,再将增强后的各部件特征输送至注意力机制模块进总体的特征整合与提取;
[0012]并且在图像特征和点云特征的编码模块与解码模块之间加入图像与点云双向融合模块,使得
RGB
图像信息与深度点云信息融合时不仅考虑点云的空间位置,同时还充分利用前述点云特征编码模块给出的点云综合特征;
[0013]在获取包含样本所有综合特征的特征向量之后,在部件级自适应姿态回归模块中使用实例语义分割模块

实例中心点投票模块和关键点检测模块进行处理,并使用最小二乘法拟合出目标物体的姿态

[0014]更进一步的,所述步骤2具体包括:
[0015]步骤
2.1
:在视点采样球面从多角度对目标模型进行渲染,生成涵盖目标模型所有方位的图像,生成目标物体在相机坐标系中姿态的伪代码;
[0016]步骤
2.2
:在各图像中使用
SURF
算法来寻找特征明显的二维关键点,再通过渲染时产生的映射关系找出所有视角图像的二维关键点所对应的模型原始三维点;
[0017]步骤
2.3
:在筛选出的点集中通过
FPS
算法得到最终的目标模型关键点

[0018]进一步的,所述
SURF
算法具体包括:
[0019]步骤
2.2.1
:通过搜索目标模型所有尺度空间上的图像并构建
Hessian...

【技术保护点】

【技术特征摘要】
1.
一种基于深度学习的语义部件姿态估计方法,其特征在于,包括以下步骤:步骤1:根据现有的物体原始模型的数据集构建可用于姿态估计的部件级物体姿态估计数据集,且选取具有可分离结构的模型作为目标模型;步骤2:考虑目标模型的几何特征信息和潜在的表面纹理信息,采用
SURF

FPS
算法选取行目标模型三维关键点;步骤3:基于目标模型三维关键点构建物体
6D
姿态估计网络模型
CPFNet
,采用包含注意力机制的
Transformer
结构作为网络模型的架构,在
Transformer
的点云特征编码模块中对于输入的点云空间数据与相应的多维特征数据,首先进行能够代表物体部件的局部上下文特征的增强,再将增强后的各部件特征输送至注意力机制模块进总体的特征整合与提取;并且在图像特征和点云特征的编码模块与解码模块之间加入图像与点云双向融合模块,使得
RGB
图像信息与深度点云信息融合时不仅考虑点云的空间位置,同时还充分利用前述点云特征编码模块给出的点云综合特征;在获取包含样本所有综合特征的特征向量之后,在部件级自适应姿态回归模块中使用实例语义分割模块

实例中心点投票模块和关键点检测模块进行处理,并使用最小二乘法拟合出目标物体的姿态
。2.
根据权利要求1所述的基于深度学习的语义部件姿态估计方法,其特征在于,所述步骤2具体包括:步骤
2.1
:在视点采样球面从多角度对目标模型进行渲染,生成涵盖目标模型所有方位的图像,生成目标物体在相机坐标系中姿态的伪代码;步骤
2.2
:在各图像中使用
SURF
算法来寻找特征明显的二维关键点,再通过渲染时产生的映射关系找出所有视角图像的二维关键点所对应的模型原始三维点;步骤
2.3
:在筛选出的点集中通过
FPS
算法得到最终的目标模型关键点
。3.
根据权利要求2所述的基于深度学习的语义部件姿态估计方法,其特征在于,所述
SURF
算法具体包括:步骤
2.2.1
:通过搜索目标模型所有尺度空间上的图像并构建
Hessian
矩阵以识别潜在的对尺度与选择不变的极值兴趣点;首先对图像进行高斯滤波,经过滤波之后的
Hessian
矩阵如下式所示:其中,
(x,y)
表示图像
I
中的像素位置,
L
xy
(x,y,
σ
)

G(
σ
)*I(x,y)
代表图像
I
与高斯二阶混合偏导卷积所得的高斯尺度空间,
σ
表示用于卷积的高斯模版的尺度,
G(
σ
)
表示相应参数尺度的高斯二阶偏导运算,
I(x,y)
表示图像
I

(x,y)
处的值,
g(
δ
)
表示高斯模版函数;
L
xx
(x,y,
σ
)

L
yy
(x,y,
σ
)
则分别对应图像
I

x
方向和
y
方向与高斯二阶偏导进行卷积所得的高斯尺度空间;将
Hessian
矩阵判别式设置为下式:
det(H)

L
xx
*L
yy

(0.9L
xy
)2其中,
L
xx
、L
yy

L
xy
分别与
L
xx
(x,y,
σ
)、L
yy
(x,y,
σ
)

L
xy
(x,y,
σ
)
含义相同;步骤
2.2.2
:构造尺度空间,进行特征点过滤并进行精确定位;
通过比较各点与其图像域周围像素点和相邻尺度域的像素点的
det(H)
来找出极值点作为初步筛选出的特征点,再经过错误定位点和能量较弱点的剔除得到稳定特征点;步骤
2.2.3
:特征方向赋值;以稳定特征点为圆心,以
15
°
的旋转步长来统计
60
°
扇形邻域内的
Harr
小波特征,并将特征值最大的扇形方向作为特征方向;步骤
2.2.4
:生成特征描述着各特征点主方向取若干矩形子区域,并在每个子区域内部将水平和垂直主方向的若干像素点的
Harr
小波特征与其绝对值相加,并将其依照二阶高斯函数加权求和,并对每个区域内的高斯模版和特征进行卷积并归一化
。4.
根据权利要求1所述的基于深度学习的语义部件姿态估计方法,其特征在于,所述物体
6D
姿态估计网络模型
CPFNet
中具体处理步骤如下:步骤
3.1
:点云特征编码模块对于输入的点云空间数据与相应的多维特征数据,首先通过上下文特征增强子模块进行增强,使其能够代表物体部件的局部上下文特征,再将增强后的各部件特征输送至注意力机制模块进总体的特征整合与提取;步骤
3.2
:图像与点云双向融合模块将图像所蕴含的物体模型外观特征与点云所蕴含的物体模型几何特征进行相互融合,在每层编码或解码模块对样本信息进行提取与聚合之后,将进一步处理后的图像特征融入到点云特征之中,并将进一步处理后的点云特征融入到图像特征之中,令整个
Transformer
结构最后获取到综合物体模型所有信息的最终特征;步骤
3.3
:再将终特征分别传入相对独立的实例语义分割模块

中心点投票模块和关键点检测模块中,通过实例语义分割模块将场景中归属于不同目标物体实例的点分别给出语意标签,通过实例中心点投票模块给出逐点指向其归属的目标物体实例的中心点的偏移方向,通过关键点检测模块在各目标物体模块中检测出其预先选定的关键点,三个模块输出的结果共同作用并辅以
MeanSift
的中心聚类滤波和最小二乘拟合来生成最终的物体姿态估计结果
。5.
根据权利要求4所述的基于深度学习的语义部件姿态估计方法,其特征在于,所述步骤
3.1
具体包括:步骤
3.1.1
:每层的点云特征编码模块的输入均为一个
N
×
(3+C
in
)
的矩阵,其中
N
表示当前层中需要处理的点云中点的总数,
(3+C
in
)
代表点的空间坐标的维度和上一层模块中融合过
RGB
特征的点云特征的维度;步骤
3.1.2
:对所述点云进行
ORB

FPS
操作来获取具有几何特征和潜在纹理特征的子点集,即
S
×
(3+C
in
)
维度的矩阵
D0,然后将其送入上下文特征增强子模块中以提取物体模型的部件上下文特征;其中,
S
表示
ORB

FPS
操作后新的样本数量;步骤
3.1.3
:在获取整合部件语义信息的特征之后,将其输送至全局特征提取模块,此处采用的注意力模块基于采用线性注意力和核因子分解的
Lambda
注意力算法,
Atnn(Q,...

【专利技术属性】
技术研发人员:杨路欧阳东
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1