基于LTC-DNN的视觉惯导组合导航系统与自学习方法技术方案

技术编号:30047895 阅读:25 留言:0更新日期:2021-09-15 10:49
本发明专利技术公开了一种基于LTC

【技术实现步骤摘要】
基于LTC

DNN的视觉惯导组合导航系统与自学习方法


[0001]本专利技术涉及传感器融合和运动估计
,具体涉及一种基于LTC

DNN的视觉惯导组合导航系统与自学习方法。

技术介绍

[0002]随着自动驾驶、无人机的不断发展,实现高精度、高鲁棒性的定位是完成自主导航、探索未知区域的等任务的重要前提,纯视觉里程计方法,利用视觉传感器获取周围的环境信息,通过对视觉数据进行分析,估计运动状态,但是一旦场景中出现遮挡物或者由于数据传输的原因导致视觉数据丢失,运动状态的估计无疑为受到很严重的干扰,误差会原来越大。视觉惯导里程计在纯视觉里程计的基础上添加和惯性测量单元(IMU)信息,可以在视觉失去作用的情况下来提高运动状态估计的精度。
[0003]近年来,深度学习技术在计算机视觉领域取得了巨大成就,广泛应用于各个领域中。视觉惯导组合导航作为一项回归任务,同样可以采用深度学习的方法进行训练,但是现有的基于深度学习的视觉惯导组合导航算法在训练过程中,受限于真实标签数量,泛化能力较弱;同时现有的基于深度学习的视觉惯导组合导航任务中需要大量的可训练参数,对其实际应用有着十分巨大的影响。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于LTC

DNN的视觉惯导组合导航系统与自学习方法。
[0005]本专利技术的第一个目的可以通过采取如下技术方案达到:
[0006]一种基于LTC

>DNN的视觉惯导组合导航系统,该视觉惯导组合导航系统用于自动驾驶、无人机的自主导航,所述视觉惯导组合导航系统包括深度学习网络模型,所述深度学习网络模型由依次顺序连接的视觉特征提取模块、惯导特征提取模块、位姿回归模块组成,其中,
[0007]所述视觉特征提取模块用于提取1024维视觉特征,所述视觉特征提取模块的输入为沿着通道叠加的相邻两帧RGB图片,输出1024维视觉特征;
[0008]所述惯导特征提取模块包括1024维隐藏状态的第一单层LTC

RNN;所述惯导特征提取模块的输入为所述相邻两帧RGB图片之间的惯导数据,输出为1024维惯导特征;
[0009]所述位姿回归模块包括依照顺序连接的注意力机制融合子模块、1000维隐藏状态的第二单层LTC

RNN、全连接回归子模块,其中,注意力机制融合子模块的输入是视觉特征和惯导特征串联得到的串联特征,用于对视觉特征及惯导特征进行加权得到加权融合特征;第二单层LTC

RNN的输入是加权融合特征,输出回归特征;全连接回归子模块的输入是回归特征,输出相对位移、相对旋转的估计。
[0010]进一步地,所述视觉特征提取模块由10层卷积神经网络顺序堆叠而成,10层卷积神经网络中前三层卷积神经网络的卷积核大小依次是7
×
7、5
×
5、5
×
5,后面七层卷积神经
网络的卷积核大小均是3
×
3,其中,第四层、第六层和第八层卷积神经网络的卷积步长为1,其余卷积神经网络的卷积步长为2;10层卷积神经网络都使用ReLU激活函数。
[0011]进一步地,所述RGB图片在输入特征提取模块前转换成416
×
128的尺寸。
[0012]进一步地,所述第一单层LTC

RNN和第二单层LTC

RNN的计算公式如下:
[0013][0014]h(t)为当前时刻LTC

RNN的隐藏状态,τ为常量时间常数,Δt为时间步长,x(t)为当前时刻的输入数据,f(h(t),x(t),t,θ)为深度学习网络,θ为其可训练参数,t为当前时刻,第一单层LTC

RNN和第二单层LTC

RNN的计算方式在每次计算的开始阶段将数据x(t)和h(t)输入至上述计算公式中,将该公式的当前输出h(t+Δt)作为下次该公式的输入h(t)继续进行计算,并重复执行6次;将第6次的输出h(t+Δt)作为第一单层LTC

RNN和第二单层LTC

RNN的计算结果。
[0015]进一步地,所述注意力机制融合子模块包括两个相同结构的子网络,每个子网络由两层全连接网络叠加而成,第一层全连接网络维度为2048,后接ReLU激活函数,第二层全连接网络维度为1024,后接Sigmoid激活函数。
[0016]进一步地,所述全连接回归子模块由四层全连接网络组成,其中,第一层全连接网络维度为512,第二层全连接网络维度为128,第三层全连接网络维度为64,第四层全连接网络维度为6;所述全连接回归子模块内的前三层全连接网络后接ReLU激活函数,第四层全连接网络不接任何激活函数。
[0017]本专利技术的另一个目的可以通过采取如下技术方案达到:
[0018]一种基于LTC

DNN的视觉惯导组合导航系统的自学习方法,所述自学习方法包括以下步骤:
[0019]S1、将具有真实相对位移、相对旋转的真实标签转换到标准正态分布,得到真实标准化标签、均值1、方差1,使用真实标准化标签对深度学习网络模型进行第一次训练;
[0020]S2、将第一次训练完成的深度学习网络模型对无标签数据进行预测,并使用均值1、方差1对预测结果进行第一次逆标准化计算,得到伪标签;
[0021]S3、随机选取一定数量的伪标签和真实标签根据0.2:1的比例进行混合,得到混合标签;
[0022]S4、将混合标签转换到标准正态分布,得到混合标准化标签、均值2、方差2,使用混合标准化标签对深度学习网络模型进行第二次训练。
[0023]进一步地,所述伪标签、真实标签、混合标签包含x、y、z轴上的相对位移、相对旋转。
[0024]进一步地,所述真实标签、混合标签转换到标准正态分布的操作是将x、y、z轴上的相对位移、相对旋转分别转换到标准正态分布。
[0025]进一步地,所述深度学习网络模型的训练使用Adam优化器,Adam优化器动量设置为(0.9,0.99);第一单层LTC

RNN与第二单层LTC

RNN的学习率设置为0.001,其余模块的学习率设置成0.00001;损失函数为smooth_l1_loss。
[0026]本专利技术相对于现有技术具有如下的优点及效果:
[0027](1)本专利技术提出一种基于LTC

DNN的视觉惯导组合导航系统,包含深度学习网络模型,该深度学习网络模型引入第一单层LTC

RNN与第二单层LTC

RNN,达到降低深度学习网络模型可训练参数量及提高深度学习网络模型鲁棒性的目的。
[0028](2)本专利技术提出一种基于LTC

DNN的视觉惯导组合本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于LTC

DNN的视觉惯导组合导航系统,该视觉惯导组合导航系统用于自动驾驶、无人机的自主导航,其特征在于,所述视觉惯导组合导航系统包括深度学习网络模型,所述深度学习网络模型由依次顺序连接的视觉特征提取模块、惯导特征提取模块、位姿回归模块组成,其中,所述视觉特征提取模块用于提取1024维视觉特征,所述视觉特征提取模块的输入为沿着通道叠加的相邻两帧RGB图片,输出1024维视觉特征;所述惯导特征提取模块包括1024维隐藏状态的第一单层LTC

RNN;所述惯导特征提取模块的输入为所述相邻两帧RGB图片之间的惯导数据,输出为1024维惯导特征;所述位姿回归模块包括依照顺序连接的注意力机制融合子模块、1000维隐藏状态的第二单层LTC

RNN、全连接回归子模块,其中,注意力机制融合子模块的输入是视觉特征和惯导特征串联得到的串联特征,用于对视觉特征及惯导特征进行加权得到加权融合特征;第二单层LTC

RNN的输入是加权融合特征,输出回归特征;全连接回归子模块的输入是回归特征,输出相对位移、相对旋转的估计。2.根据权利要求1所述的基于LTC

DNN的视觉惯导组合导航系统,其特征在于,所述视觉特征提取模块由10层卷积神经网络顺序堆叠而成,10层卷积神经网络中前三层卷积神经网络的卷积核大小依次是7
×
7、5
×
5、5
×
5,后面七层卷积神经网络的卷积核大小均是3
×
3,其中,第四层、第六层和第八层卷积神经网络的卷积步长为1,其余卷积神经网络的卷积步长为2;10层卷积神经网络都使用ReLU激活函数。3.根据权利要求1所述的基于LTC

DNN的视觉惯导组合导航系统,其特征在于,所述RGB图片在输入特征提取模块前转换成416
×
128的尺寸。4.根据权利要求1所述的基于LTC

DNN的视觉惯导组合导航系统,其特征在于,所述第一单层LTC

RNN和第二单层LTC

RNN的计算公式如下:h(t)为当前时刻LTC

RNN的隐藏状态,τ为常量时间常数,Δt为时间步长,x(t)为当前时刻的输入数据,f(h(t),x(t),t,θ)为深度学习网络,θ为其可训练参数,t为当前时刻,第一单层LTC

RNN和第二单层LTC

RNN的计算方式在每次计算的开始阶段将数据x(t)和h(t)输入至上述计算公式中,将该公式的当前输出...

【专利技术属性】
技术研发人员:胡斌杰丘金光
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1