基于DQN和矩阵补全的多AUV协同水下数据采集方法技术

技术编号:37053822 阅读:18 留言:0更新日期:2023-03-29 19:31
本发明专利技术公开了一种基于DQN和矩阵补全的多AUV协同水下数据采集方法,属于海洋数据采集技术领域。本发明专利技术首先布设水声传感器节点,根据节点产生数据与应用所需数据之间的相关性和时效性计算各区域产生信息的价值,并用于后续AUV的路径规划;然后使用深度强化学习方法规划多台AUV信息采集的路径,在AUV行驶过程中不断修正多AUV航行轨迹;最后设计了一种矩阵补全式的数据采集方法,使AUV只需采集关键节点产生的数据,减轻了数据采集的工作量。本发明专利技术能够有效协同多台AUV采集水声传感器网络产生的数据,降低水下网络中数据采集的延迟,延长水声传感器网络的生命周期。长水声传感器网络的生命周期。长水声传感器网络的生命周期。

【技术实现步骤摘要】
基于DQN和矩阵补全的多AUV协同水下数据采集方法


[0001]本专利技术属于海洋数据采集
,具体地说,涉及一种基于DQN和矩阵补全的多AUV协同水下数据采集方法。

技术介绍

[0002]海洋覆盖了地球的大部分面积,海洋中用于各种特定任务的水声传感器节点会产生大量数据。然而,由于海洋环境中带宽有限和声信号传播速度低,设计合适的海洋数据采集方法是一个巨大的挑战。
[0003]随着自主式航行器(AUV)的普及,单个AUV经常用来辅助海洋数据采集,然而,海洋数据采集区域广阔,且AUV的航行速度比声波慢好几个数量级,所以使用单个AUV在海洋中采集数据已经不能满足应用需求。另外,AUV的路径规划对于信息采集也至关重要,目前深度强化学习技术发展迅速,利用深度强化学习(DQN)技术规划AUV路径可以有效适应复杂海洋环境,然而,目前基于DQN的AUV路径规划很少有考虑数据的价值和洋流影响,这导致数据价值的损失和高度延迟。以往的研究表明,AUV在同一或相似区域的节点采集的数据往往在时间和空间上高度相关,这导致采集到的数据冗余度高,高度的数据冗余导致额外的能量消耗,会降低水声传感器网络的生命周期。如何在AUV路径规划的基础上,降低数据采集的冗余度也是海洋数据采集中的一大难题。
[0004]综上所述,目前基于DQN的AUV辅助海洋数据采集方法存在数据采集延迟高、数据采集冗余度高、网络生命周期短等问题。
[0005]因此,设计一种低延迟和高生命周期的多AUV协同海洋数据采集方法成为亟待解决的关键问题。

技术实现思路

[0006]本专利技术的目的是提出一种基于DQN(深度强化学习)和矩阵补全的多AUV(自主式水下航行器)协同水下数据采集方法,以弥补现有技术的不足。
[0007]为实现上述专利技术目的,本专利技术采用下述技术方案予以实现:
[0008]一种基于DQN和矩阵补全的多AUV协同水下数据采集方法,包括以下步骤:S1:水下布设水声传感器节点,形成不同的传感区域,并选取AUV采集传感区域;S2:基于深度强化学习方法DQN规划多AUV信息采集的路径,且根据所述信息价值设计奖励函数;S3:在多AUV航行过程中不断修正其运动轨迹;S4:多AUV基于矩阵补全式的数据采集方法进行关键节点的数据采集。
[0009]进一步的,所述S1具体如下:在海洋等区域中布设水声传感器节点,根据节点产生数据与所需数据之间的相关性和时效性判断各区域产生信息的价值,其公式化定义为:
;其中,表示第k片区域产生的第i组数据的价值,,,表示介于0到1之间的权重系数,其满足,表示第k片区域产生的第i组数据的期望;表示第k片区域感知到的第i组数据与应用程序需要的数据之间的相关性,其计算公式为:;其中, X表示应用程序所需要数据的物理信号, K表示节点感知到数据的物理信号,Cov表示计算协方差,Var表示计算方差;表示数据时效性的函数,其计算公式为:;其中,表示第i组数据时效性的衰减系数,t代表当前时间,t
k,i
代表第k片区域感知到的第i组数据的时间。
[0010]进一步的,所述S2具体如下:S2

1:根据信息价值设计奖励函数:在深度强化学习方法中,奖励函数包括距离奖励R
dis
、洋流奖励R
cur
、价值奖励R
vol
三项,其中距离奖励R
dis
的计算公式为:R
dis
=Dis(P,P
Goal
);其中,Dis(P,P
Goal
)代表目标位置和当前位置的单位化距离,用其当作距离奖励可引导AUV接近目标点;洋流奖励R
cur
利用洋流,使AUV跟随洋流移动来缩短移动时间并降低能量消耗;洋流奖励R
cur
的计算公式为:;其中,代表洋流分量与海平面之间的夹角,表示AUV行进方向角度与海平面的夹角角度;价值奖励R
vol
为步骤S2中计算得到的信息价值,奖励函数R的计算公式为:;其中,,,代表权重因子,其满足;
[0011]S2

2:设计洋流影响下的状态转移函数:状态空间S是一个六维的连续向量,是神经网络的输入信息。动作空间A由六维离散向量表示,表示六个运动方向。状态转移函数概括了环境变化,是神经网络的拟合对象。在复杂的海洋环境中,AUV的运动受到外部条件和内部动力的共同作用。假设AUV从位置P(x, y, z)转移到下一个位置P`(x`, y`, z`)。下一个位置P`(x`, y`, z`)的计算公式为:;其中,动作a = [a1, a
2, a3, a4, a5, a6]T
, a∈A表示AUV在六个方向上的运动,其中a1和a2沿经度方向,a3和a4沿纬度方向,a5和 a6沿垂直方向,T(i,j)表示由i(i={a1,a3,a5})和j(j={a2,a4,a6})共同确定的方向运动强度,V
cur
表示洋流速度,[u,v,w]表示当前位置洋流的运动方向强度,V
AUV
表示AUV的速度;
[0012]S2

3:设计Q值更新函数与网络的损失函数:深度强化学习方法的Q值由二元组(s,a;(f
s
,f
a
))组成,其中s表示状态,a表示动作,(f
s
,f
a
)表示动作

状态值,Q(s,a;(f
s
,f
a
))的值计算公式为:Q(s,a;(f
s
,f
a
))=p(s;f
a
)+p
(s,a;f
a
)

avg(s);其中,p(s;f
a
)和p(s,a;f
a
)分别代表估计状态值和估计动作值,avg(s)代表目前真实动作值的平均值;假设Q`(s`, a`; (f`
s
, f`
a
))代表目标网络输出的真实Q值,Q(s,a;(f
s
,f
a
))代表目前网络的Q值,则损失函数Loss的计算公式为:Loss=E[(R+vQ`(s`, a`; (f`
s
, f`
a
))

Q(s,a;(f
s
,f
a
)))2];其中,E[*]代表计算*的期望值,R为奖励函数,v代表奖励的折扣。
[0013]进一步的,所述S3具体如下:考虑到洋流冲击导致的水声传感器节点漂移,在AUV行驶过程中不断修正多AUV航行轨迹。水声传感器节点会在洋流运动的影响下自由移动,假设u为x轴方向的速度分量,v为y轴方向的速度分量;则节点漂流位置可由汉密尔顿微分方程描述如下:;其中,代表海洋中节点移动的蜿蜒移动模型,其微分方程计算公式为:;其中,k为单位长度内蜿本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DQN和矩阵补全的多AUV协同水下数据采集方法,其特征在于,包括以下步骤:S1:水下布设水声传感器节点,形成不同的传感区域,并选取AUV采集传感区域;S2:基于深度强化学习方法DQN规划多AUV信息采集的路径,且根据信息价值设计奖励函数;S3:在多AUV航行过程中不断修正其运动轨迹;S4:多AUV基于矩阵补全式的数据采集方法进行关键节点的数据采集。2.如权利要求1所述的多AUV协同水下数据采集方法,其特征在于,所述S1具体如下:布设水声传感器节点,根据节点产生数据与所需数据之间的相关性和时效性判断各区域产生信息的价值,其公式化定义为:;其中,表示第k片区域产生的第i组数据的价值,,,表示介于0到1之间的权重系数,其满足,表示第k片区域产生的第i组数据的期望;表示第k片区域感知到的第i组数据与应用程序需要的数据之间的相关性,其计算公式为:;其中, X表示应用程序所需要数据的物理信号, K表示节点感知到数据的物理信号,Cov表示计算协方差,Var表示计算方差;表示数据时效性的函数,其计算公式为:;其中,表示第i组数据时效性的衰减系数,t代表当前时间,t
k,i
代表第k片区域感知到的第i组数据的时间。3.如权利要求1所述的多AUV协同水下数据采集方法,其特征在于,所述S2具体如下:S2

1:根据信息价值设计奖励函数:在深度强化学习方法中,奖励函数包括距离奖励R
dis
、洋流奖励R
cur
、价值奖励R
vol
三项,其中距离奖励R
dis
的计算公式为:R
dis
=Dis(P,P
Goal
);其中,Dis(P,P
Goal
)代表目标位置和当前位置的单位化距离,用其当作距离奖励可引导AUV接近目标点;洋流奖励R
cur
利用洋流,使AUV跟随洋流移动来缩短移动时间并降低能量消耗;洋流奖励R
cur
的计算公式为:;其中,代表洋流分量与海平面之间的夹角,表示AUV行进方向角度与海平面的夹角角度;价值奖励R
vol
为步骤S2中计算得到的信息价值,奖励函数R的计算公式为:;其中,,,代表权重因子,其满足;S2

2:设计洋流影响下的状态转移函数:假设AUV从位置P(x, y, z)转移到下一个位置P`(x`, y`, z`),下一个位置P`(x`, y`, z`)
的计算公式为:;其中,动作a = [a1, a
2, a3, a4, a5, a6]
T
, a∈A表示AUV在六个方向上的运动,其中a1和a2沿经度方向,a3和a4沿纬度方向,a5和 a6沿垂直方向,T(i,j)表示由i(i={a1,a3,a5})和j(j={a2,a4,a6})共同确定的方向运动强度,V
cur
表示洋流速度,[u,v,w]表示当前位置洋流的运动方向强度,V
AUV
表示AUV的速度;S2

3:设计Q值更新函数与网络的损失函数:深度强化学习方法的Q值由二元组(s,a;(f
s
,f
a
))组成,其中s表示状态,a表示动...

【专利技术属性】
技术研发人员:刘帅王景景郁泽慧徐金云施威李爽曹润琪王海红牛秋娜
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1