当前位置: 首页 > 专利查询>东南大学专利>正文

一种意图驱动的强化学习路径规划方法技术

技术编号:31633118 阅读:21 留言:0更新日期:2021-12-29 19:12
本发明专利技术公开了一种意图驱动的强化学习路径规划方法,主要步骤包括:1、数据采集器获取监测网络的状态;2、根据环境障碍物、传感器节点和数据采集器的位置选择数据采集器的转向角;3、根据ε贪心策略选择数据采集器的速度、目标节点和下一目标节点作为动作;4、数据采集器根据选择的转向角和速度确定下一时隙的位置;5、根据数据采集器和传感器节点的意图得到奖赏和惩罚,并更新Q值;6、重复执行步骤1至步骤5,直至到达终止状态或收敛条件;7、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最佳路径;本发明专利技术提出的方法可以以较高的成功概率、更接近意图的性能完成数据采集路径规划。规划。规划。

【技术实现步骤摘要】
一种意图驱动的强化学习路径规划方法


[0001]本专利技术属于无线通信
,尤其涉及一种意图驱动的强化学习路径规划方法。

技术介绍

[0002]随着物联网领域的发展,无线传感器网络作为一种监测技术被广泛应用于监测周围环境,例如空气污染、海洋资源探测、灾害预警等。这些物联网传感器通常是能量受限的设备,传输范围有限,需要数据采集器收集传感器的数据并进行进一步的转发或处理。近年来,随着自动控制系统变得越来越智能和可靠,无人机、无人船和无人潜艇等智能设备已经被部署在军事和民用应用中,在危险和难以访问的环境下执行困难或乏味的任务。
[0003]尽管无人机、无人船和无人潜艇等作为数据采集器可以更方便地完成监测网络的数据收集,但它们存在能量有限这一关键挑战。从基地出发后,数据采集器需要向传感器节点行进,同时避免与环境障碍物、传感器节点的碰撞,并在规定时间内回到基地,防止能量耗尽。因此,需要根据数据采集器与传感器节点的意图合理地设计数据采集器的运动路径,以提高监测网络的数据采集效率。
[0004]在已有的数据采集路径规划方案中,大部分都是单独考虑数据采集器和传感器节点的意图,不能针对数据采集器和传感器节点不同的意图调整数据采集路径。同时,现有路径规划方法没有考虑监测环境中随机出现和随机移动的动态障碍物。因此,现有路径规划方法存在采集效率和可靠性低的问题。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种意图驱动的强化学习路径规划方法,该方法根据实时变化的监测网络环境,将数据采集器和传感器节点的意图表示为奖赏与惩罚,利用Q

learning强化学习方法规划数据采集器的路径,提高数据采集的效率和可靠性。
[0006]一种意图驱动的强化学习路径规划方法,包括如下的步骤:
[0007]步骤A、数据采集器获取监测网络的状态;
[0008]步骤B、根据数据采集器、传感器节点和环境障碍物的位置,确定数据采集器的转向角;
[0009]步骤C、根据ε贪心策略选择数据采集器动作,包括数据采集器的速度、目标节点和下一目标节点;
[0010]步骤D、数据采集器根据转向角调整行进方向,执行动作至下一时隙位置;
[0011]步骤E、根据数据采集器和传感器节点的意图计算奖赏和惩罚,并更新Q值;
[0012]步骤F、重复执行步骤A至步骤E,直到监测网络到达终止状态或Q学习满足收敛条件;
[0013]步骤G、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最优数据采集路径。
[0014]进一步地,所述步骤A中监测网络的状态s包括:数据采集器在时隙n的行进方向数据采集器的坐标q
u
[n]、传感器节点的可用存储空间{b
am
[n]}
m∈M
、传感器节点的数据采集完成情况{w
m
[n]}
m∈M
、数据采集器与传感器节点的距离{d
um
[n]}
m∈M
、数据采集器与环境障碍物的距离{d
uk
[n]}
k∈K
,其中M为传感器节点的集合、K为环境障碍物的集合,w
m
[n]∈{0,1}为传感器节点数据采集指示因子,w
m
[n]=1表示数据采集器在时隙n完成传感器节点m的数据采集,否则,表示未完成。
[0015]进一步地,所述步骤B中数据采集器转向角的计算公式表示为:
[0016][0017]其中,为数据采集器坐标q
u
[n]与目标行进位置p[n]之间的相对角度,为数据采集器的最大转向角。
[0018]进一步地,所述步骤B中确定目标行进位置的步骤包括:
[0019]步骤B1:判断数据采集器是否感知到障碍物,如果感知到障碍物,比较和的大小。如果则数据采集器的目标行进位置否则数据采集器的目标行进位置其中和为数据采集器以最大感知角度探测环境障碍物边界上的两点,和分别为目标传感器节点与点的相对角度。
[0020]步骤B2:如果数据采集器没有感知到环境障碍物,判断数据采集器到下一目标节点m2的路径是否穿过目标节点m1的通信区域C1。如果不会穿过C1,则目标行进位置其中,为通信区域C1上使距离最短的点。
[0021]步骤B3:如果穿过C1,判断路径是否穿过目标节点m1的安全区域C2。如果不会穿过C2,则目标行进位置否则,目标行进位置其中,为安全区域C2上使距离最短的点。
[0022]进一步地,所述步骤C中ε贪心策略选择动作的方法表示为:
[0023][0024]其中,ε为探索概率、β∈[0,1]为随机产生的数值、Q(s,a)为状态s时执行动作a的Q值。
[0025]进一步地,所述步骤D中数据采集器下一时隙位置的计算公式为:
[0026][0027]其中,x
u
[n

1]和y
u
[n

1]为数据采集器的x坐标和y坐标、v[n]为数据采集器的行进速度、τ为每个时隙的时长。
[0028]进一步地,所述步骤E中数据采集器和传感器节点意图对应的奖赏和惩罚计算步骤包括:
[0029]步骤D1:考虑数据采集器的意图为以最小的能量消耗E
tot
安全完成所有传感器节点的数据采集,并在规定时间T内返回基地;传感器节点的意图为最小化溢出数据则Q学习的奖赏R
a
(s,s')为数据采集器能量消耗和传感器节点数据溢出的加权和其中,s'为在状态s执行动作a后监测网络的下一状态、为权重因子。
[0030]步骤D2:根据数据采集器与传感器节点的意图,Q学习的惩罚为C
a
(s,s')=θ
safe

bou

time

tra

ter
,其中,θ
safe
为安全惩罚,表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离;θ
bou
为边界惩罚,表示数据采集器不得超过其可行区域;θ
time
为时间惩罚,表示数据采集器须在时间T内完成数据采集;θ
tra
为遍历采集惩罚,表示所有传感器节点的数据须被采集;θ
ter
为终点惩罚,表示数据采集器须在时间T内返回基地。
[0031]进一步地,所述步骤E中Q值的更新公式为:
[0032][0033]其中,α为学习率、γ为奖赏折扣因子。
[0034]进一步地,所述步骤F中监测网络的终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集;Q学习的收敛条件表示为:
[0035]|Q
j
(s,a)

Q
j
‑1(s,a)|≤ξ
ꢀ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种意图驱动的强化学习路径规划方法,其特征在于,包括以下步骤:步骤A、数据采集器获取监测网络的状态;步骤B、根据数据采集器、传感器节点和环境障碍物的位置,确定数据采集器的转向角;步骤C、根据ε贪心策略选择数据采集器动作,包括数据采集器的速度、目标节点和下一目标节点;步骤D、数据采集器根据转向角调整行进方向,执行动作至下一时隙位置;步骤E、根据数据采集器和传感器节点的意图计算奖赏和惩罚,并更新Q值;步骤F、重复执行步骤A至步骤E,直到监测网络到达终止状态或Q学习满足收敛条件;步骤G、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最优数据采集路径。2.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤A中监测网络的状态s包括:数据采集器在时隙n的行进方向数据采集器的坐标q
u
[n]、传感器节点的可用存储空间{b
am
[n]}
m∈M
、传感器节点的数据采集完成情况{w
m
[n]}
m∈M
、数据采集器与传感器节点的距离{d
um
[n]}
m∈M
、数据采集器与环境障碍物的距离{d
uk
[n]}
k∈K
,其中M为传感器节点的集合、K为环境障碍物的集合,w
m
[n]∈{0,1}为传感器节点数据采集指示因子,w
m
[n]=1表示数据采集器在时隙n完成传感器节点m的数据采集,否则,表示未完成。3.根据权利要求1所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤B中数据采集器转向角的计算公式表示为:其中,为数据采集器坐标q
u
[n]与目标行进位置p[n]之间的相对角度,为数据采集器的最大转向角。4.根据权利要求3所述的一种意图驱动的强化学习路径规划方法,其特征在于,所述步骤B中确定目标行进位置的步骤包括:步骤B1:判断数据采集器是否感知到障碍物,如果感知到障碍物,比较和的大小;如果则数据采集器的目标行进位置否则数据采集器的目标行进位置其中和为数据采集器以最大感知角度探测环境障碍物边界上的两点,和分别为目标传感器节点与点的相对角度;步骤B2:如果数据采集器没有感知到环境障碍物,判断数据采集器到下一目标节点m2的路径是否穿过目标节点m1的通信区域C1;如果不会穿过C1,则目标行进位置其中,为通信区域C1上使距离最短的点;
步骤B3:如果穿过C1,判断路径是否穿过目标节点m1的安全区域C2;如果不会穿过C2,则目标行进位置否则,目标行进位置其中,为安全区域C2上使距离最短的点。5.根据权利要求1...

【专利技术属性】
技术研发人员:张华苏娜王俊波
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1