【技术实现步骤摘要】
一种改进SAC算法的低空无人机路径规划及避障方法
[0001]本专利技术涉及无人机在低空环境中的路径规划和自主避障领域,具体为一种改进SAC算法的低空无人机路径规划及避障方法。
技术介绍
[0002]当今,无人机技术的迅速发展与广泛应用,为许多领域带来了前所未有的机会和挑战。然而,在无人机的自主避障和路径规划方面,面对低空中复杂多变的环境,自主避障能力是无人机最关键的技术要点,传统的算法难以满足实际需求。因此,如何开发出一种既能够适应复杂环境又能够保证高效、准确的无人机低空自主避障和路径规划算法,一直是该领域研究人员的重点关注点。
[0003]无人机自主避障和路径规划领域广泛应用三种算法:传统算法、基于智能仿生学算法和基于深度强化学习算法。传统算法中例如A*算法、Dijkstra算法等在面对复杂环境和动态障碍物时,其性能和鲁棒性不足,而IIFDS算法虽然具有更高的效率和精确性,但处理复杂场景能力有限,无法应对超大规模的搜索空间。此外,基于智能仿生学算法更具有生物学启发性,如基于蚁群优化、遗传算法和粒子群优化等,能提高无人机的避障性能,但训练时间长、计算复杂度高,难以处理动态环境中的避障问题,限制了其实际应用的效果和适用性。
[0004]目前SAC算法在复杂动态环境中存在着一些问题:一是遇到复杂动态障碍物时,SAC算法存在着算法收敛速度慢、容易陷入局部最优等问题,从而影响了无人机的避障性能和稳定性。这些问题主要源于SAC算法采用的强化学习框架,无法快速适应环境变化并找到最优解。且对于动态环境中的障碍物运 ...
【技术保护点】
【技术特征摘要】
1.一种改进SAC算法的低空无人机路径规划及避障方法,其特征在于,所述路径规划及避障方法包括以下步骤:S1、构建无人机的飞行控制模型,并初始化环境模型及神经网络参数;S2、设定经验回放池,并对SAC算法的奖励机制进行设定;S3、构建深度强化学习网络进行训练,使用LSTM网络对无人机当前的状态空间进行特征提取,并使用VAE对提取的特征进行优化;S4、判断当无人机距离最近障碍物的距离大于最大预警距离时,将优化后的状态特征输入SAC网络中,决策下一步动作,并更新目标参数;当无人机距离最近障碍物的距离小于最大预警距离时,计算新的目标点,并采用改进的IIFDS算法与SAC算法进行智能决策;S5、增加时间步数,进行下一轮训练直至结束,得出训练好的模型。2.根据权利要求1所述的一种改进SAC算法的低空无人机路径规划及避障方法,其特征在于:在步骤S1中,构建飞行控制模型,初始化环境模型及神经网络参数的步骤如下:S2
‑
1、设置无人机传感器的探测范围为d,无人机的最大警戒碰撞距离为d
min
,无人机的偏航角速度和爬升角速度的最大值分别为v
p
和v
s
,最大爬升角为θ
max
,最大俯冲角为
‑
θ
max
;S2
‑
2、构建三维地图与起点终点,并设置环境的时间步数和无人机初始状态空间,初始化静态障碍物和通过时间步长Δt来改变状态的动态障碍物,并分别加入到静态障碍物列表StaticB和动态障碍物列表DynamicB中;S2
‑
3、对LSTM网络、VAE编码器网络、解码器网络的参数分别进行初始化,用随机的网络参数ω1、ω2和θ分别初始化SAC算法的Critic网络和Actor网络π
θ
(s)。3.根据权利要求2所述的一种改进SAC算法的低空无人机路径规划及避障方法,其特征在于:在步骤S2中,设定奖励机制的步骤如下:S3
‑
1、设定经验回放池R,对SAC算法的奖励机制进行设定:r
t
=r1+r2+r3+r4+r5其中r1表示为正常距离奖励,r2表示碰撞奖励,r3表示自由空间奖励,r4表示步数奖励,r5表示预警距离奖励,r
t
表示在该时间步数下无人机在环境内获得的总奖励值。4.根据权利要求3所述的一种改进SAC算法的低空无人机路径规划及避障方法,其特征在于:在步骤S3中,提取和优化特征的步骤如下:S4
‑
1、对无人机的状态空间的特征进行提取;S4
‑
2、将提取到的特征输入到VAE网络中,得到潜在变量集z,作为优化后的特征表示;S4
‑
3、计算重构损失L
rec
和KL散度,得出VAE的总损失L
total
;S4
‑
4、使用梯度下降法最小化总损失。5.根据权利要求4所述的一种改进SAC算法的低空无人机路径规划及避障方法,其特征在于:在步骤S4
‑
1和S4
‑
2中,所述得到优化特征表示的步骤如下:S5
‑
1、将当前时间步数下的无人机状态空间特征输入到LSTM网络中,利用当前时刻的输入和上一个时刻的中间状态值来生成当前时刻的状态值;S5
‑
2、将当前时刻的状态值与当前时刻的输入值合并,并将合并后的值输入到多层感知机中,多层感知机利用非线性函数对特征进行提取,将多层感知机的输出结果输入到VAE
中;S5
‑
3、采用编码器将特征信息x的分布经过卷积层、激活层和全连接层转码成类高斯分布d
i
,编码器输出类高斯分布的均值μ和标准差σ,基础构建完美的高斯分布D,利用完美高斯分布D的均值μ和标准差σ来得到潜在变量集z,作为优化后的特征表示:z=μ+σ
⊙
∈其中∈表示一个服从高斯分布的噪声向量。6.根据权利要求5所述的一种改进SAC算法的低空无人机路径规划及避障方法,其特征在于:在步骤S4
‑
3和S4
‑
4中,计算总损失L
total
和最小化总损失的步骤如下:S6
‑
1、从潜在变量集z中随机抽取一个潜在变量z
i
,用f
∈
(x)来表示编码器工作过程,根据不同维度的均值μ和标准差σ计算出KL散度D
KL
,公式如下:式中i与z
i
中i的表示意义一样,都代表潜变量集z的维度;S6
‑
2、解码器生成一个与z
i
相关的样本x
i
,用p(x
i
|z
i
)来表示解码器输入潜在变量z
i
后生成样本x
i
的过程,同时将优化后的特征表示z输入到SAC网络中;在变分自编码器中,使用梯度下降法来最小化总损失,优化模型参数,计算VAE中的重构损失L
rec
:L
rec
=Е
X
~D[x
‑
p
∈
(x
i
|f
∈
(x))|2其中,|
·
|表示向量的二范数,D表示该过程运算后的数据集,L
rec
表示这个生成样本与原始输入样本之间的平方误差的期望;S6
‑
3、使用最小化重构损失和KL散度的加权和作为VAE的总损失L
total
,公式如下:L
total
=L
rec
+βD
KL
其中,β是一个权重参数,用于平衡重构损失和KL散度之间的重要程度;S6
‑
4、计算总损失函数关于模型参数的梯度其中,θ为参数,α为学习率;调节每次参数更新的步长大小,通过迭代更新参数,总损失逐渐减小,直到达到最大迭代次数或总损失的变化量小于设置的阈值。7.根据权利要求6所述的一种改进SAC算法的低空无人机路径规划及避障方法,其特征在于:在步骤S4中,使用SAC算法和IIFDS算法进行综合决策的步骤如下:S7
‑
1、在当前时间步数下,根据当前策略将优化后的特征表示作为s
t
输入到SAC算法的Actor网络的全连接层中,其中s
t
为输入状态向量,将s
t
进行线性变换,得到一个隐藏层的输出;S7
‑
2、通过RELU激活函数进行非线性变换,并将非线性变换后的输出经过一个激活函数tanh得到最终动作...
【专利技术属性】
技术研发人员:段龙方,邓江红,郝玉龙,李国洪,赵云峰,朱霞,宋志洪,苟启文,
申请(专利权)人:安徽科力信息产业有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。