一种无人机自主寻径模型训练方法及装置制造方法及图纸

技术编号:31017064 阅读:16 留言:0更新日期:2021-11-30 02:59
本申请公开一种无人机自主寻径模型训练方法及装置。所述无人机自主寻径模型训练方法包括:获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;获取无人机自主寻径模型;根据所述训练样本数据对所述无人机自主寻径模型进行训练。本申请的无人机自主寻径模型训练方法通过训练样本数据中的底层机动决策信息、综合激励信息以及云机动决策信息对无人机自主寻径模型进行训练,能够较好地解决激励信息稀疏场景下的路径规划任务,并且在训练过程中可以对仿真环境进行充分的探索,提高无人机任务规划中路径规划策略的鲁棒性。规划策略的鲁棒性。规划策略的鲁棒性。

【技术实现步骤摘要】
一种无人机自主寻径模型训练方法及装置


[0001]本申请涉及无人机寻径
,具体涉及一种无人机自主寻径模型训练方法以及无人机自主寻径模型训练装置。

技术介绍

[0002]随着无人机在军事领域的广泛应用,越来越的学者开始专注于与之相关的路径规划的研究。加之我军机械化、信息化、智能化将长期并存并行发展,国防和军队建设整体水平取决于“三化”融合发展水平,人工智能的兴起将不断推动我国航空技术的发展。无人机根据任务需求规划出满足约束条件的飞行路径,是无人机任务规划的核心部分,基于人工智能的无人机自主寻径在无人机执行作战任务的过程中起着至关重要的作用。
[0003]在人工智能研究领域,基于强化学习的路径规划是无人机自主寻径的基本方法。传统的基于强化学习的路径规划方法通过无人机与仿真环境的交互,不断更新状态信息并获取环境给予的激励信息,迭代优化路径规划策略。这种方法对环境给予的激励信息依赖很大,但在无人机寻径的场景中,通常情况下该种激励信息较为稀疏,或者需要人为设计,为策略优化带来一定的难度。另外,智能体对环境探索性是强化学习领域一个较为重要的研究点,只有当智能体对环境的探索足够充分,才可以训练出较为鲁棒、灵活的策略,这一点在无人机寻径的任务中也同样重要,而传统方法带来的探索性并不理想。
[0004]因此,希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。

技术实现思路

[0005]本专利技术的目的在于提供一种无人机自主寻径模型训练方法来克服或至少减轻现有技术的至少一个上述缺陷。r/>[0006]本专利技术的一个方面,提供一种无人机自主寻径模型训练方法,所述无人机自主寻径模型训练方法包括:
[0007]获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;
[0008]获取无人机自主寻径模型;
[0009]根据所述训练样本数据对所述无人机自主寻径模型进行训练。
[0010]可选地,所述云机动决策信息采用如下方式获取:
[0011]获取无人机综合状态信息;
[0012]获取高层决策网络;
[0013]将所述无人机综合装填信息输入至所述高层决策网络,从而获取云机动决策信息。
[0014]可选地,所述底层机动决策信息采用如下方法获取:
[0015]获取无人机自身状态信息以及所述云机动决策信息;
[0016]获取底层决策网络;
[0017]将所述无人机自身状态信息以及所述云机动决策信息输入至底层决策网络从而获取底层机动决策信息。
[0018]可选地,所述综合激励信息采用如下方法获取:
[0019]获取外部激励信息;
[0020]获取基于互信息理论计算的内部激励信息;
[0021]将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息。
[0022]可选地,所述将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息采用如下公式:
[0023]r=r
o
+αr
i

[0024]r
i
=H(z)

H(z|s);其中,
[0025]外部激励信息为r
o
、内部激励信息为r
i
、α是权重超参;r为综合激励信息。
[0026]可选地,所述内部激励信息采用如下公式获取:
[0027]r
i
=H(z)

H(z|s);其中,
[0028]最大化元机动分布的散度为H(z)、最小化条件熵为H(z|s);内部激励信息为r
i

[0029]本申请还提供了一种无人机自主寻径模型训练装置,所述无人机自主寻径模型训练装置包括:
[0030]训练样本数据获取模块,所述训练样本数据获取模块用于获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;
[0031]模型获取模块,所述模型获取模块用于获取无人机自主寻径模型;
[0032]训练模块,所述训练模块用于根据所述训练样本数据对所述无人机自主寻径模型进行训练。
[0033]本申请还提供了一种电子设备,所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的无人机自主寻径模型训练方法。
[0034]本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的无人机自主寻径模型训练方法。
[0035]有益效果
[0036]本申请的无人机自主寻径模型训练方法通过训练样本数据中的底层机动决策信息、综合激励信息以及云机动决策信息对无人机自主寻径模型进行训练,能够较好地解决激励信息稀疏场景下的路径规划任务,并且在训练过程中可以对仿真环境进行充分的探索,提高无人机任务规划中路径规划策略的鲁棒性,进一步推动无人机在实际应用中的智能化发展。
附图说明
[0037]图1为本申请一实施例的无人机自主寻径模型训练方法的流程示意图。
[0038]图2是能够实现根据本申请一个实施例提供的电子设备的示例性结构图。
具体实施方式
[0039]为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。
[0040]需要说明的是,在本专利技术的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0041]图1为本申请一实施例的无人机自主寻径模型训练方法的流程示意图。
[0042]如图1所示的无人机自主寻径模型训练方法包括:
[0043]步骤1:获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;
[0044]步骤2:获取无人机自主寻径模型;
[0045]步骤3:根据训练样本数据对所述无人机自主寻径模型进行训练。
[0046]本申请的无人机自主寻径模型训练方法通过训练样本数据中的底层机动决策信息、综合激励信息以及云机动决策信息对无人机自主寻径模型进行训练,能够较好地解决激励信息稀疏场景下的路径规划任务,并且在训练过程中可以对仿真环境进行充分的探索本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种无人机自主寻径模型训练方法,其特征在于,所述无人机自主寻径模型训练方法包括:获取多个训练样本数据,每个训练样本数据包括当面状态信息、底层机动决策信息、下一时刻状态信息、综合激励信息以及云机动决策信息;获取无人机自主寻径模型;根据所述训练样本数据对所述无人机自主寻径模型进行训练。2.如权利要求1所述的无人机自主寻径模型训练方法,其特征在于,所述云机动决策信息采用如下方式获取:获取无人机综合状态信息;获取高层决策网络;将所述无人机综合装填信息输入至所述高层决策网络,从而获取云机动决策信息。3.如权利要求2所述的无人机自主寻径模型训练方法,其特征在于,所述底层机动决策信息采用如下方法获取:获取无人机自身状态信息以及所述云机动决策信息;获取底层决策网络;将所述无人机自身状态信息以及所述云机动决策信息输入至底层决策网络从而获取底层机动决策信息。4.如权利要求3所述的无人机自主寻径模型训练方法,其特征在于,所述综合激励信息采用如下方法获取:获取外部激励信息;获取基于互信息理论计算的内部激励信息;将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息。5.如权利要求4所述的无人机自主寻径模型训练方法,其特征在于,所述将所述外部激励信息以及所述内部激励信息进行融合从而获取综合激励信息采用如下公式:r=r
o
+αr
i
;r
i
=H(z)
‑<...

【专利技术属性】
技术研发人员:韩玥朴海音孙智孝彭宣淇杨晟琦孙阳樊松源于津詹光马启兵
申请(专利权)人:中国航空工业集团公司沈阳飞机设计研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1