当前位置: 首页 > 专利查询>鹏城实验室专利>正文

用于形成追捕策略的强化学习模型训练方法和训练装置制造方法及图纸

技术编号:34254996 阅读:93 留言:0更新日期:2022-07-24 12:27
本发明专利技术涉及追捕技术分析技术领域,具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。本发明专利技术逃跑者的控制量并不是确定性的,而是根据追捕者的信息给出的控制量,即逃跑者与追捕者进行了交互,这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略上的改变是一致的,追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略。如此往复地对追捕强化学习模型进行训练,这样等到的已训练追捕强化学习模型应用到实际追逃过程中,即便逃跑者针对追捕者改变了逃跑策略,追捕者依然能够精准地实现对逃跑者的追捕,从而增加了已训练的追捕强化学习模型的鲁棒性。的鲁棒性。的鲁棒性。

Reinforcement learning model training method and training device for forming pursuit strategy

【技术实现步骤摘要】
用于形成追捕策略的强化学习模型训练方法和训练装置


[0001]本专利技术涉及追捕技术分析
,具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。

技术介绍

[0002]追逃博弈是微分博弈理论起源的一个重要场景也是其应用中最为经典的领域,不止在航天器轨道追逃、导弹拦截等这类传统问题上,随着科技的发展,如何利用无人机进行罪犯的追踪打击也成为了追逃博弈问题研究的一个热点问题。微分博弈理论从诞生到发展至今,许多学者在数学理论层面提出了各式各样的解答方法与求解思路,但针对微分博弈问题,仍然没有一种可以普遍应用的解决方案应对各种的场景与问题。不仅如此,应用传统的微分博弈方法求解追逃博弈问题也面临着求解繁琐与建模困难等问题。追逃博弈现实应用的需求,也让这类问题由最初的单对单的简单博弈问题拓展到多对多(多个追捕者与多个逃跑者之间的博弈)的复杂环境下的博弈问题,并亟需新的解答思路。
[0003]强化学习作为机器学习的一个重要分支,近些年来发展迅速,并涌现出诸多令人惊异的成果,围棋智能AlphaGo就是代表性成果。深度强化学习则是将深度学习与传统强化学习算法相结合,实现强化学习算法更广阔应用的一类算法技术。正是因为这些新兴技术的发展,已经有研究者将强化学习应用于博弈的问题中。与之前的解决方案不同,强化学习算法不需要问题的先验知识,而是通过不断探索与试错来获得优秀的策略。
[0004]强化学习根据算法主体的智能体个数可以分为单智能体算法和多智能体算法两大类。这两种算法分别基于值函数和策略梯度,在单智能体问题中有着广泛的应用,后续工作也多以两者为基础进行改进。而在多智能体领域,算法设计则更加复杂也更具挑战性,面对不同种类的任务与奖励,算法也有着不同。
[0005]相比于确定性策略的强化学习算法,基于最大熵的强化学习方法,将熵加入整个强化学习的目标函数中,从而让算法有着更好的探索能力以及更好的泛化能力,大大加强了算法的实用程度,成为目前强化学习领域的标杆工作。但是上述强化学习方法在训练过程中都是基于确定性的逃跑者对追捕者的强化学习模型进行训练的,在训练过程中逃跑者与追捕者并没有交互,而在实际追逃过程中,逃跑者会根据追捕者的动作而做出相对应对的(即在实际追逃过程,逃跑者与追捕者是有交互的),因此基于现有训练方法得到的已训练追捕强化学习模型在应用到实际追逃过程中会降低模型的鲁棒性。
[0006]综上所述,现有的强化学习模型鲁棒性较差。
[0007]因此,现有技术还有待改进和提高。

技术实现思路

[0008]为解决上述技术问题,本专利技术提供了用于形成追捕策略的强化学习模型训练方法和训练装置,解决了现有的强化学习模型鲁棒性较差的问题。
[0009]为实现上述目的,本专利技术采用了以下技术方案:
[0010]第一方面,本专利技术提供一种用于形成追捕策略的强化学习模型训练方法,其中,包括:
[0011]将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量;
[0012]依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置,得到每个所述追捕者的观测信息;
[0013]将每个所述追捕者的观测信息输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量;
[0014]根据所述追捕控制量,训练所述追捕强化学习模型,得到已训练的所述追捕强化学习模型。
[0015]在一种实现方式中,所述将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量,包括:
[0016]依据所有所述追捕者的信息,得到所有所述追捕者的信息中的追捕位置;
[0017]依据所述逃跑者的信息,得到所述逃跑者的信息中的逃跑位置和逃跑速度;
[0018]将每个所述追捕者的追捕位置和逃跑者的逃跑位置和逃跑速度输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量。
[0019]在一种实现方式中,已训练的所述逃跑强化学习模型的训练方式包括:
[0020]获取所述逃跑者的逃跑样本位置、所述逃跑者的逃跑样本速度、所有所述追捕者的追捕样本位置;
[0021]将所述逃跑样本位置、所述逃跑样本速度、所述追捕样本位置输入到所述逃跑强化学习模型,得到所述逃跑强化学习模型输出的针对所述逃跑者的逃跑控制量;
[0022]通过所述逃跑控制量对所述逃跑强化学习模型进行训练,得到已训练的所述逃跑强化学习模型。
[0023]在一种实现方式中,所述通过所述逃跑控制量对所述逃跑强化学习模型进行训练,得到已训练的所述逃跑强化学习模型,包括:
[0024]依据所述逃跑强化学习模型,得到所述逃跑强化学习模型所涵盖的逃跑者第一强化学习模型、逃跑者第二强化学习模型、逃跑者第三强化学习模型;
[0025]随机选取所述逃跑者第一强化学习模型输出的所述逃跑控制量中的逃跑第一控制量、所述逃跑者第二强化学习模型输出的所述逃跑控制量中的逃跑第二控制量、所述逃跑者第三强化学习模型输出的所述逃跑控制量中的逃跑第三控制量;
[0026]随机从所述逃跑第一控制量、所述逃跑第二控制量、所述逃跑第三控制量中选取一个控制量;
[0027]计算在随机选取的一个控制量作用下,追捕过程中所述逃跑者与距离所述逃跑者最近的所述追捕者之间的追逃距离;
[0028]依据所述追逃距离对所述逃跑强化学习模型进行训练,得到已训练的所述逃跑强化学习模型。
[0029]在一种实现方式中,所述依据每个追捕者的信息、与每个所述追捕者相邻追捕者
的信息、在所述逃跑控制量作用下逃跑者的位置,得到每个所述追捕者的观测信息,包括:
[0030]计算每个所述追捕者与障碍物之间的追障距离,所述障碍物为距离每个所述追捕者最近的障碍物;
[0031]依据每个所述追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置、所述追障距离,得到每个所述追捕者的观测信息。
[0032]在一种实现方式中,所述将每个所述追捕者的观测信息输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量,包括:
[0033]依据每个所述追捕者的观测信息,得到所述观测信息中的在简单环境下的观察信息和在复杂环境中的观察信息,所述简单环境为静态的所述逃跑者和障碍物的数量小于设定值,所述复杂环境为动态的所述逃跑者和障碍物的数量大于设定值;
[0034]将每个所述追捕者在简单环境下的观察信息,输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第一速度变化量;
[0035]将每个所述追捕者在复杂环境下的观察信息,输入到追捕强化学习模型中,得到所述追捕强化学习模型输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于形成追捕策略的强化学习模型训练方法,其特征在于,包括:将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量;依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置,得到每个所述追捕者的观测信息;将每个所述追捕者的观测信息输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量;根据所述追捕控制量,训练所述追捕强化学习模型,得到已训练的所述追捕强化学习模型。2.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量,包括:依据所有所述追捕者的信息,得到所有所述追捕者的信息中的追捕位置;依据所述逃跑者的信息,得到所述逃跑者的信息中的逃跑位置和逃跑速度;将每个所述追捕者的追捕位置和逃跑者的逃跑位置和逃跑速度输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量。3.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,已训练的所述逃跑强化学习模型的训练方式包括:获取所述逃跑者的逃跑样本位置、所述逃跑者的逃跑样本速度、所有所述追捕者的追捕样本位置;将所述逃跑样本位置、所述逃跑样本速度、所述追捕样本位置输入到所述逃跑强化学习模型,得到所述逃跑强化学习模型输出的针对所述逃跑者的逃跑控制量;通过所述逃跑控制量对所述逃跑强化学习模型进行训练,得到已训练的所述逃跑强化学习模型。4.如权利要求3所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述通过所述逃跑控制量对所述逃跑强化学习模型进行训练,得到已训练的所述逃跑强化学习模型,包括:依据所述逃跑强化学习模型,得到所述逃跑强化学习模型所涵盖的逃跑者第一强化学习模型、逃跑者第二强化学习模型、逃跑者第三强化学习模型;随机选取所述逃跑者第一强化学习模型输出的所述逃跑控制量中的逃跑第一控制量、所述逃跑者第二强化学习模型输出的所述逃跑控制量中的逃跑第二控制量、所述逃跑者第三强化学习模型输出的所述逃跑控制量中的逃跑第三控制量;随机从所述逃跑第一控制量、所述逃跑第二控制量、所述逃跑第三控制量中选取一个控制量;计算在随机选取的一个控制量作用下,追捕过程中所述逃跑者与距离所述逃跑者最近的所述追捕者之间的追逃距离;依据所述追逃距离对所述逃跑强化学习模型进行训练,得到已训练的所述逃跑强化学习模型。5.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述
依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置,得到每个所述追捕者的观测信息,包括:计算每个所述追捕者与障碍物之间的追障距离,所述障碍物为距离每个所述追捕者最近的障碍物;依据每个所述追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置、所述追障距离,得到每个所述追捕者的观测信息。6.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述将每个所述追捕者的观测信息输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量,包括:依据每个所述追捕者的观测信息,得到所述观测信息中的在简单环境下的观察信息和在复杂环境中的观察信息,所述简单环境为静态的所述逃跑者和障碍物的数量小于设定值,所述复杂环境为动态的所述逃跑者和障碍物的数量大于设定值;将每个所述追捕者在简单环境下的观察信息,输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第一速度变化量;将每个所述追捕者在复杂环境下的观察信息,输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第二速度变化量。7.如权利要求6所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述根据每个所述追捕者的追捕控制量,训练所述追捕强化学习模型,得到已训练的所述追捕强化学习模型,包括:依据所述第一速度变化量,训练所述追捕强化学习模型,得到预训练的所述追捕强化学习模型;依据所述第二速度变化量,训练预训练之后的所述追捕强化学习模型,得到已训练的所述追捕强化学习模型。8.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征...

【专利技术属性】
技术研发人员:邢介邦丁玉隆崔金强孙涛宋伟伟
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1