【技术实现步骤摘要】
用于形成追捕策略的强化学习模型训练方法和训练装置
[0001]本专利技术涉及追捕技术分析
,具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。
技术介绍
[0002]追逃博弈是微分博弈理论起源的一个重要场景也是其应用中最为经典的领域,不止在航天器轨道追逃、导弹拦截等这类传统问题上,随着科技的发展,如何利用无人机进行罪犯的追踪打击也成为了追逃博弈问题研究的一个热点问题。微分博弈理论从诞生到发展至今,许多学者在数学理论层面提出了各式各样的解答方法与求解思路,但针对微分博弈问题,仍然没有一种可以普遍应用的解决方案应对各种的场景与问题。不仅如此,应用传统的微分博弈方法求解追逃博弈问题也面临着求解繁琐与建模困难等问题。追逃博弈现实应用的需求,也让这类问题由最初的单对单的简单博弈问题拓展到多对多(多个追捕者与多个逃跑者之间的博弈)的复杂环境下的博弈问题,并亟需新的解答思路。
[0003]强化学习作为机器学习的一个重要分支,近些年来发展迅速,并涌现出诸多令人惊异的成果,围棋智能AlphaGo就是代表性成果。深度强化学习则是将深度学习与传统强化学习算法相结合,实现强化学习算法更广阔应用的一类算法技术。正是因为这些新兴技术的发展,已经有研究者将强化学习应用于博弈的问题中。与之前的解决方案不同,强化学习算法不需要问题的先验知识,而是通过不断探索与试错来获得优秀的策略。
[0004]强化学习根据算法主体的智能体个数可以分为单智能体算法和多智能体算法两大类。这两种算法分别基于值函数和策略梯度,在单智能体问题中 ...
【技术保护点】
【技术特征摘要】
1.一种用于形成追捕策略的强化学习模型训练方法,其特征在于,包括:将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量;依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置,得到每个所述追捕者的观测信息;将每个所述追捕者的观测信息输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量;根据所述追捕控制量,训练所述追捕强化学习模型,得到已训练的所述追捕强化学习模型。2.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量,包括:依据所有所述追捕者的信息,得到所有所述追捕者的信息中的追捕位置;依据所述逃跑者的信息,得到所述逃跑者的信息中的逃跑位置和逃跑速度;将每个所述追捕者的追捕位置和逃跑者的逃跑位置和逃跑速度输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量。3.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,已训练的所述逃跑强化学习模型的训练方式包括:获取所述逃跑者的逃跑样本位置、所述逃跑者的逃跑样本速度、所有所述追捕者的追捕样本位置;将所述逃跑样本位置、所述逃跑样本速度、所述追捕样本位置输入到所述逃跑强化学习模型,得到所述逃跑强化学习模型输出的针对所述逃跑者的逃跑控制量;通过所述逃跑控制量对所述逃跑强化学习模型进行训练,得到已训练的所述逃跑强化学习模型。4.如权利要求3所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述通过所述逃跑控制量对所述逃跑强化学习模型进行训练,得到已训练的所述逃跑强化学习模型,包括:依据所述逃跑强化学习模型,得到所述逃跑强化学习模型所涵盖的逃跑者第一强化学习模型、逃跑者第二强化学习模型、逃跑者第三强化学习模型;随机选取所述逃跑者第一强化学习模型输出的所述逃跑控制量中的逃跑第一控制量、所述逃跑者第二强化学习模型输出的所述逃跑控制量中的逃跑第二控制量、所述逃跑者第三强化学习模型输出的所述逃跑控制量中的逃跑第三控制量;随机从所述逃跑第一控制量、所述逃跑第二控制量、所述逃跑第三控制量中选取一个控制量;计算在随机选取的一个控制量作用下,追捕过程中所述逃跑者与距离所述逃跑者最近的所述追捕者之间的追逃距离;依据所述追逃距离对所述逃跑强化学习模型进行训练,得到已训练的所述逃跑强化学习模型。5.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述
依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置,得到每个所述追捕者的观测信息,包括:计算每个所述追捕者与障碍物之间的追障距离,所述障碍物为距离每个所述追捕者最近的障碍物;依据每个所述追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置、所述追障距离,得到每个所述追捕者的观测信息。6.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述将每个所述追捕者的观测信息输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量,包括:依据每个所述追捕者的观测信息,得到所述观测信息中的在简单环境下的观察信息和在复杂环境中的观察信息,所述简单环境为静态的所述逃跑者和障碍物的数量小于设定值,所述复杂环境为动态的所述逃跑者和障碍物的数量大于设定值;将每个所述追捕者在简单环境下的观察信息,输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第一速度变化量;将每个所述追捕者在复杂环境下的观察信息,输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第二速度变化量。7.如权利要求6所述的用于形成追捕策略的强化学习模型训练方法,其特征在于,所述根据每个所述追捕者的追捕控制量,训练所述追捕强化学习模型,得到已训练的所述追捕强化学习模型,包括:依据所述第一速度变化量,训练所述追捕强化学习模型,得到预训练的所述追捕强化学习模型;依据所述第二速度变化量,训练预训练之后的所述追捕强化学习模型,得到已训练的所述追捕强化学习模型。8.如权利要求1所述的用于形成追捕策略的强化学习模型训练方法,其特征...
【专利技术属性】
技术研发人员:邢介邦,丁玉隆,崔金强,孙涛,宋伟伟,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。