一种指挥智能体的决策学习方法、装置、设备及介质制造方法及图纸

技术编号：41467913 阅读：16 留言：0更新日期：2024-05-30 14:22

本发明专利技术公开了一种指挥智能体的决策学习方法、装置、设备及介质。通过构建指挥智能体组，每一指挥智能体组包括全局决策模块和局部决策智能体，局部决策智能体包括第一类型智能体和第二类型智能体；指挥智能体组包括第一对抗方的指挥智能体组和第二对抗方的指挥智能体组；分别配置第一类型智能体的自主行为决策模型和第二类型智能体的自主行为决策模型；对第一对抗方的指挥智能体组和第二对抗方的指挥智能体组进行对抗仿真，交替对第一对抗方的指挥智能体组和第二对抗方的指挥智能体组分别包括的各所述局部决策智能体的自主行为决策模型进行训练，在完成训练后，得到适用于编组对抗的智能体决策模型，提高了智能体决策模型的决策准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体协同决策建模，尤其涉及一种指挥智能体的决策学习方法、装置、设备及介质。

技术介绍

1、对多编队联合作战进行筹划、优化和推演，将筹划的内容、战场环境、战场综合态势、过程等更加具象的展现，便于对筹划的方案、任务计划等进行预先验证，及时作出调整和优化。

2、目前，现阶段的多编队联合作战通常基于qmix形成多编队协同自主行为决策模型，并采用maxent irl算法，引入可选策略采样器，对多编队协同自主行为决策模型进行迭代优化训练，得到优化后的奖励函数和决策策略。

3、但是，现有的多编队联合作战决策模型仅支持对空中打击多编队联合作战的协同对抗仿真，且在面对大规模的决策问题的情况下，难以在协同多编队联合作战的同时，做出有效的决策，决策精确度和泛化性能差。

技术实现思路

1、本专利技术提供了一种指挥智能体的决策学习方法、装置、设备及介质，以解决大规模全局决策性能差的问题。

2、根据本专利技术的一方面，提供了一种指挥智能体的决策学习方法，包括：

3、构建指挥智能体组，每一指挥智能体组包括全局决策模块和局部决策智能体，局部决策智能体包括第一类型智能体和第二类型智能体，每一类型智能体包括至少一个智能体编组；指挥智能体组包括第一对抗方的指挥智能体组和第二对抗方的指挥智能体组；

4、分别配置第一类型智能体的自主行为决策模型和第二类型智能体的自主行为决策模型；

5、对第一对抗方的指挥智能体组和第二对抗方的指挥智能体

6、根据本专利技术的另一方面，提供了一种指挥智能体的决策学习装置，包括：

7、指挥智能体组构建模块，用于构建指挥智能体组，每一指挥智能体组包括全局决策模块和局部决策智能体，局部决策智能体包括第一类型智能体和第二类型智能体，每一类型智能体包括至少一个智能体编组；指挥智能体组包括第一对抗方的指挥智能体组和第二对抗方的指挥智能体组；

8、自主行为决策模型配置模块，用于分别配置第一类型智能体的自主行为决策模型和第二类型智能体的自主行为决策模型；

9、对抗仿真模块，用于对第一对抗方的指挥智能体组和第二对抗方的指挥智能体组进行对抗仿真，并在对抗仿真过程中，交替对第一对抗方的指挥智能体组和第二对抗方的指挥智能体组分别包括的各局部决策智能体的自主行为决策模型进行训练，在完成训练后，得到适用于编组对抗的智能体决策模型。

10、根据本专利技术的另一方面，提供了一种电子设备，电子设备包括：

11、至少一个处理器；以及

12、与至少一个处理器通信连接的存储器；其中，

13、存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本专利技术任一实施例的指挥智能体的决策学习方法。

14、根据本专利技术的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本专利技术任一实施例的指挥智能体的决策学习方法。

15、本实施例的技术方案，通过构建指挥智能体组，每一指挥智能体组包括全局决策模块和局部决策智能体，局部决策智能体包括第一类型智能体和第二类型智能体，每一类型智能体包括至少一个智能体编组；指挥智能体组包括第一对抗方的指挥智能体组和第二对抗方的指挥智能体组；分别配置第一类型智能体的自主行为决策模型和第二类型智能体的自主行为决策模型；对第一对抗方的指挥智能体组和第二对抗方的指挥智能体组进行对抗仿真，并在对抗仿真过程中，交替对第一对抗方的指挥智能体组和第二对抗方的指挥智能体组分别包括的各局部决策智能体的自主行为决策模型进行训练，在完成训练后，得到适用于编组对抗的智能体决策模型，能够实现多个类型智能体的协同决策，通过将全局决策分解为局部决策，解决了大规模全局决策性能差的问题，提高了智能体决策模型的决策准确度，有助于提高指挥智能体的决策的参考价值。

16、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其他特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种指挥智能体的决策学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述全局决策模块基于专家规则创建，用于对对战对象的目标距离与预设距离进行比对，判定指挥编组任务的类型；所述编组任务的类型包括第一类型和第二类型；

3.根据权利要求2所述的方法，其特征在于，所述第一类型智能体为远程打击编组指挥智能体，第二类型智能体为中近程打击编组指挥智能体。

4.根据权利要求1所述的方法，其特征在于，所述对所述第一对抗方的指挥智能体组和所述第二对抗方的指挥智能体组进行对抗仿真，包括：

5.根据权利要求1所述的方法，其特征在于，在对所述第一对抗方的指挥智能体组和所述第二对抗方的指挥智能体组进行对抗仿真之前，还包括：

6.根据权利要求4所述的方法，其特征在于，所述对所述第一对抗方的指挥智能体组和所述第二对抗方的指挥智能体组进行对抗仿真，包括：

7.根据权利要求1所述的方法，其特征在于，分别配置所述第一类型智能体的自主行为决策模型和所述第二类型智能体的自主行为决策模型之前，还包括：

8.一种指

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的指挥智能体的决策学习方法。

...

【技术特征摘要】

1.一种指挥智能体的决策学习方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一类型智能体为远程打击编组指挥智能体，第二类型智能体为中近程打击编组指挥智能体。

4.根据权利要求1所述的方法，其特征在于，所述对所述第一对抗方的指挥智能体组和所述第二对抗方的指挥智能体组进行对抗仿真，包括：

5.根据权利要求1所述的方法，其特征在于，在对所述第一对抗方的指挥智能体组和所述第二对抗方的指...

【专利技术属性】
技术研发人员：焦文明，俞扬，徐亮，陈杰，秦熔均，赵鉴，屠作霖，程冠豪，颜雨，高耸屹，
申请(专利权)人：南栖仙策南京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人