虚拟环境下的多智能体博弈训练方法及系统技术方案

技术编号:33347770 阅读:54 留言:0更新日期:2022-05-08 09:46
本发明专利技术提出了一种虚拟环境下的多智能体博弈训练方法及系统,该方法包括:S100:构建地形模型、环境模型、地面建筑模型和待训练目标模型,并导入虚拟环境。S200:设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则。S300:在虚拟环境中对待训练目标进行多智能体博弈的训练。根据本发明专利技术提供的训练方法,通过构建地形模型、环境模型、地面建筑模型和待训练目标模型,并设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则,搭建了高逼真度的多智能体博弈环境,为多智能体博弈训练提供了场景支持,引入不同的学习算法、能够灵活变更初始想定,具有较高的泛用性和实用性。和实用性。和实用性。

【技术实现步骤摘要】
虚拟环境下的多智能体博弈训练方法及系统


[0001]本专利技术涉及多智能体博弈
,尤其涉及一种虚拟环境下的多智能体博弈训练方法及系统。

技术介绍

[0002]近年来,深度强化学习的深入研究使得多智能体博弈训练算法得到了快速的发展,在其他领域也获得了广泛的应用。在真实度较高的虚拟环境中,博弈对抗的双方面临着许多问题,如双方都是复杂的拥有连续动作空间的多智能体系统,某一方可能拥有雷达/防空等对方无法得知的手段,天气、光照不断变化等,大大增加了学习的难度。
[0003]目前市场上的多智能体博弈训练环境大多是基于实时战略(RTS)游戏和自行构想的场景,也有一些基于GIS的仿真平台接入了深度强化学习算法进行智能推演和仿真。

技术实现思路

[0004]本专利技术要解决的技术问题是如何提高多智能体博弈训练的真实度,以及如何进行智能体集群的具体行为和控制,并提高训练多智能体的协同、博弈对抗能力,提供一种虚拟环境下的多智能体博弈训练方法及系统。
[0005]本专利技术提供一种虚拟环境下的多智能体博弈训练方法,包括:
[0006]构建地形模型、环境模型、地面建筑模型和待训练目标模型,并导入虚拟环境;
[0007]设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则;
[0008]在虚拟环境中对待训练目标进行多智能体博弈的训练。
[0009]根据本专利技术提供的虚拟环境下的多智能体博弈训练方法,通过构建地形模型、环境模型、地面建筑模型和待训练目标模型,并设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则,搭建了高逼真度的多智能体博弈环境,为多智能体博弈训练提供了场景支持,进而引入不同的学习算法、能够灵活变更初始想定的特点,具有较高的泛用性和实用性。
[0010]根据本专利技术的一些实施例,设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则具体为:
[0011]使用编程语言或蓝图脚本系统,对所述待训练目标的参数进行设置,对所述待训练目标的不同状态下的动作逻辑进行设置。
[0012]在本专利技术的一些实施例中,所述方法还包括:
[0013]通过待训练目标的接口将无人设备的控制函数映射为Python语言,在Python端建立智能体模型。
[0014]根据本专利技术的一些实施例,在虚拟环境中对待训练目标进行多智能体博弈的训练包括:
[0015]将待训练目标在虚拟环境中获取的数据,经过智能算法处理、学习后,智能算法输
出控制信息,调用所述控制函数控制待训练目标的决策,并将决策映射到虚拟环境中。
[0016]在本专利技术的一些实施例中,智能算法的种类包括避障算法、航迹规划算法、深度强化学习算法。
[0017]根据本专利技术的一些实施例,所述地面建筑模型和待训练目标的交互规则包括:建筑物物理毁伤,建筑物类型、建筑物ID及建筑物坐标信息。
[0018]在本专利技术的一些实施例中,构建地形模型、环境模型、地面建筑模型和待训练目标模型包括:
[0019]通过3D扫描或仿真建模对地面建筑模型和待训练目标模型进行构建;
[0020]通过导入地形和环境数据并进行模型转换分别对地形模型和环境模型进行构建。
[0021]本专利技术还提供一种虚拟环境下的多智能体博弈训练系统,包括:
[0022]导入模块,用于构建地形模型、环境模型、地面建筑模型和待训练目标模型,并导入虚拟环境;
[0023]设置模块,设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则;
[0024]训练模块,用于在虚拟环境中对待训练目标进行多智能体博弈的训练。
[0025]根据本专利技术提供的虚拟环境下的多智能体博弈训练系统,通过构建地形模型、环境模型、地面建筑模型和待训练目标模型,并设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则,搭建了高逼真度的多智能体博弈环境,为多智能体博弈训练提供了场景支持,进而引入不同的学习算法、能够灵活变更初始想定的特点,具有较高的泛用性和实用性。
[0026]在本专利技术的一些实施例中,所述系统还包括:
[0027]映射模块,用于通过待训练目标的接口将无人设备的控制函数映射为Python语言,在Python端建立智能体模型。
[0028]根据本专利技术的一些实施例,在虚拟环境中对待训练目标进行多智能体博弈的训练包括:
[0029]将待训练目标在虚拟环境中获取的数据,经过智能算法处理、学习后,智能算法输出控制信息,调用所述控制函数控制待训练目标的决策,并将决策映射到虚拟环境中。
附图说明
[0030]图1为根据本专利技术实施例的虚拟环境下的多智能体博弈训练方法的流程示意图;
[0031]图2为根据本专利技术实施例的虚拟环境下的多智能体博弈训练系统的结构示意图;
[0032]图3为根据本专利技术实施例的虚拟环境下的多智能体博弈训练系统的功能流程图;
[0033]图4为根据本专利技术实施例的虚拟环境下的多智能体博弈训练系统的控制架构图;
[0034]图5为根据本专利技术实施例的虚拟环境下的多智能体博弈训练系统的通信组件架构图;
[0035]图6为根据本专利技术实施例的虚拟环境下的多智能体博弈训练系统的控制中心结构图;
[0036]图7为根据本专利技术实施例的虚拟环境下的多智能体博弈训练方法的蓝图脚本示意图;
[0037]图8为根据本专利技术实施例的虚拟环境下的多智能体博弈训练方法的蓝图脚本示意图。
具体实施方式
[0038]为更进一步阐述本专利技术为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本专利技术进行详细说明如后。
[0039]在现有技术中,多智能体博弈训练环境大多是基于实时战略(RTS)游戏和自行构想的场景。但如果想将智能算法应用到现实环境中,实时战略游戏不具有参考意义,自行构想的场景通常都比较单一,会有元素的缺失。
[0040]基于GIS的仿真平台通常用于大规模场景的推演,注重全局推演结果,而对于环境场景的细节描述不够清晰,不注重少量智能体集群的具体行为和控制,无法训练多智能体的协同、博弈对抗能力。
[0041]旨在至少部分解决上述技术问题,本专利技术提供了一种虚拟环境下的多智能体博弈训练方法及系统。
[0042]本专利技术提供一种虚拟环境下的多智能体博弈训练方法,如图1所示,包括:
[0043]S100:构建地形模型、环境模型、地面建筑模型和待训练目标模型,并导入虚拟环境。
[0044]S200:设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则。
[0045]S300:在虚拟环境中对待训练目标进行多智能体博弈的训练。
[0046]其中,虚拟环境可以使例如虚幻4引擎(Unreal Engine 4)和Cry 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟环境下的多智能体博弈训练方法,其特征在于,包括:构建地形模型、环境模型、地面建筑模型和待训练目标模型,并导入虚拟环境;设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则;在虚拟环境中对待训练目标进行多智能体博弈的训练。2.根据权利要求1所述的虚拟环境下的多智能体博弈训练方法,其特征在于,设置待训练目标的参数及不同状态下的动作,以及设置地面建筑模型和待训练目标的交互规则具体为:使用编程语言或蓝图脚本系统,对所述待训练目标的参数进行设置,对所述待训练目标的不同状态下的动作逻辑进行设置。3.根据权利要求1所述的虚拟环境下的多智能体博弈训练方法,其特征在于,所述方法还包括:通过待训练目标的接口将无人设备的控制函数映射为Python语言,在Python端建立智能体模型。4.根据权利要求3所述的虚拟环境下的多智能体博弈训练方法,其特征在于,在虚拟环境中对待训练目标进行多智能体博弈的训练包括:将待训练目标在虚拟环境中获取的数据,经过智能算法处理、学习后,智能算法输出控制信息,调用所述控制函数控制待训练目标的决策,并将决策映射到虚拟环境中。5.根据权利要求4所述的虚拟环境下的多智能体博弈训练方法,其特征在于,智能算法的种类包括避障算法、航迹规划算法、深度强化学习算法。6.根据权利要求1所述的虚拟环境下的多智能体博弈训练方法...

【专利技术属性】
技术研发人员:董琦赵小虎陈雨江涵立吴镇宇
申请(专利权)人:中国电子科技集团公司电子科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1