本发明专利技术提供一种群体协同决策方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法包括:基于目标无人机的局部观测信息得到观测表征向量;基于目标无人机的局部通信信息得到交互表征向量;融合观测表征向量及交互表征向量,得到环境表征向量;基于环境表征向量对目标无人机进行群体协同策略更新,由此通过根据融合后得到的环境表征向量进行群体协同策略进行更新,得到最优运行策略,以根据最优运行策略完成协同围捕任务,实现了有效地处理群体系统中无人机动态多变的局部观测信息和局部通信信息,促进无人机之间合作,提高无人机在动态变化环境下的协同围捕决策能力。人机在动态变化环境下的协同围捕决策能力。人机在动态变化环境下的协同围捕决策能力。
【技术实现步骤摘要】
群体协同决策方法、装置、电子设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种群体协同决策方法、装置、电子设备及存储介质。
技术介绍
[0002]群体系统中智能体根据在局部观测、局部通信条件下所获信息进行协同决策,这种分布式的特性决定了群体系统具有可扩展性,高适应性等性质,使其在不同任务场景中的应用提供了巨大的优势。
[0003]然而,这种特性为群体协同决策提出了挑战。特别是在实际围捕任务中,比如多个进行追捕的无人机(即追捕者)组成的无人机追捕群体系统中,通过给各个追捕者施加相应的运行策略(即追捕者运行时的位置和速度),完成对一个进行逃跑的逃跑者或者多个逃跑者的协同围捕。
[0004]由于无人机追捕群体系统中的追捕者和逃跑者之间的行为具有对抗性,因此无人机追捕群体系统中的追捕者(即进行追捕的无人机)的局部观测信息与局部通信信息也是动态变化的,包含信息内容与信息维度大小的变化,例如观测范围内障碍物或者对手的状态及数量,通信范围内的同类无人机的状态及数量。这都需要无人机的策略模型能够有效地处理动态变化的局部观察信息,同时处理与同类无人机的通信交互信息,以提高无人机在动态变化环境下的协同围捕能力。
[0005]因此,研究如何提供一种适应于信息动态变化的群体协同决策方法具有重要意义。
技术实现思路
[0006]本专利技术提供一种群体协同决策方法、装置、电子设备及存储介质,用以有效地处理无人机追捕群体系统中的无人机动态多变的局部观测信息和局部通信信息,促进无人机之间合作,提高无人机在动态变化环境下的协同围捕能力。
[0007]本专利技术提供一种群体协同决策方法,包括:基于目标无人机的局部观测信息得到观测表征向量,其中,所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息;基于所述目标无人机的局部通信信息得到交互表征向量,其中,所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量,所述同类无人机为与所述目标无人机属于友方关系的无人机;融合所述观测表征向量及所述交互表征向量,得到环境表征向量;基于所述环境表征向量对所述目标无人机的群体协同策略进行更新,得到最优运行策略,以根据所述最优运行策略完成协同围捕任务。
[0008]根据本专利技术提供的一种群体协同决策方法,所述获取目标无人机的局部观测信息中的观测表征向量,包括:
根据无人机与目标无人机之间的类型关系,将目标无人机的局部观测信息划分为多组观测信息,其中,每一组所述观测信息包括同一种所述类型关系的无人机的速度信息和位置信息;获取每一组所述观测信息对应的观测有向图及观测图注意力网络,通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对所述目标无人机节点的影响关系表征向量,其中,所述其他无人机节点为所述观测有向图中除所述目标无人机节点之外的无人机节点;对多组所述影响关系表征向量进行加权求和,得到观测表征向量。
[0009]根据本专利技术提供的一种群体协同决策方法,所述观测图注意力网络包括第一编码层、第一注意力层、第一聚集层及全连接网络层;所述通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对目标无人机节点的影响关系表征向量,包括:将所述观测有向图中各无人机节点的速度信息和位置信息输入所述第一编码层,获取所述第一编码层输出的各所述节点的高维特征向量;基于所述高维特征向量确定各所述无人机节点的键向量、查询向量及值向量;将所述其他无人机节点的键向量及所述目标无人机节点的查询向量的转置输入所述第一注意力层,获取所述第一注意力层输出的各所述其他无人机节点与所述目标无人机节点之间的第一注意力权重;将所有所述其他无人机节点的第一注意力权重及所有所述其他无人机节点的值向量输入所述第一聚集层,获取所述第一聚集层输出的目标向量;将所述目标向量及所述目标无人机节点的高维特征向量输入所述全连接网络层,获取所述全连接网络层输出的所述其他无人机节点对所述目标无人机节点的影响关系表征向量。
[0010]根据本专利技术提供的一种群体协同决策方法,所述基于所述目标无人机的局部通信信息得到交互表征向量,包括:基于所述目标无人机的局部通信信息得到所述目标无人机的局部通信拓扑图;移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边,生成相关通信拓扑图;通过通信图注意力网络提取出所述相关通信拓扑图中的交互表征向量。
[0011]根据本专利技术提供的一种群体协同决策方法,所述移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边,生成相关通信拓扑图,包括:将所述局部通信拓扑图中的目标无人机节点的观测表征向量分别与各同类无人机节点的观测表征向量拼接成特征向量;基于所述特征向量确定所述目标无人机节点与各所述同类无人机节点之间交互关系,移除交互关系为不相关的目标同类无人机节点与所述目标无人机节点之间的有向边。
[0012]根据本专利技术提供的一种群体协同决策方法,所述通信图注意力网络包括第二编码层、第二注意力层及第二聚集层;所述通过通信图注意力网络提取出所述相关通信拓扑图中的交互表征向量,包
括:将所述相关通信拓扑图中各同类无人机节点与目标无人机节点之间传递的局部通信信息输入所述第二编码层,获取所述第二编码层输出的编码后的局部通信信息;将各所述编码后的局部通信信息输入所述第二注意力层,获取所述第二注意力层输出的各所述同类无人机节点与所述目标无人机节点之间的第二注意力权重;将所有所述第二注意力权重及所有所述编码后的局部通信信息输入所述第二聚集层,获取所述第二聚集层输出的交互表征向量。
[0013]根据本专利技术提供的一种群体协同决策方法,所述基于所述环境表征向量对所述目标无人机进行群体协同策略更新,包括:将所述环境表征向量输入所述目标无人机的策略网络,获取所述策略网络输出的动作值;将所述环境表征向量输入所述目标无人机的值网络,获取所述值网络输出的标量值;基于所述动作值及所述标量值对所述目标无人机的群体协同策略进行更新。
[0014]本专利技术还提供一种群体协同决策装置,包括:第一表征模块,用于基于目标无人机的局部观测信息得到观测表征向量,其中,所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息;第二表征模块,用于基于所述目标无人机的局部通信信息得到交互表征向量,其中,所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量,所述同类无人机为与所述目标无人机属于友方关系的无人机;融合模块,用于融合所述观测表征向量及所述交互表征向量,得到环境表征向量;策略模块,用于基于所述环境表征向量对所述目标无人机的群体协同策略进行更新。
[0015]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述群体协同决策方法。
[0016]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种群体协同决策方法,其特征在于,包括:基于目标无人机的局部观测信息得到观测表征向量,其中,所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息;基于所述目标无人机的局部通信信息得到交互表征向量,其中,所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量,所述同类无人机为与所述目标无人机属于友方关系的无人机;融合所述观测表征向量及所述交互表征向量,得到环境表征向量;基于所述环境表征向量对所述目标无人机的群体协同策略进行更新,得到最优运行策略,以根据所述最优运行策略完成协同围捕任务。2.根据权利要求1所述的群体协同决策方法,其特征在于,所述基于目标无人机的局部观测信息得到观测表征向量,包括:根据无人机与目标无人机之间的类型关系,将目标无人机的局部观测信息划分为多组观测信息,其中,每一组所述观测信息包括同一种所述类型关系的无人机的速度信息和位置信息;获取每一组所述观测信息对应的观测有向图及观测图注意力网络,通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对目标无人机节点的影响关系表征向量,其中,所述其他无人机节点为所述观测有向图中除所述目标无人机节点之外的无人机节点;对多组所述影响关系表征向量进行加权求和,得到观测表征向量。3.根据权利要求2所述的群体协同决策方法,其特征在于,所述观测图注意力网络包括第一编码层、第一注意力层、第一聚集层及全连接网络层;所述通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对目标无人机节点的影响关系表征向量,包括:将所述观测有向图中各无人机节点的速度信息和位置信息输入所述第一编码层,获取所述第一编码层输出的各所述无人机节点的高维特征向量;基于所述高维特征向量确定各所述无人机节点的键向量、查询向量及值向量;将所述其他无人机节点的键向量及所述目标无人机节点的查询向量的转置输入所述第一注意力层,获取所述第一注意力层输出的各所述其他无人机节点与所述目标无人机节点之间的第一注意力权重;将所有所述其他无人机节点的第一注意力权重及所有所述其他无人机节点的值向量输入所述第一聚集层,获取所述第一聚集层输出的目标向量;将所述目标向量及所述目标无人机节点的高维特征向量输入所述全连接网络层,获取所述全连接网络层输出的所述其他无人机节点对所述目标无人机节点的影响关系表征向量。4.根据权利要求1所述的群体协同决策方法,其特征在于,所述基于所述目标无人机的局部通信信息得到交互表征向量,包括:基于所述目标无人机的局部通信信息得到所述目标无人机的局部通信拓扑图;移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边,生成相关通信拓扑图;
通过通信图注意力网络提取出所述相关通...
【专利技术属性】
技术研发人员:刘振,周志明,张天乐,易建强,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。