多智能体博弈种群策略多样性提升方法及装置制造方法及图纸

技术编号：42610770 阅读：22 留言：0更新日期：2024-09-03 18:18

本发明专利技术提供一种多智能体博弈种群策略多样性提升方法及装置，涉及多智能体博弈对抗技术领域，所述方法基于博弈种群迭代算法生成不同概率分布的对手池，进行不同的训练任务，获得具有不同参数的前向决策模型，进而得到用于多智能体博弈的多样化的策略种群，实现了复杂的多参与方的多智能体博弈环境下的决策策略生成以及策略多样性的提升，使得多智能体在环境变量和对手策略未知的情况下进行博弈时，拥有种类更多且更为鲁棒的博弈种群策略。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体博弈对抗，尤其涉及一种多智能体博弈种群策略多样性提升方法及装置。

技术介绍

1、近年来随着人工智能算法和算力的突破性发展，利用分布式深度强化学习算法解决多智能体博弈对抗的决策问题得到了广泛的关注和实践。

2、公开号cn116167442a，公开了一种多智能体复杂博弈系统的软控制方法，基于q-learning学习方法结合资源优化配置任务在软控制下的模型，结合博弈论动力学背景下多智能体相互作用，在复杂的资源配置系统中实现无外部干预条件下对系统群体行为的控制，进而提升系统整体运行效益。作用于多智能体复杂博弈系统问题下，通过关注集群少数个体状态转换进而在花费较少的资源情况前提下，解决复杂系统广义资源优化配置问题，通过个体级别的决策影响群体的选择，证明了系统的软控制对低消耗控制复杂系统达到其优化状态非常有利。

3、公开号cn114676757a，公开了一种多人非完备信息博弈游戏策略生成方法和装置，包括：获取玩家决策前的博弈状态信息；基于共享策略网络和博弈状态信息确定最优决策动作，以便玩家参考最优决策动作制定目标的决策动作；其中，共享策略网络，是预先利用共享数据集中的博弈样本训练的强化学习网络。本专利技术共享策略网络是一种强化学习网络结构，主要采用离线方式进行学习，将大量用于学习的计算量放在训练阶段，从而在使用阶段只需要以博弈状态信息为切入点调用训练好的策略网络即可实时决策，避免了其他博弈策略搜索算法搜索过程中计算量大以及耗时长的问题。

4、目前已有的分布式深度强化学习方法在接近现实

技术实现思路

1、有鉴于此，本专利技术提供一种多智能体博弈种群策略多样性提升方法及装置，用以解决现有技术中上述问题。

2、本专利技术提供一种多智能体博弈种群策略多样性提升方法，包括如下步骤。

3、获取智能体当前态势的态势特征；

4、输入所述态势特征至前向决策模型，得到前向决策模型输出的网络决策结果；

5、基于所述网络决策结果，通过智能体模型得到环境动作，并存储至样本集；

6、基于所述样本集，通过反向训练模型更新前向决策模型的模型参数；

7、通过博弈种群迭代算法，建立不同训练任务对应的策略种群；其中，所述策略种群表示为更新参数后的前向决策模型的集合。

8、根据本专利技术提供的一种多智能体博弈种群策略多样性提升方法，所述通过博弈种群迭代算法，建立不同训练任务下对应的策略种群，包括：

9、通过博弈种群迭代算法生成不同概率分布的对手池；

10、基于所述对手池对策略种群进行训练，得到不同训练任务对应的策略种群。

11、根据本专利技术提供的一种多智能体博弈种群策略多样性提升方法，所述通过博弈种群迭代算法生成不同概率分布的对手池，包括：

12、在所述博弈种群迭代算法为自博弈迭代算法的情况下，所述对手池中的对手为当前种群上一轮生成的策略；

13、在所述博弈种群迭代算法为虚拟自博弈迭代算法的情况下，所述对手池中的对手为所有种群中的所有历史策略，并且每个对手的采样概率相同；

14、在所述博弈种群迭代算法为优先级虚拟自博弈迭代算法的情况下，所述对手池中的对手为所有种群中的所有历史策略，并且每个对手的采样概率基于优先级计算。

15、根据本专利技术提供的一种多智能体博弈种群策略多样性提升方法，所述基于所述样本集，通过反向训练模型更新前向决策模型的模型参数，包括以下步骤：

16、对样本集进行结构化处理和筛选，生成训练样本；

17、基于所述训练样本进行模型训练，更新反向训练模型的模型参数；

18、基于更新后的反向训练模型的模型参数更新同一任务中的前向决策模型的模型参数。

19、根据本专利技术提供的一种多智能体博弈种群策略多样性提升方法，所述基于所述训练样本进行模型训练，更新反向训练模型的模型参数，包括：

20、通过损失函数梯度下降法反向更新反向训练模型的模型参数，其中，损失函数的形式化描述为：

21、

22、

23、

24、

25、其中，表示在时刻下，基于当前模型策略计算得到的总损失；表示在时刻下的期望函数；表示在时刻下，基于当前模型策略计算得到的策略网络模型的损失；表示损失值的系数；表示在时刻下，基于当前模型策略计算得到的值网络模型的损失；表示在时刻下，基于当前模型策略计算得到的新旧策略比率；表示在时刻下，样本中的优势值；表示在时刻下，按照范围裁剪后计算得到的新旧策略比率，，且与均为预设常数；表示根据在时刻下的态势特征，基于当前模型策略计算得到动作的概率；表示根据在时刻下的态势特征，基于历史策略计算得到动作的概率；表示根据在时刻下的态势特征，基于当前模型策略计算得到的价值网络模型输出的评估值；表示在时刻下的目标价值。

26、根据本专利技术提供的一种多智能体博弈种群策略多样性提升方法，还包括：

27、基于不同训练任务对应的策略种群，多智能体之间进行博弈；

28、基于所述博弈的结果，通过博弈种群评估算法，计算多智能体之间博弈得分；

29、基于所述博弈得分，评估所述策略种群的多样性提升效果。

30、本专利技术还提供一种多智能体博弈种群策略多样性提升装置，包括如下模块：

31、获取模块，用于获取智能体当前态势的态势特征；

32、决策模块，用于输入所述态势特征至前向决策模型，得到前向决策模型输出的网络决策结果；

33、动作模块，用于基于所述网络决策结果，通过智能体模型得到环境动作，并存储至样本集；

34、更新模块，用于基于所述样本集，通过反向训练模型更新前向决策模型的模型参数；

35、建立模块，通过博弈种群迭代算法，建立不同训练任务对应的策略种群；其中，所述策略种群表示为更新参数后的前向决策模型的集合。

36、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述多智能体博弈种群策略多样性提升方法。

37、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多智能体博弈种群策略多样性提升方法。

38、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述多智能体博弈种群策略多样性提升方法。

39、本专利技术提供的一种多智能体博弈种群策略多样性提升方法及装置，基于博弈种群迭代算法生成不同概率分布的对手池，进行不同的训练任务，获得具有不同参数的前向决策模型，进而得到用于多本文档来自技高网...

【技术保护点】

1.一种多智能体博弈种群策略多样性提升方法，其特征在于，包括：

2.根据权利要求1所述的多智能体博弈种群策略多样性提升方法，其特征在于，所述通过博弈种群迭代算法，建立不同训练任务对应的策略种群，包括：

3.根据权利要求2所述的多智能体博弈种群策略多样性提升方法，其特征在于，所述通过博弈种群迭代算法生成不同概率分布的对手池，包括：

4.根据权利要求1所述的多智能体博弈种群策略多样性提升方法，其特征在于，所述基于所述样本集，通过反向训练模型更新前向决策模型的模型参数，包括以下步骤：

5.根据权利要求4所述的多智能体博弈种群策略多样性提升方法，其特征在于，所述基于所述训练样本进行模型训练，更新反向训练模型的模型参数，包括：

6.根据权利要求1所述的多智能体博弈种群策略多样性提升方法，其特征在于，还包括：

7.一种多智能体博弈种群策略多样性提升装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多智能体博弈种群策略多样性提升方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多智能体博弈种群策略多样性提升方法。

...

【技术特征摘要】

1.一种多智能体博弈种群策略多样性提升方法，其特征在于，包括：

2.根据权利要求1所述的多智能体博弈种群策略多样性提升方法，其特征在于，所述通过博弈种群迭代算法，建立不同训练任务对应的策略种群，包括：

3.根据权利要求2所述的多智能体博弈种群策略多样性提升方法，其特征在于，所述通过博弈种群迭代算法生成不同概率分布的对手池，包括：

6.根据权利...

【专利技术属性】
技术研发人员：尹奇跃，于彤彤，李晶华，黄凯奇，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人