当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多智能体强化学习的去混淆游戏策略模型生成方法技术

技术编号:35513450 阅读:16 留言:0更新日期:2022-11-09 14:29
本发明专利技术公开了一种基于多智能体强化学习的去混淆游戏策略模型生成方法。本发明专利技术将深度学、因果推理、图网络结合在面向游戏智能体控制的多智能体强化学习中。相比于一般的多智能体强化学习算法,本发明专利技术利用因果推理中的后门准则和图网络来去除多智能体强化学习中由环境带来的混淆,有效地提升了游戏策略模型的整体性能。本发明专利技术首次在基于多智能体强化学习中的游戏策略模型生成中应用因果推理技术去除混淆,与其他主流的方法相比,本发明专利技术的性能更加优越。加优越。加优越。

【技术实现步骤摘要】
基于多智能体强化学习的去混淆游戏策略模型生成方法


[0001]本专利技术设计多智能体强化学习、深度学习、因果推理等领域,尤其涉及一种基于因果推理的去混淆游戏策略模型生成方法。

技术介绍

[0002]多智能体系统在现实生活中有着广泛的应用,比如交通控制,网络路由,机器人技术,游戏角色控制等。通过将庞大的系统分解为小的多个子系统,可以将复杂的问题分解为多个易于处理的问题。在多智能体系统中,各个智能体相互通信,相互合作,以达成共同的目标。对于多智能体系统来说,鲁棒性,可靠性,高效性是其发挥自身功能的关键因素。多智能体强化学习是实现多智能体系统的关键技术,其优势在于,各个智能体可以在不知道环境的情况下,仅仅通过与环境的交互便可以学习到合理的行为模式。深度学习的发展使得各个智能体学习更加庞而复杂的模型,可以学习处理更加复杂的子任务。基于以上优势,使用深度学习来实现多智能体强化学习已经成为近些年来的研究热点。
[0003]在游戏场景中,通过将每个单元视作单独的智能体,各个智能体相互协,可以有效的学习出游戏场景中的控制策略。“中心化训练

分布式执行”是多智能体强化学习中的标准范式,其中值分解是最主流的方法之一。值分解方法需要对每个智能体进行信用分配。现有的方法大多建立一层神经网络并利用环境全局状态信息去估计出各个智能体的信用,再用信用值去估计联合动作价值函数。然而,这种方式忽略了环境是混杂因子这一事实。由于环境这一混杂因子的存在,削弱了信用分配对于联合动作价值函数的直接因果效应,从而影响了整个多智能体系统的训练,使得游戏控制策略的不能得到有效的学习。去除环境带来的混淆是改良上述问题,学习良好的游戏控制策略的关键。

技术实现思路

[0004]本专利技术的目的是克服多智能体强化学习中的不足,提出一种基于多智能体强化学习的去混淆值分解方法,它能够去除多智能体系统中由环境带来的混淆,使得信用分配可以对联合动作价值函数有直接的因果效应,从而提升整个游戏策略模型的性能。
[0005]本专利技术具体采用的技术方案如下:
[0006]第一方面,本专利技术提供了一种基于多智能体强化学习的去混淆游戏策略模型生成方法,其包括如下步骤:
[0007]S1、查找游戏场景中每一个需要和环境进行交互且能够被游戏玩家控制的独立角色,将每个独立角色视为一个游戏智能体;
[0008]S2、对每个游戏智能体进行单独建模得到自身游戏策略模型,每个自身游戏策略模型的输入为对应角色自身在游戏环境中的观测,输出为对应角色的局部动作价值;
[0009]S3、构建一个中心评判器,其输入为游戏场景中所有游戏智能体的局部动作价值、特征和全局状态,输出为联合动作价值;
[0010]S4、每个游戏智能体与游戏环境进行交互从而获取当前的观测,再依据自身游戏
策略模型估计出游戏智能体的特征以及每个可行动作的价值,并根据价值确定下一时间步需要采取的行动;
[0011]S5、将所有游戏智能体的特征作为图网络的节点构建全局轨迹图,利用全局轨迹图的特征和全局状态的特征完成对每个游戏智能体的信用分配,并由中心评判器依据每个游戏智能体的局部动作价值以及分配到的信用估计出所有游戏智能体的联合动作价值;
[0012]S6、所有游戏智能体按照S4中确定采取的行动同时各自执行行动,并与游戏环境进行交互,游戏环境进行即时反馈,提供游戏整体状态和实时奖励;
[0013]S7、依据游戏环境提供的实时奖励,使用反向传播算法,训练整个多智能体系统,同时更新每个游戏智能体的自身游戏策略模型以及中心评判器的参数;
[0014]S8、不断重复步骤S4~S7,对游戏策略模型进行迭代训练,直至达到设定的终止条件为止,游戏场景中每一个独立角色均得到已训练的游戏策略模型。
[0015]在上述方案基础上,各步骤可以采用如下优选的具体方式实现。
[0016]作为上述第一方面的优选,所述S4的具体包括以下子步骤:
[0017]S401、对于游戏场景中的每个游戏智能体i,通过与游戏环境进行交互,得到该游戏智能体的观测变量o
i

[0018]S402、对于每个游戏智能体i,建立门控循环单元GRU,由门控循环单元GRU根据该游戏智能体的历史信息h
i
以及观测变量o
i
提取出该游戏智能体的特征τ
i

[0019]S403、对于每个游戏智能体i,建立多层感知机MLP,由多层感知机MLP根据特征τ
i
估计出该游戏智能体在下一时间步的每个可行动作的价值;
[0020]S404、对于每个游戏智能体i,基于预先选定的探索策略,根据所有可行动作的价值确定下一时间步将要执行的动作a
i
,并记录动作a
i
的价值Q
i

[0021]作为上述第一方面的优选,所述S5的具体包括以下子步骤:
[0022]S501、存储游戏场景中的所有游戏智能体的特征{τ1,τ2,


N
},N为游戏智能体的数量;
[0023]S502、构建全局轨迹图G=<V,E>,其中图的节点V={τ1,τ2,


N
},将任意两个节点进行连接,构成全局轨迹图的边E;
[0024]S503、通过带有多头注意力机制的图神经网络GNN提取全局轨迹图G的特征f
G
,其中H为多头注意力机制中的注意力头数量,f
G1
,f
G2

,f
GH
分别为利用多头注意力机制计算得到的H个特征;
[0025]S504、通过可学习的特征矩阵M,提取游戏场景的全局状态s的特征f
s
=s
×
M;
[0026]S505、利用全局轨迹图G的特征f
G
以及全局状态s的特征f
s
进行信用分配,从而估计每个游戏智能体的信用值k1,k2,

k
N
,其中该信用分配过程通过矩阵乘法实现:{k1,k2,

k
N
}=f
s
×
f
G

[0027]S506、基于所有游戏智能体的局部动作价值函数Q1,Q2,

Q
N
以及其相应的信用值k1,k2,

k
N
,计算得到联合动作价值函数
[0028]作为上述第一方面的优选,所述S7的具体包括以下子步骤:
[0029]S701、获取游戏环境提供的实时奖励r,利用贝尔曼最优方程计算TD损失
其中γ为折扣,为强化学习中目标网络(TargetNetwork)输出的联合动作价值函数估计;
[0030]S702、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的去混淆游戏策略模型生成方法,其特征在于,包括如下步骤:S1、查找游戏场景中每一个需要和环境进行交互且能够被游戏玩家控制的独立角色,将每个独立角色视为一个游戏智能体;S2、对每个游戏智能体进行单独建模得到自身游戏策略模型,每个自身游戏策略模型的输入为对应角色自身在游戏环境中的观测,输出为对应角色的局部动作价值;S3、构建一个中心评判器,其输入为游戏场景中所有游戏智能体的局部动作价值、特征和全局状态,输出为联合动作价值;S4、每个游戏智能体与游戏环境进行交互从而获取当前的观测,再依据自身游戏策略模型估计出游戏智能体的特征以及每个可行动作的价值,并根据价值确定下一时间步需要采取的行动;S5、将所有游戏智能体的特征作为图网络的节点构建全局轨迹图,利用全局轨迹图的特征和全局状态的特征完成对每个游戏智能体的信用分配,并由中心评判器依据每个游戏智能体的局部动作价值以及分配到的信用估计出所有游戏智能体的联合动作价值;S6、所有游戏智能体按照S4中确定采取的行动同时各自执行行动,并与游戏环境进行交互,游戏环境进行即时反馈,提供游戏整体状态和实时奖励;S7、依据游戏环境提供的实时奖励,使用反向传播算法,训练整个多智能体系统,同时更新每个游戏智能体的自身游戏策略模型以及中心评判器的参数;S8、不断重复步骤S4~S7,对游戏策略模型进行迭代训练,直至达到设定的终止条件为止,游戏场景中每一个独立角色均得到已训练的游戏策略模型。2.如权利要求1所述的基于多智能体强化学习的去混淆游戏策略模型生成方法,其特征在于,所述S4的具体包括以下子步骤:S401、对于游戏场景中的每个游戏智能体i,通过与游戏环境进行交互,得到该游戏智能体的观测变量o
i
;S402、对于每个游戏智能体i,建立门控循环单元GRU,由门控循环单元GRU根据该游戏智能体的历史信息h
i
以及观测变量o
i
提取出该游戏智能体的特征τ
i
;S403、对于每个游戏智能体i,建立多层感知机MLP,由多层感知机MLP根据特征τ
i
估计出该游戏智能体在下一时间步的每个可行动作的价值;S404、对于每个游戏智能体i,基于预先选定的探索策略,根据所有可行动作的价值确定下一时间步将要执行的动作a
i
,并记录动作a
i
的价值Q
i
。3.如权利要求1所述的基于多智能体强化学习的去混淆游戏策略模型生成方法,其特征在于,所述S5的具体包括以下子步骤:S501、存储游戏场景中的所有游戏智能体的特征{τ1,τ2,


N
},N为游戏智能体的数量;S502、构建全局轨迹图G=<V,E>,其中图的节点V={τ1,τ2,


N
},将任意两个节点进行连接,构成全局轨迹图的边E;S503、通过带有多头注意力机制的图神经网络GNN提取全局轨迹图G的特征f
G
,其中H为多头注意力机制中的注意力头数量,f
G1
,f
...

【专利技术属性】
技术研发人员:况琨李佳晖王趵翔刘扶芮肖俊吴飞
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1