System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能技术,尤其涉及一种基于自适应策略调整的卡牌类游戏深度学习训练方法及系统。
技术介绍
1、近年来,智能决策已成为人工智能研究的重要方向,众多高效的算法和ai系统应运而生。其中,处理非完美信息博弈尤为困难,因为这涉及到决策过程中的不确定性和多重复杂性。卡牌类游戏因其典型的非完美信息特点,以及清晰直观的状态动作和游戏规则,已成为研究这类博弈的主要平台。
2、当前非完美信息博弈问题求解方法主要包括博弈均衡求解类方法和深度强化学习类方法,二者针对不同的具体场景各有优劣,当前有许多顶级卡牌类游戏ai是基于这些算法设计的。对于具有复杂状态空间的卡牌类游戏,往往使用深度强化学习类算法进行离线自博弈训练,得到较优的策略,然后在在线对抗阶段用该策略进行决策。深度蒙特卡洛(dmc)方法是卡牌类游戏中常用的训练方法,然而其存在一些问题。一方面,由于dmc采用自博弈的方式,训练初期的q值不稳定,因此对策略的选择会产生误导,训练速度慢;另一方面,dmc难以把控状态动作之间的相似性,对于大量的状态动作对,都需要不断采样学习,这也会导致收敛缓慢,训练速度慢。
技术实现思路
1、针对现有技术存在的问题,本专利技术的目的是提供一种训练速度更快的基于自适应策略调整的卡牌类游戏深度学习训练方法及系统。
2、为了实现上述专利技术目的,本专利技术所述的基于自适应策略调整的卡牌类游戏深度学习训练方法,包括如下步骤:
3、步骤1:采用价值神经网络构建卡牌类游戏的策略基本模
4、步骤2:获取卡牌类游戏的经验知识,所述经验知识为在每一游戏状态下执行的游戏动作中奖励值最大的状态动作对的集合;
5、步骤3:建立自适应经验知识融合正则项计算规则,所述自适应经验知识融合正则项为所有状态动作对与经验知识的差异损失;
6、步骤4:建立自适应状态动作约简损失计算规则,所述自适应状态动作约简损失为按照任意两个不同的状态动作对执行时在对局结束获得的累积回报之间的差值、与这两个状态动作对的相似度,之间的差异损失;
7、步骤5:对所述策略基本模型通过自博弈的方式采样,并使用包括自博弈损失和自适应策略调整损失的总损失函数和梯度下降法进行模型参数更新,完成训练;其中,所述自适应策略调整损失包括自适应经验知识融合正则项和自适应状态动作约简损失。
8、进一步的,所述经验知识具体为满足如下规则的状态动作对:
9、f={(s,f(s))|q(s,f(s))≥q(s,a)},svs,f(s)∈a,a∈a
10、式中,f为经验知识,f(s)为在游戏状态s下奖励值最大时执行的游戏动作,q(s,f(s))为在游戏状态s下执行游戏动作f(s)对应的奖励值,q(s,a)为在游戏状态s下执行游戏动作a对应的奖励值,s为游戏状态集合,a为游戏动作集合。
11、进一步的,所述自适应经验知识融合正则项计算规则具体为:
12、re(θ)=e[max(q(s,a|θ)-q(s,f(s)|θ),0)]
13、式中,re(θ)为自适应经验知识融合正则项,e[]表示求平均值。
14、进一步的,所述自适应状态动作约简损失计算规则具体为:
15、
16、
17、式中,为自适应状态动作约简损失,s为游戏状态集合,a为游戏动作集合,si,sj为s中第i,j个游戏状态,ai,aj为a中第i,j个游戏动作,且i≠j,g(si,ai)为在游戏状态si下执行游戏动作ai到对局结束获得的累积回报,g(sj,aj)为在游戏状态sj下执行游戏动作aj到对局结束获得的累积回报,u(φ(si,ai),φ(sj,aj))为状态动作对(si,ai)与(sj,aj)的相似度,φ()为价值神经网络中的表示层的模型参数,β为超参数,δ()表示求夹角,||||2表示2-范数。
18、进一步的,所述自适应策略调整损失具体为:
19、
20、式中,为自适应策略调整损失,αe和αs分别为对应损失的权重,re(θ)为自适应经验知识融合正则项,为自适应状态动作约简损失。
21、本专利技术所述的基于自适应策略调整的卡牌类游戏深度学习训练系统,包括:
22、模型构建模块,用于采用价值神经网络构建卡牌类游戏的策略基本模型,所述策略基本模型用于预测卡牌类游戏中每一游戏状态下执行每一游戏动作的奖励值;
23、经验知识获取模块,用于获取卡牌类游戏的经验知识,所述经验知识为在每一游戏状态下执行的游戏动作中奖励值最大的状态动作对的集合;
24、第一计算规则建立模块,用于建立自适应经验知识融合正则项计算规则,所述自适应经验知识融合正则项为所有状态动作对与经验知识的差异损失;
25、第二计算规则建立模块,用于建立自适应状态动作约简损失计算规则,所述自适应状态动作约简损失为按照任意两个不同的状态动作对执行时在对局结束获得的累积回报之间的差值、与这两个状态动作对的相似度,之间的差异损失;
26、训练模块,用于对所述策略基本模型通过自博弈的方式采样,并使用包括自博弈损失和自适应策略调整损失的总损失函数和梯度下降法进行模型参数更新,完成训练;其中,所述自适应策略调整损失包括自适应经验知识融合正则项和自适应状态动作约简损失。
27、进一步的,所述经验知识具体为满足如下规则的状态动作对:
28、f={(s,f(s))|q(s,f(s))≥q(s,a)},s∈s,f(s)∈a,a∈a
29、式中,f为经验知识,f(s)为在游戏状态s下奖励值最大时执行的游戏动作,q(s,f(s))为在游戏状态s下执行游戏动作f(s)对应的奖励值,q(s,a)为在游戏状态s下执行游戏动作a对应的奖励值,s为游戏状态集合,a为游戏动作集合。
30、进一步的,所述自适应经验知识融合正则项计算规则具体为:
31、re(θ)=e[max(q(s,a|θ)-q(s,f(s)|θ),0)]
32、式中,re(θ)为自适应经验知识融合正则项,e[]表示求平均值。
33、进一步的,所述自适应状态动作约简损失计算规则具体为:
34、
35、
36、式中,为自适应状态动作约简损失,s为游戏状态集合,a为游戏动作集合,si,sj为s中第i,j个游戏状态,ai,aj为a中第i,j个游戏动作,且i≠j,g(si,ai)为在游戏状态si下执行游戏动作ai到对局结束获得的累积回报,g(sj,aj)为在游戏状态sj下执行游戏动作aj到对局结束获得的累积回报,u(φ(si,ai),φ(sj,aj))为状态动作对(si,aix与(sj,aj)的相似度,φ()为价值神经网络中的表示层的模型参数,β为超参数,δ()表示求夹角,||||2表示2-范数。
本文档来自技高网...【技术保护点】
1.一种基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,所述经验知识具体为满足如下规则的状态动作对:
3.根据权利要求2所述的基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,所述自适应经验知识融合正则项计算规则具体为:
4.根据权利要求1所述的基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,所述自适应状态动作约简损失计算规则具体为:
5.根据权利要求1所述的基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,所述自适应策略调整损失具体为:
6.一种基于自适应策略调整的卡牌类游戏深度学习训练系统,其特征在于,包括:
7.根据权利要求6所述的基于自适应策略调整的卡牌类游戏深度学习训练系统,其特征在于,所述经验知识具体为满足如下规则的状态动作对:
8.根据权利要求7所述的基于自适应策略调整的卡牌类游戏深度学习训练系统,其特征在于,所述自适应经验知识融合正则项计算
9.根据权利要求6所述的基于自适应策略调整的卡牌类游戏深度学习训练系统,其特征在于,所述自适应状态动作约简损失计算规则具体为:
10.根据权利要求6所述的基于自适应策略调整的卡牌类游戏深度学习训练系统,其特征在于,所述自适应策略调整损失具体为:
...【技术特征摘要】
1.一种基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,所述经验知识具体为满足如下规则的状态动作对:
3.根据权利要求2所述的基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,所述自适应经验知识融合正则项计算规则具体为:
4.根据权利要求1所述的基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,所述自适应状态动作约简损失计算规则具体为:
5.根据权利要求1所述的基于自适应策略调整的卡牌类游戏深度学习训练方法,其特征在于,所述自适应策略调整损失具体为:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。