模型的训练方法、对象的控制方法、装置、介质及设备制造方法及图纸

技术编号:34624503 阅读:15 留言:0更新日期:2022-08-20 09:32
本公开涉及一种模型的训练方法、对象的控制方法、装置、介质及设备,所述方法包括:获取第一虚拟对象与第二虚拟对象在虚拟环境中交互所产生的交互序列,交互序列包括多个采样数据;获取每一交互序列对应的训练奖励权重参数,训练奖励权重参数对应于训练深度强化学习模型的一种决策风格类型;根据交互序列对应的训练奖励权重参数和交互序列中的回报值,确定与每一采样数据对应的目标回报值;根据基于每一采样数据的状态特征和决策动作确定出的动作价值预计值,和采样数据对应的目标回报值,确定训练深度强化学习模型的目标损失;基于目标损失对训练深度强化学习模型进行训练。标损失对训练深度强化学习模型进行训练。标损失对训练深度强化学习模型进行训练。

【技术实现步骤摘要】
模型的训练方法、对象的控制方法、装置、介质及设备


[0001]本公开涉及计算机
,具体地,涉及一种模型的训练方法、对象的控制方法、装置、介质及设备。

技术介绍

[0002]但是随着计算机行业和游戏行业的发展,越来越多的游戏类型出现。基于现有学习范式的游戏策略无法有效的扩展到所有的游戏类型中。相关技术中,通常可以采用游戏用户的数据来引导和训练虚拟对象AI产生策略。然而通过上述方案,基于游戏用户的数据学习得到策略无法脱离人类用户的范畴,而对于一些未上线的或者上线时间较短的游戏,由于人类用户的数据较少难以达到训练要求,甚至在部分情况下无法获得用户数据。

技术实现思路

[0003]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面,本公开提供一种深度强化学习模型的训练方法,所述方法包括:
[0005]获取第一虚拟对象与第二虚拟对象在虚拟环境中交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述第一虚拟对象在所述虚拟环境采样的状态特征下执行决策动作所得到的回报值,所述第一虚拟对象基于训练深度强化学习模型控制,所述第二虚拟对象基于所述训练深度强化学习模型对应的历史深度强化学习模型控制;
[0006]获取每一所述交互序列对应的训练奖励权重参数,其中,所述训练奖励权重参数对应于所述训练深度强化学习模型的一种决策风格类型;
[0007]根据所述交互序列对应的训练奖励权重参数和所述交互序列中的回报值,确定与每一所述采样数据对应的目标回报值;
[0008]根据基于每一所述采样数据的状态特征和决策动作确定出的动作价值预计值,和所述采样数据对应的目标回报值,确定所述训练深度强化学习模型的目标损失;
[0009]基于所述目标损失对所述训练深度强化学习模型进行训练。
[0010]第二方面,本公开提供一种虚拟对象的控制方法,所述方法包括:
[0011]确定目标对局中目标虚拟对象匹配的由用户进行控制的交互虚拟对象,其中,所述目标虚拟对象基于目标深度强化学习模型进行控制,其中,所述目标深度强化学习模型为基于第一方面所述的深度强化学习模型的训练方法进行训练所得的;
[0012]根据所述目标对局中所述目标虚拟对象的行为类型,从多种奖励权重参数中确定所述目标虚拟对象的目标奖励权重参数,其中,所述目标奖励权重参数对应于所述目标深度强化学习模型的一种决策风格类型;
[0013]对所述目标虚拟对象与所述交互虚拟对象在虚拟环境中的交互进行采样,获得目
标状态特征;
[0014]基于所述目标状态特征、所述目标奖励权重参数和所述目标深度强化学习模型,确定所述目标虚拟对象在所述目标状态特征下的目标决策动作,以基于所述目标决策动作控制所述目标虚拟对象的操作。
[0015]第三方面,本公开提供一种深度强化学习模型的训练装置,所述装置包括:
[0016]第一获取模块,用于获取第一虚拟对象与第二虚拟对象在虚拟环境中交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述第一虚拟对象在所述虚拟环境采样的状态特征下执行决策动作所得到的回报值,所述第一虚拟对象基于训练深度强化学习模型控制,所述第二虚拟对象基于所述训练深度强化学习模型对应的历史深度强化学习模型控制;
[0017]第二获取模块,用于获取每一所述交互序列对应的训练奖励权重参数,其中,所述训练奖励权重参数对应于所述训练深度强化学习模型的一种决策风格类型;
[0018]第一确定模块,用于根据所述交互序列对应的训练奖励权重参数和所述交互序列中的回报值,确定与每一所述采样数据对应的目标回报值;
[0019]第二确定模块,用于根据基于每一所述采样数据的状态特征和决策动作确定出的动作价值预计值,和所述采样数据对应的目标回报值,确定所述训练深度强化学习模型的目标损失;
[0020]训练模块,用于基于所述目标损失对所述训练深度强化学习模型进行训练。
[0021]第四方面,本公开提供一种虚拟对象的控制装置,所述装置包括:
[0022]第三确定模块,用于确定目标对局中目标虚拟对象匹配的由用户进行控制的交互虚拟对象,其中,所述目标虚拟对象基于目标深度强化学习模型进行控制,其中,所述目标深度强化学习模型为基于第二方面所述的深度强化学习模型的训练方法进行训练所得的;
[0023]第四确定模块,用于根据所述目标对局中所述目标虚拟对象的行为类型,从多种奖励权重参数中确定所述目标虚拟对象的目标奖励权重参数,其中,所述目标奖励权重参数对应于所述目标深度强化学习模型的一种决策风格类型;
[0024]采样模块,用于对所述目标虚拟对象与所述交互虚拟对象在虚拟环境中的交互进行采样,获得目标状态特征;
[0025]控制模块,用于基于所述目标状态特征、所述目标奖励权重参数和所述目标深度强化学习模型,确定所述目标虚拟对象在所述目标状态特征下的目标决策动作,以基于所述目标决策动作控制所述目标虚拟对象的操作。
[0026]第五方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面或者第二方面所述方法的步骤。
[0027]第六方面,本公开提供一种电子设备,包括:
[0028]存储装置,其上存储有计算机程序;
[0029]处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面或第二方面所述方法的步骤。
[0030]在上述技术方案中,获取第一虚拟对象与第二虚拟对象在虚拟环境中交互所产生的交互序列,进而可以根据交互序列对应的训练奖励权重参数和所述交互序列中的回报值,确定与每一采样数据对应的目标回报值,进一步地基于该目标回报值进行损失计算以
对训练深度强化学习模型进行训练。由此,通过上述技术方案,可以分别基于当前训练深度强化学习模型和其对应的历史深度强化学习模型控制的虚拟对象进行交互所生成的交互序列进行模型训练,从而可以直接基于模型生成的交互数据进行训练,无需真实用户的操作数据,降低模型训练过程中对真实用户的数据的依赖,既可以避免真实用户的策略对模型的探索策略空间的约束,又能够适用于未上线的或者上线时间较短的游戏对应的模型的训练场景。并且,针对每一交互序列,其具有对应的训练奖励权重参数,且每一训练奖励权重参数对应于一种训练深度强化学习模型的一种决策风格类型,以使得在对训练深度强化学习模型的训练过程中,通过不同的交互序列对应的训练奖励权重参数引导该训练深度强化学习模型向不同的决策策略风格进行分化,以提高训练所得的模型中的决策风格的多样性,能够基于同一模型适用于不同风格下的对战控制,无需针对不同决策风格训练不同的模型,进一步降低训练成本并且提升模型的训练效率。
[0031]本公开的其他特征和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度强化学习模型的训练方法,其特征在于,所述方法包括:获取第一虚拟对象与第二虚拟对象在虚拟环境中交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述第一虚拟对象在所述虚拟环境采样的状态特征下执行决策动作所得到的回报值,所述第一虚拟对象基于训练深度强化学习模型控制,所述第二虚拟对象基于所述训练深度强化学习模型对应的历史深度强化学习模型控制;获取每一所述交互序列对应的训练奖励权重参数,其中,所述训练奖励权重参数对应于所述训练深度强化学习模型的一种决策风格类型;根据所述交互序列对应的训练奖励权重参数和所述交互序列中的回报值,确定与每一所述采样数据对应的目标回报值;根据基于每一所述采样数据的状态特征和决策动作确定出的动作价值预计值,和所述采样数据对应的目标回报值,确定所述训练深度强化学习模型的目标损失;基于所述目标损失对所述训练深度强化学习模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述训练深度强化学习模型的输出层包含多个输出分支,所述输出分支与预设的多种奖励权重参数一一对应;所述基于所述目标损失对所述训练深度强化学习模型进行训练,包括:基于所述目标损失,对所述训练深度强化学习模型中、与所述训练奖励权重参数对应的输出分支对应的参数进行更新,所述训练奖励权重参数为所述多种奖励权重参数中的一者。3.根据权利要求1所述的方法,其特征在于,所述交互序列通过以下方式生成:确定训练深度强化学习模型的训练奖励权重参数;对所述第一虚拟对象与所述第二虚拟对象在所述虚拟环境的交互进行采样,获得所述第一虚拟对象对应的状态特征;基于所述状态特征、所述训练奖励权重参数和所述训练深度强化学习模型,确定所述第一虚拟对象在所述状态特征下的决策动作,以基于所述决策动作控制所述第一虚拟对象的操作,并返回对所述第一虚拟对象与所述第二虚拟对象在所述虚拟环境的交互进行采样,获得所述第一虚拟对象对应的状态特征的步骤,直至交互回合结束;将所述交互回合中采样所得的采样数据按照采样时间的先后顺序进行排序,获得所述交互序列,并将所述交互序列与所述训练奖励权重参数进行关联,其中,每一所述采样数据包括在所述虚拟环境处于状态特征下执行决策动作所得到的回报值。4.根据权利要求3所述的方法,其特征在于,所述训练深度强化学习模型的输出层包含多个输出分支,所述输出分支与预设的多种奖励权重参数一一对应;所述基于所述状态特征、所述训练奖励权重参数和所述训练深度强化学习模型,确定所述第一虚拟对象在所述状态特征下的决策动作,包括:将所述状态特征和所述训练奖励权重参数输入所述训练深度强化学习模型,以由所述训练深度强化学习模型的特征层对所述状态特征和所述训练奖励权重参数进行特征提取,基于提取出的特征获得所述输出层的多个输出分支对应的子输出,并根据所述训练深度强化学习模型中与所述训练奖励权重参数对应的输出分支对应的子输出,确定所述决策动作。
5.根据权利要求3所述的方法,其特征在于,所述基于所述状态特征、所述训练奖励权重参数和所述训练深度强化学习模型,确定所述第一虚拟对象在所述状态特征下的决策动作,包括:将所述状态特征和所述训练奖励权重参数输入所述训练深度强化学习模型,根据所述训练深度强化学习模型的输出确定所述决策动作;其中,所述训练深度强化学习模型中包含神经网络特征层、类型特征层和注意力层;所述神经网络特征层用于确定所述状态特征对应的状态特征向量和所述训练奖励权重参数对应的参数特征向量,所述类型特征层用于基于所述状态特征向量和所述参数特征向量,确定所述类型特征层下每一候选类型对应的类型特征向量,其中所述候选类型与隐层决策风格一一对应;所述注意力层用于基于注意力机制根据所述参数特征向量对每一类型对应的类型特征向量进行融合,并根据融合结果确定所述训练深度强化学习模型的输出。6.根据权利要求1所述的方法,其特征在于,所述第一虚拟对象和所述第二虚拟对象的角色类型不同,所述历史深度强化学习模型和所述训练深度强化学习模型分别对应的训练奖励权重参数不同;所述第二虚拟对象对应的角色类型和所述历史深度强化学习模型对应的训练奖励权重参数通过以下方式确定:获取所述训练深度强化学习模型控制的第一虚拟对象对应的训练角色类型;确定所述训练角色类型对应的虚拟对象、与预设的多个角色类型中除所述训练角色类型之外的每一候选角色类型对应的虚拟对象之间的第一目标胜率;确定基...

【专利技术属性】
技术研发人员:付悦黄学峰邓诗弘
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1