【技术实现步骤摘要】
模型的训练方法、对象的控制方法、装置、介质及设备
[0001]本公开涉及计算机
,具体地,涉及一种模型的训练方法、对象的控制方法、装置、介质及设备。
技术介绍
[0002]但是随着计算机行业和游戏行业的发展,越来越多的游戏类型出现。基于现有学习范式的游戏策略无法有效的扩展到所有的游戏类型中。相关技术中,通常可以采用游戏用户的数据来引导和训练虚拟对象AI产生策略。然而通过上述方案,基于游戏用户的数据学习得到策略无法脱离人类用户的范畴,而对于一些未上线的或者上线时间较短的游戏,由于人类用户的数据较少难以达到训练要求,甚至在部分情况下无法获得用户数据。
技术实现思路
[0003]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面,本公开提供一种深度强化学习模型的训练方法,所述方法包括:
[0005]获取第一虚拟对象与第二虚拟对象在虚拟环境中交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述第一虚拟对象在所述虚拟环境采样的状态特征下执行决策动作所得到的回报值,所述第一虚拟对象基于训练深度强化学习模型控制,所述第二虚拟对象基于所述训练深度强化学习模型对应的历史深度强化学习模型控制;
[0006]获取每一所述交互序列对应的训练奖励权重参数,其中,所述训练奖励权重参数对应于所 ...
【技术保护点】
【技术特征摘要】
1.一种深度强化学习模型的训练方法,其特征在于,所述方法包括:获取第一虚拟对象与第二虚拟对象在虚拟环境中交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述第一虚拟对象在所述虚拟环境采样的状态特征下执行决策动作所得到的回报值,所述第一虚拟对象基于训练深度强化学习模型控制,所述第二虚拟对象基于所述训练深度强化学习模型对应的历史深度强化学习模型控制;获取每一所述交互序列对应的训练奖励权重参数,其中,所述训练奖励权重参数对应于所述训练深度强化学习模型的一种决策风格类型;根据所述交互序列对应的训练奖励权重参数和所述交互序列中的回报值,确定与每一所述采样数据对应的目标回报值;根据基于每一所述采样数据的状态特征和决策动作确定出的动作价值预计值,和所述采样数据对应的目标回报值,确定所述训练深度强化学习模型的目标损失;基于所述目标损失对所述训练深度强化学习模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述训练深度强化学习模型的输出层包含多个输出分支,所述输出分支与预设的多种奖励权重参数一一对应;所述基于所述目标损失对所述训练深度强化学习模型进行训练,包括:基于所述目标损失,对所述训练深度强化学习模型中、与所述训练奖励权重参数对应的输出分支对应的参数进行更新,所述训练奖励权重参数为所述多种奖励权重参数中的一者。3.根据权利要求1所述的方法,其特征在于,所述交互序列通过以下方式生成:确定训练深度强化学习模型的训练奖励权重参数;对所述第一虚拟对象与所述第二虚拟对象在所述虚拟环境的交互进行采样,获得所述第一虚拟对象对应的状态特征;基于所述状态特征、所述训练奖励权重参数和所述训练深度强化学习模型,确定所述第一虚拟对象在所述状态特征下的决策动作,以基于所述决策动作控制所述第一虚拟对象的操作,并返回对所述第一虚拟对象与所述第二虚拟对象在所述虚拟环境的交互进行采样,获得所述第一虚拟对象对应的状态特征的步骤,直至交互回合结束;将所述交互回合中采样所得的采样数据按照采样时间的先后顺序进行排序,获得所述交互序列,并将所述交互序列与所述训练奖励权重参数进行关联,其中,每一所述采样数据包括在所述虚拟环境处于状态特征下执行决策动作所得到的回报值。4.根据权利要求3所述的方法,其特征在于,所述训练深度强化学习模型的输出层包含多个输出分支,所述输出分支与预设的多种奖励权重参数一一对应;所述基于所述状态特征、所述训练奖励权重参数和所述训练深度强化学习模型,确定所述第一虚拟对象在所述状态特征下的决策动作,包括:将所述状态特征和所述训练奖励权重参数输入所述训练深度强化学习模型,以由所述训练深度强化学习模型的特征层对所述状态特征和所述训练奖励权重参数进行特征提取,基于提取出的特征获得所述输出层的多个输出分支对应的子输出,并根据所述训练深度强化学习模型中与所述训练奖励权重参数对应的输出分支对应的子输出,确定所述决策动作。
5.根据权利要求3所述的方法,其特征在于,所述基于所述状态特征、所述训练奖励权重参数和所述训练深度强化学习模型,确定所述第一虚拟对象在所述状态特征下的决策动作,包括:将所述状态特征和所述训练奖励权重参数输入所述训练深度强化学习模型,根据所述训练深度强化学习模型的输出确定所述决策动作;其中,所述训练深度强化学习模型中包含神经网络特征层、类型特征层和注意力层;所述神经网络特征层用于确定所述状态特征对应的状态特征向量和所述训练奖励权重参数对应的参数特征向量,所述类型特征层用于基于所述状态特征向量和所述参数特征向量,确定所述类型特征层下每一候选类型对应的类型特征向量,其中所述候选类型与隐层决策风格一一对应;所述注意力层用于基于注意力机制根据所述参数特征向量对每一类型对应的类型特征向量进行融合,并根据融合结果确定所述训练深度强化学习模型的输出。6.根据权利要求1所述的方法,其特征在于,所述第一虚拟对象和所述第二虚拟对象的角色类型不同,所述历史深度强化学习模型和所述训练深度强化学习模型分别对应的训练奖励权重参数不同;所述第二虚拟对象对应的角色类型和所述历史深度强化学习模型对应的训练奖励权重参数通过以下方式确定:获取所述训练深度强化学习模型控制的第一虚拟对象对应的训练角色类型;确定所述训练角色类型对应的虚拟对象、与预设的多个角色类型中除所述训练角色类型之外的每一候选角色类型对应的虚拟对象之间的第一目标胜率;确定基...
【专利技术属性】
技术研发人员:付悦,黄学峰,邓诗弘,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。