游戏角色的行为控制方法、装置和电子设备制造方法及图纸

技术编号:38377746 阅读:10 留言:0更新日期:2023-08-05 17:37
本发明专利技术提供了一种游戏角色的行为控制方法、装置和电子设备;其中,该方法包括:获取目标游戏的当前状态数据;将当前状态数据输入至预先训练完成的机器学习模型中,得到第一输出结果;其中,第一输出结果中包括:多个预设行为操作对应的概率;获取机器学习模型的指定数量的历史输出结果;将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中,得到目标行为操作。该方式中,将机器学习模型和条件随机场模型相结合,机器学习模型和条件随机场模型均能建立状态和行为操作之间的关系,条件随机场模型还能建立行为操作之间的时序关系,可以使游戏AI的智能化程度较高;同时模型结构简单且易收敛,具有较强的应用性。具有较强的应用性。具有较强的应用性。

【技术实现步骤摘要】
游戏角色的行为控制方法、装置和电子设备


[0001]本专利技术涉及游戏
,尤其是涉及一种游戏角色的行为控制方法、装置和电子设备。

技术介绍

[0002]游戏AI(Artificial Intelligence,人工智能)也称为虚拟玩家,通过机器学习技术训练游戏AI模型,通过游戏AI模型控制游戏角色,使得该游戏角色的行为与真实玩家控制的游戏角色行为相似。游戏角色的前后行为通常具有关联性,因而,使用时序模型训练游戏AI模型,可以使游戏AI模型控制的游戏角色智能表现更佳。
[0003]相关技术中,RNN(Recurrent Neural Network,循环神经网络)和LSTM(Long Short

Term Memory,长短期记忆网络)模型可以在一定程度上建立输入数据和输出数据之间的关系,但难以建立输出数据的时序连续性,影响模型运行时的智能化程度;LSTM和CRF(Conditional Random Field,条件随机场)损失函数可以建立输入数据和输出数据、以及输出数据之间的时序关系,但模型复杂度高,难以有效收敛,导致模型的应用性较差。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种游戏角色的行为控制方法、装置和电子设备,以使游戏AI的智能化程度较高,同时使模型结构简单且易收敛,具有较强的应用性。
[0005]第一方面,本专利技术实施例提供了一种游戏角色的行为控制方法,方法包括:获取目标游戏的当前状态数据;将当前状态数据输入至预先训练完成的机器学习模型中,得到第一输出结果;其中,第一输出结果中包括:多个预设行为操作对应的概率;获取机器学习模型的指定数量的历史输出结果;其中,历史输出结果基于目标游戏的历史状态数据得到;将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中,得到目标行为操作;其中,目标行为操作包含在多个预设行为操作中,目标行为操作用于控制目标游戏角色的行为。
[0006]第二方面,本专利技术实施例提供了一种游戏角色的行为控制装置,装置包括:数据获取模块,用于获取目标游戏的当前状态数据;第一输入模块,用于将当前状态数据输入至预先训练完成的机器学习模型中,得到第一输出结果;其中,第一输出结果中包括:多个预设行为操作对应的概率;结果获取模块,用于获取机器学习模型的指定数量的历史输出结果;其中,历史输出结果基于目标游戏的历史状态数据得到;第二输入模块,用于将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中,得到目标行为操作;其中,目标行为操作包含在多个预设行为操作中,目标行为操作用于控制目标游戏角色的行为。
[0007]第三方面,本专利技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述游戏角色的行为控制方法。
[0008]第四方面,本专利技术实施例提供了一种机器可读存储介质,机器可读存储介质存储
有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述游戏角色的行为控制方法。
[0009]本专利技术实施例带来了以下有益效果:
[0010]上述游戏角色的行为控制方法、装置和电子设备,获取目标游戏的当前状态数据;将当前状态数据输入至预先训练完成的机器学习模型中,得到第一输出结果;其中,第一输出结果中包括:多个预设行为操作对应的概率;获取机器学习模型的指定数量的历史输出结果;其中,历史输出结果基于目标游戏的历史状态数据得到;将第一输出结果和历史输出结果输入至预先训练完成的条件随机场模型中,得到目标行为操作;其中,目标行为操作包含在多个预设行为操作中,目标行为操作用于控制目标游戏角色的行为。该方式中,将机器学习模型和条件随机场模型相结合,机器学习模型和条件随机场模型均能建立状态和行为操作之间的关系,条件随机场模型还能建立行为操作之间的时序关系,可以使游戏AI的智能化程度较高;同时模型结构简单且易收敛,具有较强的应用性。
[0011]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0012]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0013]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本专利技术实施例提供的一种游戏角色的行为控制方法的流程图;
[0015]图2为本专利技术实施例提供的机器学习模型的训练方式的示意图;
[0016]图3为本专利技术实施例提供的条件随机场模型的训练方式的示意图;
[0017]图4为本专利技术实施例提供的一种游戏角色的行为控制装置的结构示意图;
[0018]图5为本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0019]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]游戏AI是很多游戏中必不可少的元素,一个表现智能的游戏AI会给玩家带来更好的游戏体验。例如,Moba(Multiplayer Online Battle Arena,多人在线战术竞技)游戏中通常有与玩家一样操控英雄的游戏AI,通过游戏AI控制的游戏角色与玩家控件的游戏角色进行对抗或者协作。越来越多的游戏使用机器学习技术来训练更高强度、更智能表现的游戏AI。
[0021]游戏AI模型大多数使用非时序模型建模,除此之外,使用时序模型的技术通常使用RNN即循环神经网络,或LSTM即长短时记忆网络。其中,非时序模型无法满足对模型输出值的连续性特点建模。RNN和LSTM网络通过对网络中间层的时序记忆冗余保留,可以在一定程度上建立观测的和状态在时序上的关系,但缺点是缺少对状态时序连续性的建模。LSTM加CRF损失函数方法,模型相比于LSTM和CRF两个本身的复杂度更高,不便于训练时有效收敛。
[0022]基于上述问题,本专利技术实施例提供的一种游戏角色的行为控制方法、装置和电子设备,该技术可以应用于各类游戏中游戏AI的控制中,例如,Moba游戏中游戏AI的控制中。
[0023]为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种游戏角色的行为控制方法进行详细介绍,如图1所示,该方法可以应用于服务器、云服务器或终端设备等;该方法包括如下步骤:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种游戏角色的行为控制方法,其特征在于,所述方法包括:获取目标游戏的当前状态数据;将所述当前状态数据输入至预先训练完成的机器学习模型中,得到第一输出结果;其中,所述第一输出结果中包括:多个预设行为操作对应的概率;获取所述机器学习模型的指定数量的历史输出结果;其中,所述历史输出结果基于所述目标游戏的历史状态数据得到;将所述第一输出结果和所述历史输出结果输入至预先训练完成的条件随机场模型中,得到目标行为操作;其中,所述目标行为操作包含在所述多个预设行为操作中,所述目标行为操作用于控制目标游戏角色的行为。2.根据权利要求1所述的方法,其特征在于,所述当前状态数据包括:所述目标游戏角色的位置数据、生命值数据、物理攻击强度数据、法术攻击强度数据、物理防御力数据、法术防御力数据中的一种或多种。3.根据权利要求1所述的方法,其特征在于,所述机器学习模型通过下述方式训练得到:获取第一训练数据;其中,所述第一训练数据包括:所述目标游戏中指定游戏角色的多个游戏帧中的状态数据,以及所述状态数据对应的所述指定游戏角色的行为操作;将所述第一训练数据中的状态数据输入至所述机器学习模型的初始模型中,得到第二输出结果;将所述第一训练数据中的行为操作作为标签信息,基于所述第二输出结果和所述标签信息对所述初始模型的模型参数进行训练,直至所述初始模型收敛,得到训练完成的所述机器学习模型。4.根据权利要求1所述的方法,其特征在于,将所述第一输出结果和所述历史输出结果输入至预先训练完成的条件随机场模型中,得到目标行为操作的步骤,包括:将所述第一输出结果输入至预设的数据队列中;其中,所述数据队列具有指定长度,所述数据队列中保存有至少一个历史输出结果,所述数据队列中的数据按照输入先后顺序排列,如果输入至所述数据队列中的数据超出所述指定长度,最先输入至所述数据队列中的数据被删除;如果所述数据队列中的数据达到所述指定长度,将所述数据队列中的数据输入至预先训练完成的条件随机场模型中,输出目标行为操作。5.根据权利要求4所述的方法,其特征在于,如果所述数据队列中的数据达到所述指定长度,将所述数据队列中的数据输入至预先训练完成的条件随机场模型中,输出目标行为操作的步骤,包括:如果所述数据队列中的数据达到所述指定长度,将所述数据队列中的数据输入至预先训练完成的条件随机场模型中,输出所述数据队列中每个历史输出结果对应的行为操作标签,以及所述第一输出结果对应的行为操作标签;将所述第一输出结果对应的行为操作标签指示的行为操作,确定为目标行为操作。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:如果所述数据队列中的数据没有达到所述指定长度,将所述...

【专利技术属性】
技术研发人员:蔡康
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1