3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质技术方案

技术编号:37998821 阅读:13 留言:0更新日期:2023-06-30 10:12
本发明专利技术公开了一种3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质,本发明专利技术提供的3v3贪吃蛇游戏自动控制中,涉及了合作与竞争的概念,因此,考虑了团队合作和竞争的因素,吸收了传统方法的设计思路,引用了最新的深度强化学习技术,大大提升了人工智能在3v3贪吃蛇自动控制中的性能,并且,还可以记录对局过程,有助于科研人员对自动博弈的学术研究。于科研人员对自动博弈的学术研究。于科研人员对自动博弈的学术研究。

【技术实现步骤摘要】
3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质。

技术介绍

[0002]近年来,深度强化学习取得了令人瞩目的成果。由于与现实场景类似并具有良好的交互性等特点,游戏成为了深度强化学习技术理想的实验温床。目前,人工智能技术在简单的游戏场景中已经取得了超越人类的水平,研究热点开始转向环境更加复杂的游戏。在贪吃蛇游戏中,玩家控制蛇一边吃豆子,一边避免碰撞自身和障碍物。后来贪吃蛇又衍生出团战模式、赏金模式、挑战模式等多种玩法。作为贪吃蛇游戏的一个衍生版本,3v3贪吃蛇增加了豆子、蛇和玩家的数量,为游戏增加了团队合作和竞争因素,游戏复杂度剧增。
[0003]目前使用传统的路径搜索加决策树的方法是根据游戏对局的当前信息,借助深度优先搜索和广度优先搜索算法,在地图中为每条蛇选出一条对自己来说相对安全的路径。但这种方法不会考虑别的蛇的状态信息,团队之间基本没有合作关系,从整个团队的角度来考虑,这种做法在实际表现中性能堪忧。
[0004]随着深度神经网络技术的发展,更多的工作开始围绕深度强化学习技术来解决3v3贪吃蛇问题。这一技术路线已经成为解决3v3贪吃蛇问题的主流方法。
[0005]现有的性能表现良好的3v3贪吃蛇人工智能大多利用人类先验知识,结合传统的路径搜索算法进行路径搜索,同时使用蒙特卡洛树搜索的方法,建立针对3v3贪吃蛇游戏的决策树。对于游戏内的单条蛇来说,这类方法能提供一个性能不错的人工智能,但也存在着明显的缺点,主要包括:
[0006]1)现有技术往往是从单条蛇的角度出发进行路径搜索,不会考虑同一队伍里另外两条蛇的状态信息。这会导致现有技术在做决策时不会考虑到队伍内的团队配合,因此性能很容易遇到瓶颈并且很难提升。
[0007]2)现有技术的出发点是在有限的游戏地图中寻找到尽量安全的路径。游戏是充满竞争性的,现有的技术思路很容易设计出防御性的动作,但却很难利用路径搜索技术设计出攻击性的动作,这会限制人工智能的性能上限。
[0008]以上两类缺点导致现有技术中3v3贪吃蛇游戏自动控制方案的智能化程度较低,因此,有必要研究新的技术方案,来提升3v3贪吃蛇游戏自动控制方案的智能化程度。

技术实现思路

[0009]本专利技术的目的是提供一种3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质,可以有效提升3v3贪吃蛇游戏自动控制方案的智能化程度,并且能够有助于科研人员对自动博弈的学术研究。
[0010]本专利技术的目的是通过以下技术方案实现的:
[0011]一种3v3贪吃蛇游戏自动控制方法,包括:
[0012]构建用于3v3贪吃蛇游戏自动控制的智能体,每一条贪吃蛇均通过一个智能体进行控制,在游戏对局中,对于每一智能体,均分别收集游戏对局中每一步中相应贪吃蛇观测到的游戏对局信息以及智能体输出数据,作为训练数据,并利用训练数据训练智能体;其中,贪吃蛇观测到的游戏对局信息包括:自身信息、队友信息与对手信息;
[0013]训练完毕后,将训练得到的智能体应用于真实游戏环境中进行3v3贪吃蛇游戏自动控制。
[0014]一种3v3贪吃蛇游戏自动控制系统,包括:
[0015]智能体构建、数据收集与训练单元,用于构建用于3v3贪吃蛇游戏自动控制的智能体,每一条贪吃蛇均通过一个智能体进行控制,在游戏对局中,对于每一智能体,均分别收集游戏对局中每一步中相应贪吃蛇观测到的游戏对局信息以及智能体输出数据,作为训练数据,并利用训练数据训练智能体;其中,贪吃蛇观测到的游戏对局信息包括:自身信息、队友信息与对手信息;
[0016]自动控制单元,用于在训练完毕后,将训练得到的智能体应用于真实游戏环境中进行3v3贪吃蛇游戏自动控制。
[0017]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0018]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0019]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0020]由上述本专利技术提供的技术方案可以看出,3v3贪吃蛇游戏自动控制中,涉及了合作与竞争的概念,因此,考虑了团队合作和竞争的因素,吸收了传统方法的设计思路,引用了最新的深度强化学习技术,大大提升了人工智能在3v3贪吃蛇自动控制中的性能;不仅提升了自动控制方案的智能化程度,,还可以记录对局过程,有助于科研人员对自动博弈的学术研究。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0022]图1为本专利技术实施例提供的一种3v3贪吃蛇游戏自动控制方法的流程图;
[0023]图2为本专利技术实施例提供的一种深度神经网络的示意图。
[0024]图3为本专利技术实施例提供的一种3v3贪吃蛇游戏自动控制系统的示意图;
[0025]图4为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0026]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本专利技术的保护范围。
[0027]首先对本文中可能使用的术语进行如下说明:
[0028]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0029]下面对本专利技术所提供的一种3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
[0030]实施例一
[0031]本专利技术实施例提供一种3v3贪吃蛇游戏自动控制方法,针对贪吃蛇游戏巨大的游戏状态空间,使用深度神经网络技术进行状态表征,使用强化学习方法进行动作决策。同时,3v3贪吃蛇游戏内一共有六条蛇,被划分为两个阵营,每个阵营里包含三条蛇。每个阵营内部的蛇是互相合作的关系,阵营与阵营之间是竞争的关系,所以3v3贪吃蛇游戏同时涉及合作与竞争的因素。为了更好的进行对局,在设计特征表示时不仅考虑了团队合作和竞争的因素,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种3v3贪吃蛇游戏自动控制方法,其特征在于,包括:构建用于3v3贪吃蛇游戏自动控制的智能体,每一条贪吃蛇均通过一个智能体进行控制,在游戏对局中,对于每一智能体,均分别收集游戏对局中每一步中相应贪吃蛇观测到的游戏对局信息以及智能体输出数据,作为训练数据,并利用训练数据训练智能体;其中,贪吃蛇观测到的游戏对局信息包括:自身信息、队友信息与对手信息;训练完毕后,将训练得到的智能体应用于真实游戏环境中进行3v3贪吃蛇游戏自动控制。2.根据权利要求1所述的一种3v3贪吃蛇游戏自动控制方法,其特征在于,该方法还包括:设置分布式训练框架训练智能体;分布式训练框架包括多个进程用于数据收集和数据训练,其中,数据收集时,使用数据训练获得的最新的智能体参数更新智能体,并利用更新的智能体进行3v3贪吃蛇游戏的自动控制,并收集训练数据;数据训练时,利用收集的训练数据采用基于策略的深度强化学习算法训练智能体;数据收集和数据训练中的智能体结构完全相同。3.根据权利要求1或2所述的一种3v3贪吃蛇游戏自动控制方法,其特征在于,所述智能体包括:编码网络与深度神经网络;其中,所述编码网络负责编码贪吃蛇观测到的游戏对局信息,获得特征表示;深度神经网络根据特征表示进行决策,输出对应的控制策略,控制贪吃蛇运动方向,同时输出各动作的价值应用于智能体训练;所述控制策略是指一个动作;控制策略与各动作的价值共同作为智能体的输出。4.根据权利要求3所述的一种3v3贪吃蛇游戏自动控制方法,其特征在于,所述特征表示中包括:游戏场景信息、自身位置信息以及其他贪吃蛇的位置信息;特征表示是多层特征矩阵,其中一部分特征矩阵通过对贪吃蛇观测到的游戏对局信息进行特征提取并进行编码获得,另一部分特征矩阵是利用路径搜索算法从贪吃蛇观测到的游戏对局信息中获得;所述其他贪吃蛇包含队友与对手两部分。5.根据权利要求3所述的一种3v3贪吃蛇游戏自动控制方法,其特征在于,深度神经网络包括:依次连接的多个残差网络模块,最后一个残差网络模块分别连接两个全连接层,其中输出长度为四的全连接层输出四个动...

【专利技术属性】
技术研发人员:李厚强周文罡王继涛薛东昀
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1