3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质技术方案

技术编号：37998821 阅读：25 留言：0更新日期：2023-06-30 10:12

本发明专利技术公开了一种3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质，本发明专利技术提供的3v3贪吃蛇游戏自动控制中，涉及了合作与竞争的概念，因此，考虑了团队合作和竞争的因素，吸收了传统方法的设计思路，引用了最新的深度强化学习技术，大大提升了人工智能在3v3贪吃蛇自动控制中的性能，并且，还可以记录对局过程，有助于科研人员对自动博弈的学术研究。于科研人员对自动博弈的学术研究。于科研人员对自动博弈的学术研究。

全部详细技术资料下载

【技术实现步骤摘要】
3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种3v3贪吃蛇游戏自动控制方法、系统、设备及存储介质。

技术介绍

[0002]近年来，深度强化学习取得了令人瞩目的成果。由于与现实场景类似并具有良好的交互性等特点，游戏成为了深度强化学习技术理想的实验温床。目前，人工智能技术在简单的游戏场景中已经取得了超越人类的水平，研究热点开始转向环境更加复杂的游戏。在贪吃蛇游戏中，玩家控制蛇一边吃豆子，一边避免碰撞自身和障碍物。后来贪吃蛇又衍生出团战模式、赏金模式、挑战模式等多种玩法。作为贪吃蛇游戏的一个衍生版本，3v3贪吃蛇增加了豆子、蛇和玩家的数量，为游戏增加了团队合作和竞争因素，游戏复杂度剧增。
[0003]目前使用传统的路径搜索加决策树的方法是根据游戏对局的当前信息，借助深度优先搜索和广度优先搜索算法，在地图中为每条蛇选出一条对自己来说相对安全的路径。但这种方法不会考虑别的蛇的状态信息，团队之间基本没有合作关系，从整个团队的角度来考虑，这种做法在实际表现中性能堪忧。
[0004]随着深度神经网络技术的发展，更多的工作开始围绕深度强化学习技术来解决3v3贪吃蛇问题。这一技术路线已经成为解决3v3贪吃蛇问题的主流方法。
[0005]现有的性能表现良好的3v3贪吃蛇人工智能大多利用人类先验知识，结合传统的路径搜索算法进行路径搜索，同时使用蒙特卡洛树搜索的方法，建立针对3v3贪吃蛇游戏的决策树。对于游戏内的单条蛇来说，这类方法能提供一个性能不错的人工智...

【技术保护点】

【技术特征摘要】
1.一种3v3贪吃蛇游戏自动控制方法，其特征在于，包括：构建用于3v3贪吃蛇游戏自动控制的智能体，每一条贪吃蛇均通过一个智能体进行控制，在游戏对局中，对于每一智能体，均分别收集游戏对局中每一步中相应贪吃蛇观测到的游戏对局信息以及智能体输出数据，作为训练数据，并利用训练数据训练智能体；其中，贪吃蛇观测到的游戏对局信息包括：自身信息、队友信息与对手信息；训练完毕后，将训练得到的智能体应用于真实游戏环境中进行3v3贪吃蛇游戏自动控制。2.根据权利要求1所述的一种3v3贪吃蛇游戏自动控制方法，其特征在于，该方法还包括：设置分布式训练框架训练智能体；分布式训练框架包括多个进程用于数据收集和数据训练，其中，数据收集时，使用数据训练获得的最新的智能体参数更新智能体，并利用更新的智能体进行3v3贪吃蛇游戏的自动控制，并收集训练数据；数据训练时，利用收集的训练数据采用基于策略的深度强化学习算法训练智能体；数据收集和数据训练中的智能体结构完全相同。3.根据权利要求1或2所述的一种3v3贪吃蛇游戏自动控制方法，其特征在于，所述智能体包括：编码网络与深度神经网络；其中，所述编码网络负责编码贪吃蛇观测到的游戏对局信息，获得特征表示；深度神经网络根据特征表示进行决策，输出对应的控制策略，控制贪吃蛇运动方向，同时输出各动作的价值应用于智能体训练；所述控制策略是指一个动作；控制策略与各动作的价值共同作为智能体的输出。4.根据权利要求3所述的一种3v3贪吃蛇游戏自动控制方法，其特征在于，所述特征表示中包括：游戏场景信息、自身位置信息以及其他贪吃蛇的位置信息；特征表示是多层特征矩阵，其中一部分特征矩阵通过对贪吃蛇观测到的游戏对局信息进行特征提取并进行编码获得，另一部分特征矩阵是利用路径搜索算法从贪吃蛇观测到的游戏对局信息中获得；所述其他贪吃蛇包含队友与对手两部分。5.根据权利要求3所述的一种3v3贪吃蛇游戏自动控制方法，其特征在于，深度神经网络包括：依次连接的多个残差网络模块，最后一个残差网络模块分别连接两个全连接层，其中输出长度为四的全连接层输出四个动...

【专利技术属性】
技术研发人员：李厚强，周文罡，王继涛，薛东昀，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人