AI模型训练方法、使用方法、计算机设备及存储介质技术

技术编号：27211283 阅读：20 留言：0更新日期：2021-01-31 12:48

本申请实施例公开了一种AI模型训练方法、使用方法、计算机设备及存储介质，其中，AI模型训练方法包括：获取目标应用程序的关卡配置数据，并根据关卡配置数据生成对应的关卡；提取关卡对应的初始关卡信息，并利用初始关卡信息获取训练样本数据；根据训练样本数据获取已知闯关信息和未知闯关信息；根据已知闯关信息生成第一类图像特征和向量特征，并根据未知闯关信息和已知闯关信息生成第二类图像特征；通过第一预设模型基于第一类图像特征和向量特征获取游戏角色执行策略的第一预测值；通过第二预设模型基于第二类图像特征和向量特征获取游戏角色执行策略的第二预测值；基于第一预测值和第二预测值对第一预设模型进行训练，以获取目标AI模型。取目标AI模型。取目标AI模型。

全部详细技术资料下载

【技术实现步骤摘要】
AI模型训练方法、使用方法、计算机设备及存储介质

[0001]本申请涉及人工智能
，具体涉及一种AI模型训练方法、使用方法、计算机设备及存储介质。

技术介绍

[0002]消除游戏作为闯关类休闲游戏中最为流行的游戏之一，由于消除类游戏的状态空间十分巨大，大约在10
50
的量级，因此，每个关卡游戏难度设计是一个很大的挑战，对于游戏策划和开发人员而言，每个游戏大版本需要设计新元素，而每次的小版本更新中需要更新几十个新关卡，而为了确保游戏的可玩性，每个关卡需要配置不同游戏难度的关卡配置数据。
[0003]在关卡设计完成后，需要对新开发的关卡进行测试，传统测试方式是通过用户在新开发的关卡上试玩获取用户试玩的反馈数据，并根据反馈数据调整关卡配置数据，使得关卡的可玩性更强。
[0004]因此，研发应用于消除类游戏的AI模型具有更大的挑战。目前，主要基于深度神经网络(Deep Neural Network，DNN)和监督学习来实现AI模型。然而，基于DNN和监督学习实现AI模型，需要大量优质的样本数据进行训练，而样本数据的收集难度较高且耗时多，即使使用大量样本数据进行训练也无法保证AI模型的可靠性，以及DNN和监督学习是基于每一方的数据单独进行AI模型的训练，无法充分的利用数据，AI模型的准确性较差。

技术实现思路

[0005]本申请实施例提供一种AI模型训练方法、使用方法、计算机设备及存储介质，可以提高对模型训练的可靠性和准确性。
[0006]第一方面，本申请实施例提...

【技术保护点】

【技术特征摘要】
1.一种AI模型训练方法，其特征在于，包括：获取目标应用程序的关卡配置数据，并根据所述关卡配置数据生成对应的关卡；提取所述关卡对应的初始关卡信息，并利用所述初始关卡信息获取训练样本数据，其中，所述初始关卡信息包括关卡元素信息和通关限定信息，所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布，所述通关限定信息用于表征当前关卡通关的必要条件；根据训练样本数据获取已知闯关信息和未知闯关信息；根据已知闯关信息生成第一类图像特征和向量特征，并根据未知闯关信息和已知闯关信息生成第二类图像特征；通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值；通过第二预设模型基于所述第二类图像特征和所述向量特征获取所述游戏角色执行策略的第二预测值；基于所述第一预测值和第二预测值对所述第一预设模型进行训练，以获取目标AI模型。2.根据权利要求1所述的AI模型的训练方法，其特征在于，获取目标应用程序的关卡配置数据，并根据所述关卡配置数据生成对应的关卡，包括：根据预设函数关系选择从关卡配置数据集中选择对应的关卡配置数据，所述预设函数关系是关卡配置数据被选中概率与关卡通关率的对应关系；根据关卡配置数据生成对应的关卡。3.根据权利要求2所述的AI模型的训练方法，其特征在于，所述预设函数关系为：P(i)＝e
1-W(i)
/∑e
1-W(i)
，其中，P(i)表示第i关卡配置数据被选中概率，W(i)表示第i关卡的通关率。4.根据权利要求1所述的AI模型训练方法，其特征在于，所述通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值，包括：将所述第一类图像特征输入所述第一预设模型的残差网络进行卷积操作，以及将所述向量特征输入所述第一预设模型的全连接网络进行处理；将所述第一预设模型的残差网络和全连接网络的输出结果进行拼接，得到第一拼接结果；通过所述第一预设模型的两层全连接层基于所述第一拼接结果，获取所述游戏角色的动作标签的第一概率分布及第一价值评估值，得到执行策略的第一预测值。5.根据权利要求4所述的AI模型训练方法，其特征在于，所述通过第二预设模型基于所述第二类图像特征和向量特征，获取所述游戏元素执行策略的第二预测值，包括：将所述第二类图像特征输入所述第二预设模型的残差网络进行卷积操作，以及将所述向量特征输入所述第二预设模型的全连接网络进行处理；将所述第二预设模型的残差网络和全连接网络的输出结果进行拼接，得到第二拼接结果；通过所述第二预设模型的两层全连接层基于所述第二拼接结果，获取所述游戏角色的动作标签的第二概率分布及第二价值评估值，得到执行策略的第二预测值。
...

【专利技术属性】
技术研发人员：周正，朱展图，李宏亮，刘永升，
申请(专利权)人：超参数科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人