AI模型训练方法、使用方法、计算机设备及存储介质技术

技术编号:27211283 阅读:20 留言:0更新日期:2021-01-31 12:48
本申请实施例公开了一种AI模型训练方法、使用方法、计算机设备及存储介质,其中,AI模型训练方法包括:获取目标应用程序的关卡配置数据,并根据关卡配置数据生成对应的关卡;提取关卡对应的初始关卡信息,并利用初始关卡信息获取训练样本数据;根据训练样本数据获取已知闯关信息和未知闯关信息;根据已知闯关信息生成第一类图像特征和向量特征,并根据未知闯关信息和已知闯关信息生成第二类图像特征;通过第一预设模型基于第一类图像特征和向量特征获取游戏角色执行策略的第一预测值;通过第二预设模型基于第二类图像特征和向量特征获取游戏角色执行策略的第二预测值;基于第一预测值和第二预测值对第一预设模型进行训练,以获取目标AI模型。取目标AI模型。取目标AI模型。

【技术实现步骤摘要】
AI模型训练方法、使用方法、计算机设备及存储介质


[0001]本申请涉及人工智能
,具体涉及一种AI模型训练方法、使用方法、计算机设备及存储介质。

技术介绍

[0002]消除游戏作为闯关类休闲游戏中最为流行的游戏之一,由于消除类游戏的状态空间十分巨大,大约在10
50
的量级,因此,每个关卡游戏难度设计是一个很大的挑战,对于游戏策划和开发人员而言,每个游戏大版本需要设计新元素,而每次的小版本更新中需要更新几十个新关卡,而为了确保游戏的可玩性,每个关卡需要配置不同游戏难度的关卡配置数据。
[0003]在关卡设计完成后,需要对新开发的关卡进行测试,传统测试方式是通过用户在新开发的关卡上试玩获取用户试玩的反馈数据,并根据反馈数据调整关卡配置数据,使得关卡的可玩性更强。
[0004]因此,研发应用于消除类游戏的AI模型具有更大的挑战。目前,主要基于深度神经网络(Deep Neural Network,DNN)和监督学习来实现AI模型。然而,基于DNN和监督学习实现AI模型,需要大量优质的样本数据进行训练,而样本数据的收集难度较高且耗时多,即使使用大量样本数据进行训练也无法保证AI模型的可靠性,以及DNN和监督学习是基于每一方的数据单独进行AI模型的训练,无法充分的利用数据,AI模型的准确性较差。

技术实现思路

[0005]本申请实施例提供一种AI模型训练方法、使用方法、计算机设备及存储介质,可以提高对模型训练的可靠性和准确性。
[0006]第一方面,本申请实施例提供了一种AI模型训练方法,包括:
[0007]获取目标应用程序的关卡配置数据,并根据所述关卡配置数据生成对应的关卡;
[0008]提取所述关卡对应的初始关卡信息,并利用所述初始关卡信息获取训练样本数据,其中,所述初始关卡信息包括关卡元素信息和通关限定信息,所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布,所述通关限定信息用于表征当前关卡通关的必要条件;
[0009]根据训练样本数据获取已知闯关信息和未知闯关信息;
[0010]根据已知闯关信息生成第一类图像特征和第一向量特征,并根据未知闯关信息和已知闯关信息生成第二类图像特征和第二向量特征;通过第一预设模型基于所述第一类图像特征和所述第一向量特征获取游戏角色执行策略的第一预测值;
[0011]通过第二预设模型基于所述第二类图像特征和所述第二向量特征获取所述游戏角色执行策略的第二预测值;
[0012]基于所述第一预测值和第二预测值对所述第一预设模型进行训练,以获取目标AI模型。
[0013]第二方面,本申请实施例还提供了一种模型使用方法,应用于服务器,所述模型为采用前述的AI模型训练方法进行训练得到的目标AI模型,并部署在所述服务器中;所述方法包括:
[0014]获取更新关卡配置数据,根据所述更新关卡配置数据生成对应的更新关卡;
[0015]获取更新关卡对应的初始关卡信息,其中,所述初始关卡信息包括关卡元素信息和通关限定信息,所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布,所述通关限定信息用于表征当前关卡通关的必要条件;
[0016]根据所述关卡元素信息生成目标类图像特征,并根据所述通关限定信息生成目标向量特征;
[0017]通过所述目标AI模型,根据所述目标类图像特征和所述目标向量特征获取游戏角色执行策略的概率分布;
[0018]根据所述概率分布确定目标策略,控制所述游戏角色执行所述目标策略。
[0019]第三方面,本申请实施例还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一项AI模型训练方法或使用方法。
[0020]第四方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种AI模型训练方法或使用方法。
[0021]本申请实施例提供了AI模型训练方法、使用方法、计算机设备及存储介质,其中,本申请所提供的AI模型训练方法可以获取目标应用程序的关卡配置数据,并根据所述关卡配置数据生成对应的关卡;提取所述关卡对应的初始关卡信息,其中,所述初始关卡信息包括关卡元素信息和通关限定信息,所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布,所述通关限定信息用于表征当前关卡通关的必要条件;根据所述关卡元素信息生成类图像特征,并根据所述通关限定信息生成向量特征;通过第一预设模型基于所述类图像特征和所述向量特征获取游戏角色执行策略的第一预测值;通过第二预设模型基于所述类图像特征和所述向量特征获取所述游戏角色执行策略的第二预测值;使得第一预设模型的第一预测值逼近第二预设模型的第二预测值,因此,可以使得训练出来的第一预设模型的第一预测值准确度越高,提高了对模型训练的可靠性和准确性。
附图说明
[0022]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本申请实施例提供的一种AI模型训练方法的流程示意图;
[0024]图2是本申请实施例提供的模型训练架构的示意图;
[0025]图3是本申请实施例提供的类图像特征和向量特征的示意图;
[0026]图4是本申请实施例提供的基于类图像特征和向量特征对模型进行训练的示意图;
[0027]图5是本申请实施例提供的一种模型使用方法的流程示意图;
[0028]图6是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0031]本申请的实施例提供了一种AI模型训练方法、使用方法、计算机设备及存储介质。其中,该AI模型训练方法及使用方法可以应用于计算机设备中,该计算机设备可以包括智能手机、平板电脑、掌上电脑、笔记本电脑或者台式电脑等终端,该计算机设备还可以是服务器。
[0032]本申请实施例提供的AI模型训练方法涉及人工智能中的机器学习技术等技术,下面先对人工智能技术和机器学习技术进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种AI模型训练方法,其特征在于,包括:获取目标应用程序的关卡配置数据,并根据所述关卡配置数据生成对应的关卡;提取所述关卡对应的初始关卡信息,并利用所述初始关卡信息获取训练样本数据,其中,所述初始关卡信息包括关卡元素信息和通关限定信息,所述关卡元素信息用于表征当前关卡的棋盘布局及用户可操控的游戏元素种类和游戏元素在所述棋盘上的分布,所述通关限定信息用于表征当前关卡通关的必要条件;根据训练样本数据获取已知闯关信息和未知闯关信息;根据已知闯关信息生成第一类图像特征和向量特征,并根据未知闯关信息和已知闯关信息生成第二类图像特征;通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值;通过第二预设模型基于所述第二类图像特征和所述向量特征获取所述游戏角色执行策略的第二预测值;基于所述第一预测值和第二预测值对所述第一预设模型进行训练,以获取目标AI模型。2.根据权利要求1所述的AI模型的训练方法,其特征在于,获取目标应用程序的关卡配置数据,并根据所述关卡配置数据生成对应的关卡,包括:根据预设函数关系选择从关卡配置数据集中选择对应的关卡配置数据,所述预设函数关系是关卡配置数据被选中概率与关卡通关率的对应关系;根据关卡配置数据生成对应的关卡。3.根据权利要求2所述的AI模型的训练方法,其特征在于,所述预设函数关系为:P(i)=e
1-W(i)
/∑e
1-W(i)
,其中,P(i)表示第i关卡配置数据被选中概率,W(i)表示第i关卡的通关率。4.根据权利要求1所述的AI模型训练方法,其特征在于,所述通过第一预设模型基于所述第一类图像特征和所述向量特征获取游戏角色执行策略的第一预测值,包括:将所述第一类图像特征输入所述第一预设模型的残差网络进行卷积操作,以及将所述向量特征输入所述第一预设模型的全连接网络进行处理;将所述第一预设模型的残差网络和全连接网络的输出结果进行拼接,得到第一拼接结果;通过所述第一预设模型的两层全连接层基于所述第一拼接结果,获取所述游戏角色的动作标签的第一概率分布及第一价值评估值,得到执行策略的第一预测值。5.根据权利要求4所述的AI模型训练方法,其特征在于,所述通过第二预设模型基于所述第二类图像特征和向量特征,获取所述游戏元素执行策略的第二预测值,包括:将所述第二类图像特征输入所述第二预设模型的残差网络进行卷积操作,以及将所述向量特征输入所述第二预设模型的全连接网络进行处理;将所述第二预设模型的残差网络和全连接网络的输出结果进行拼接,得到第二拼接结果;通过所述第二预设模型的两层全连接层基于所述第二拼接结果,获取所述游戏角色的动作标签的第二概率分布及第二价值评估值,得到执行策略的第二预测值。
...

【专利技术属性】
技术研发人员:周正朱展图李宏亮刘永升
申请(专利权)人:超参数科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利