AI模型训练方法、模型使用方法、计算机设备及存储介质技术

技术编号：26531861 阅读：21 留言：0更新日期：2020-12-01 14:13

本申请涉及人工智能领域，具体公开了一种AI模型训练方法、模型使用方法、计算机设备及存储介质，所述方法包括：获取多个样本生成模型，并根据多个所述样本生成模型进行对弈，得到第一对弈数据；获取第二对弈数据，并根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练，所述第二对弈数据为真实对弈数据；当所述待训练模型收敛时，将所述待训练模型作为待评测模型，与对比模型进行多次对弈，并得到对弈结果；当所述对弈结果达到预设指标时，确定所述待评测模型为AI模型，完成AI模型训练。提高训练出的强化学习模型的拟人性。

全部详细技术资料下载

【技术实现步骤摘要】
AI模型训练方法、模型使用方法、计算机设备及存储介质
本申请涉及人工智能领域，尤其涉及一种AI模型训练方法、模型使用方法、计算机设备及存储介质。
技术介绍
随着人工智能（ArtificialIntelligence，AI）技术的快速发展，在游戏娱乐领域，利用人工智能技术可以实现虚拟AI与真人之间的对局，且可以战胜顶级的职业选手。目前人工智能技术训练的AI模型出于预测准确率和竞技水平的考量，主要使用深度强化学习的方式训练强化学习模型。但由于强化学习模型只考量最终的输赢，导致训练出的强化学习模型较为生硬，导致训练的AI模型的用户体验较差。
技术实现思路
本申请提供了一种AI模型训练方法、模型使用方法、计算机设备及存储介质，以提高训练出的强化学习模型的拟人性。第一方面，本申请提供了一种AI模型训练方法，所述方法包括：获取多个样本生成模型，并根据多个所述样本生成模型进行对弈，得到第一对弈数据；获取第二对弈数据，并根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练，所述第二对弈数据为真实对弈数据；当所述待训练模型收敛时，将所述待训练模型作为待评测模型，与对比模型进行多次对弈，并得到对弈结果；当所述对弈结果达到预设指标时，确定所述待评测模型为AI模型，完成AI模型训练。第二方面，本申请还提供了一种模型使用方法，所述方法包括：获取当前对弈数据，并对所述当前对弈数据进行特征提取，得到当前类图像特征和当前向量特征；根据所述当前类图像特征和当前向量特征输入AI模型，得到预测的主...

【技术保护点】
1.一种AI模型训练方法，其特征在于，包括：/n获取多个样本生成模型，并根据多个所述样本生成模型进行对弈，得到第一对弈数据；/n获取第二对弈数据，并根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练，所述第二对弈数据为真实对弈数据；/n当所述待训练模型收敛时，将所述待训练模型作为待评测模型，与对比模型进行多次对弈，并得到对弈结果；/n当所述对弈结果达到预设指标时，确定所述待评测模型为AI模型，完成AI模型训练。/n

【技术特征摘要】
1.一种AI模型训练方法，其特征在于，包括：
获取多个样本生成模型，并根据多个所述样本生成模型进行对弈，得到第一对弈数据；
获取第二对弈数据，并根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练，所述第二对弈数据为真实对弈数据；
当所述待训练模型收敛时，将所述待训练模型作为待评测模型，与对比模型进行多次对弈，并得到对弈结果；
当所述对弈结果达到预设指标时，确定所述待评测模型为AI模型，完成AI模型训练。

2.根据权利要求1所述的AI模型训练方法，其特征在于，所述待训练模型包括第一全连接层、残差网络层、拼接层和第二全连接层；所述根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练，包括：
根据所述第二对弈数据和所述第一对弈数据构建样本数据，并对所述样本数据进行特征提取得到样本向量特征和样本类图像特征，所述样本数据包括环境反馈；
通过所述第一全连接层对所述样本向量特征进行处理，得到第一目标向量；
通过所述残差网络层对所述样本类图像特征进行处理，得到第二目标向量；
通过所述拼接层对所述第一目标向量和第二目标向量进行拼接，得到拼接向量；
通过所述第二全连接层基于所述拼接向量，确定主策略标签的概率分布、从策略标签的概率分布以及预测得分；
根据所述主策略标签的概率分布、从策略标签的概率分布、预测得分和环境反馈，对所述待训练模型的神经网络参数进行训练。

3.根据权利要求2所述的AI模型训练方法，其特征在于，所述根据所述主策略标签的概率分布、从策略标签的概率分布、预测得分和环境反馈，对所述待训练模型的神经网络参数进行训练，包括：
根据所述主策略标签的概率分布计算对应的第一损失值；
根据所述从策略标签的概率分布计算对应的第二损失值；
根据所述预测得分和所述环境反馈计算对应的第三损失值；
根据所述第二对弈数据以及所述待训练模型输出的所述主策略标签的概率分布和从策略标签的概率分布，计算第四损失值；
根据所述第一损失值、第二损失值、第三损失值和第四损失值，确定所述待训练模型是否收敛；
若所述待训练模型收敛，则执行当所述待训练模型收敛时，将所述待训练模型作为待评测模型，与对比模型进行多次对弈，并得到对弈结果的步骤。

4.根据权利要求3所述的AI模型训练方法，其特征在于，所述第二对弈数据包括平均动作次数；所述根据所述预测得分和所述环境反馈计算对应的第三损失值，包括：
根据所述平均动作次数和所述环境反馈得到目标得分，并基于所述目标得分和所述预测得分计算对应的...

【专利技术属性】
技术研发人员：周正，季兴，李宏亮，张正生，刘永升，
申请(专利权)人：超参数科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人