AI模型训练方法、模型使用方法、计算机设备及存储介质技术

技术编号:26531861 阅读:21 留言:0更新日期:2020-12-01 14:13
本申请涉及人工智能领域,具体公开了一种AI模型训练方法、模型使用方法、计算机设备及存储介质,所述方法包括:获取多个样本生成模型,并根据多个所述样本生成模型进行对弈,得到第一对弈数据;获取第二对弈数据,并根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练,所述第二对弈数据为真实对弈数据;当所述待训练模型收敛时,将所述待训练模型作为待评测模型,与对比模型进行多次对弈,并得到对弈结果;当所述对弈结果达到预设指标时,确定所述待评测模型为AI模型,完成AI模型训练。提高训练出的强化学习模型的拟人性。

【技术实现步骤摘要】
AI模型训练方法、模型使用方法、计算机设备及存储介质
本申请涉及人工智能领域,尤其涉及一种AI模型训练方法、模型使用方法、计算机设备及存储介质。
技术介绍
随着人工智能(ArtificialIntelligence,AI)技术的快速发展,在游戏娱乐领域,利用人工智能技术可以实现虚拟AI与真人之间的对局,且可以战胜顶级的职业选手。目前人工智能技术训练的AI模型出于预测准确率和竞技水平的考量,主要使用深度强化学习的方式训练强化学习模型。但由于强化学习模型只考量最终的输赢,导致训练出的强化学习模型较为生硬,导致训练的AI模型的用户体验较差。
技术实现思路
本申请提供了一种AI模型训练方法、模型使用方法、计算机设备及存储介质,以提高训练出的强化学习模型的拟人性。第一方面,本申请提供了一种AI模型训练方法,所述方法包括:获取多个样本生成模型,并根据多个所述样本生成模型进行对弈,得到第一对弈数据;获取第二对弈数据,并根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练,所述第二对弈数据为真实对弈数据;当所述待训练模型收敛时,将所述待训练模型作为待评测模型,与对比模型进行多次对弈,并得到对弈结果;当所述对弈结果达到预设指标时,确定所述待评测模型为AI模型,完成AI模型训练。第二方面,本申请还提供了一种模型使用方法,所述方法包括:获取当前对弈数据,并对所述当前对弈数据进行特征提取,得到当前类图像特征和当前向量特征;根据所述当前类图像特征和当前向量特征输入AI模型,得到预测的主策略标签和从策略标签,所述AI模型为根据权利要求1-8任一项所述的AI模型训练方法训练得到的模型;根据所述预测的主策略标签和从策略标签确定对应的预测动作,输出所述预测动作,以与真实用户进行对弈。第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的AI模型训练方法以及模型使用方法。第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的AI模型训练方法以及模型使用方法。本申请公开了一种AI模型训练方法、模型使用方法、计算机设备及存储介质,通过获取多个样本生成模型,然后根据多个样本生成模型进行对弈,得到第一对弈数据;获取第二对弈数据,并根据第一对弈数据和第二对弈数据对待训练模型进行训练;当待训练模型收敛时,将待训练模型作为待评测模型,与对比模型进行多次对弈,得到对弈结果;最终当对弈结果达到预设指标时,确定待评测模型为AI模型,完成AI模型训练。在对待训练模型进行模型训练时,加入真实的第二对弈数据,以此来提高得到的待训练模型的拟人性。在得到待训练模型后对模型进行评测,进而确定最终的AI模型,保证了得到的AI模型的预测准确率和竞技水平。附图说明为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的AI模型的训练以及使用场景示意图;图2是本申请实施例提供的训练子模块的架构示意图;图3是本申请实施例提供的一种AI模型训练方法的示意流程图;图4是本申请实施例提供的确定样本生成模型的示意流程图;图5是本申请实施例提供的一种待训练模型的层级结构示意图;图6为本申请实施例中类图像特征的示意图;图7为本申请实施例提供的模型使用方法的流程示意图;图8是本申请实施例提供的一种计算机设备的结构示意性框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。随着人工智能(ArtificialIntelligence,AI)在各个领域的飞速发展,棋牌博弈类程序中的AI技术也得到了突破。无论是在完美信息博弈的棋类AI,还是非完美信息博弈的牌类AI都已经表现出了战胜顶级职业对手的能力(例如,AlphaGo,AlphaZero,Pluribus和Suphx)。从博弈结果上来看,这些AI的水平无可厚非都是顶级水准,然而无论是完美信息博弈还是非完美信息博弈的AI,它们都有一个共同存在的问题:不够拟人。这是因为目前训练的AI模型出于预测准确率和竞技水平的考量,主要使用的是深度强化学习的方式来训练强化学习模型。但由于强化学习模型在训练过程中脱离了人类所产生的实际样本数据,仅根据环境反馈进行学习,这导致训练出的强化学习模型较为生硬,拟人性不足,可能会出现一些不影响输赢,但真实玩家不会采取的一些操作,例如可以一次出完的牌,拆分成很多个单张。从竞技的角度,如果需要去展现AI超人的水准,这个问题可能是次要的,但对于需要大批量给到人类玩家去体验的AI,拟人化无疑是评估AI整体能力十分重要的一环。在实际应用场景中(例如冷启动,陪玩等),理想情况下的AI不光需要能够对弈的足够合理、高水平,并且需要能够让人类玩家无法发觉对手是一个AI程序。这样才能够让AI技术在博弈类应用中有其实用的价值。因此,提高训练得到的AI模型的拟人性是十分必要的。为此,本申请实施例提供一种AI模型的训练方法、模型使用方法、计算机设备及存储介质。其中,该AI模型的训练方法可应用于服务器,其中,该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群。下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。请参阅图1,图1是本申请实施例提供的AI模型的训练以及使用场景示意图。如图1所示,模型训练服务器包括AI训练模块和模型部署模块。AI训练模块中又包括训练子模块和测评子模块。训练子模块用于调用样本生成模型,生成第一对弈数据,然后将第一对弈数据结合缓存的第二对弈数据对待训练模型进行训练,并在待训练模型收敛本文档来自技高网...

【技术保护点】
1.一种AI模型训练方法,其特征在于,包括:/n获取多个样本生成模型,并根据多个所述样本生成模型进行对弈,得到第一对弈数据;/n获取第二对弈数据,并根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练,所述第二对弈数据为真实对弈数据;/n当所述待训练模型收敛时,将所述待训练模型作为待评测模型,与对比模型进行多次对弈,并得到对弈结果;/n当所述对弈结果达到预设指标时,确定所述待评测模型为AI模型,完成AI模型训练。/n

【技术特征摘要】
1.一种AI模型训练方法,其特征在于,包括:
获取多个样本生成模型,并根据多个所述样本生成模型进行对弈,得到第一对弈数据;
获取第二对弈数据,并根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练,所述第二对弈数据为真实对弈数据;
当所述待训练模型收敛时,将所述待训练模型作为待评测模型,与对比模型进行多次对弈,并得到对弈结果;
当所述对弈结果达到预设指标时,确定所述待评测模型为AI模型,完成AI模型训练。


2.根据权利要求1所述的AI模型训练方法,其特征在于,所述待训练模型包括第一全连接层、残差网络层、拼接层和第二全连接层;所述根据所述第二对弈数据和所述第一对弈数据对待训练模型进行训练,包括:
根据所述第二对弈数据和所述第一对弈数据构建样本数据,并对所述样本数据进行特征提取得到样本向量特征和样本类图像特征,所述样本数据包括环境反馈;
通过所述第一全连接层对所述样本向量特征进行处理,得到第一目标向量;
通过所述残差网络层对所述样本类图像特征进行处理,得到第二目标向量;
通过所述拼接层对所述第一目标向量和第二目标向量进行拼接,得到拼接向量;
通过所述第二全连接层基于所述拼接向量,确定主策略标签的概率分布、从策略标签的概率分布以及预测得分;
根据所述主策略标签的概率分布、从策略标签的概率分布、预测得分和环境反馈,对所述待训练模型的神经网络参数进行训练。


3.根据权利要求2所述的AI模型训练方法,其特征在于,所述根据所述主策略标签的概率分布、从策略标签的概率分布、预测得分和环境反馈,对所述待训练模型的神经网络参数进行训练,包括:
根据所述主策略标签的概率分布计算对应的第一损失值;
根据所述从策略标签的概率分布计算对应的第二损失值;
根据所述预测得分和所述环境反馈计算对应的第三损失值;
根据所述第二对弈数据以及所述待训练模型输出的所述主策略标签的概率分布和从策略标签的概率分布,计算第四损失值;
根据所述第一损失值、第二损失值、第三损失值和第四损失值,确定所述待训练模型是否收敛;
若所述待训练模型收敛,则执行当所述待训练模型收敛时,将所述待训练模型作为待评测模型,与对比模型进行多次对弈,并得到对弈结果的步骤。


4.根据权利要求3所述的AI模型训练方法,其特征在于,所述第二对弈数据包括平均动作次数;所述根据所述预测得分和所述环境反馈计算对应的第三损失值,包括:
根据所述平均动作次数和所述环境反馈得到目标得分,并基于所述目标得分和所述预测得分计算对应的...

【专利技术属性】
技术研发人员:周正季兴李宏亮张正生刘永升
申请(专利权)人:超参数科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1