行为模型的训练方法、结构扩容模型的训练方法技术

技术编号：33293553 阅读：12 留言：0更新日期：2022-05-01 00:17

本申请公开了一种行为模型的训练方法、结构扩容模型的训练方法、基于行为模型控制第一对象的方法、装置、电子设备及存储介质，属于计算机技术领域。该方法包括：通过结构扩容模型，对待扩容模型的模型结构进行扩容，得到行为模型的模型结构信息；获取与该模型结构信息相匹配的初始行为模型；对该初始行为模型进行训练，得到该行为模型，该行为模型控制该第一对象所执行行为的操作水平符合预期水平，且该预期水平高于该待扩容模型控制该第一对象所执行行为的操作水平。本申请利用结构扩容模型在低等级的行为模型基础上扩容得到高等级的行为模型，有利于逐级分层构建对应于不同操作水平的一系列行为模型。平的一系列行为模型。平的一系列行为模型。

全部详细技术资料下载

【技术实现步骤摘要】
行为模型的训练方法、结构扩容模型的训练方法

[0001]本申请涉及计算机
，特别涉及一种行为模型的训练方法、结构扩容模型的训练方法、基于行为模型控制第一对象的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的发展和终端功能的多样化，能够在终端上进行的游戏种类越来越丰富，在游戏应用中涉及到一种不受玩家控制的、具有一定智能性的AI(Artificial Intelligence，人工智能)对象，比如，AI对象是游戏中的智能NPC(Non
‑
Player Character，非玩家角色)，能够面对不同的玩家做出人性化的响应，又比如，AI对象是游戏中的陪玩AI(AI Companion)，能够陪伴玩家控制的虚拟对象一起进行对局。目前，如何针对游戏领域中的AI对象，设计其行为模型逐渐成为一项研究热点。

技术实现思路

[0003]本申请实施例提供了一种行为模型的训练方法、结构扩容模型的训练方法、基于行为模型控制第一对象的方法、装置、电子设备及存储介质，能够利用结构扩容模型在低等级的行为模型基础上扩容得到高等级的行为模型，有利于逐级分层构建对应于不同操作水平的一系列行为模型。该技术方案如下：
[0004]一方面，提供了一种行为模型的训练方法，所述方法包括：
[0005]通过结构扩容模型，对待扩容模型的模型结构进行扩容，得到行为模型的模型结构信息，所述待扩容模型用于控制虚拟场景中的第一对象的行为；
[0006]获取与所述模型结构信息相匹配的初始行为...

【技术保护点】

【技术特征摘要】
1.一种行为模型的训练方法，其特征在于，所述方法包括：通过结构扩容模型，对待扩容模型的模型结构进行扩容，得到行为模型的模型结构信息，所述待扩容模型用于控制虚拟场景中的第一对象的行为；获取与所述模型结构信息相匹配的初始行为模型；对所述初始行为模型进行训练，得到所述行为模型，所述行为模型控制所述第一对象所执行行为的操作水平符合预期水平，且所述预期水平高于所述待扩容模型控制所述第一对象所执行行为的操作水平。2.根据权利要求1所述的方法，其特征在于，所述通过结构扩容模型，对待扩容模型的模型结构进行扩容，得到行为模型的模型结构信息包括：将所述待扩容模型对应的信息输入所述结构扩容模型，通过所述结构扩容模型预测对所述待扩容模型的扩容策略信息，所述扩容策略信息用于表征是否对所述待扩容模型中的每个隐藏层进行扩容；基于所述扩容策略信息，对所述待扩容模型的模型结构进行扩容，得到所述模型结构信息。3.根据权利要求2所述的方法，其特征在于，所述结构扩容模型为循环神经网络RNN，所述RNN包括一个或多个循环模块，每个所述循环模块用于预测对所述待扩容模型中的一个隐藏层的层级扩容策略；所述将所述待扩容模型对应的信息输入所述结构扩容模型，通过所述结构扩容模型预测对所述待扩容模型的扩容策略信息包括：基于所述待扩容模型对应的信息，确定所述RNN所包含的循环模块的数量，其中，所述待扩容模型对应的信息用于指示所述待扩容模型包含的隐藏层层数；对每个循环模块，通过所述循环模块对上一个循环模块的输出信号进行编码，输出对所述待扩容模型中对应隐藏层的层级扩容策略，所述层级扩容策略用于指示是否对所述对应隐藏层进行扩容以及如何进行扩容；将各个循环模块输出的所述层级扩容策略获取为所述扩容策略信息。4.根据权利要求3所述的方法，其特征在于，所述第一对象受不同等级的行为模型控制所执行的行为对应于不同操作水平，所述行为模型的等级与所述第一对象的操作水平呈正相关；在所述行为模型对应于等级N的情况下，所述待扩容模型为等级N
‑
1的行为模型，其中，N为大于或等于2的整数。5.根据权利要求3或4所述的方法，其特征在于，所述RNN中的每个所述循环模块包括：第一循环单元、第二循环单元或者第三循环单元中至少一项；所述第一循环单元用于预测深度扩容参数，所述深度扩容参数表征是否在所述待扩容模型中与所述循环模块对应的隐藏层后增加隐藏层；所述第二循环单元用于预测宽度扩容参数，所述宽度扩容参数表征是否对所述待扩容模型中与所述循环模块对应的隐藏层增加神经元个数；所述第三循环单元用于预测卷积核扩容参数，所述卷积核扩容参数表征是否对所述待扩容模型中与所述循环模块对应的隐藏层扩大卷积核尺寸。6.根据权利要求5所述的方法，其特征在于，所述RNN中的每个所述循环模块均包括所述第一循环单元、所述第二循环单元和所述第三循环单元。
7.根据权利要求6所述的方法，其特征在于，所述通过所述循环模块对上一个循环模块的输出信号进行编码，输出对所述待扩容模型中对应隐藏层的层级扩容策略包括：将所述输出信号输入所述第一循环单元，输出第一隐向量和基于所述第一隐向量确定得到的所述深度扩容参数；将所述第一隐向量和所述深度扩容参数输入所述第二循环单元，输出第二隐向量和基于所述第二隐向量确定得到的所述宽度扩容参数；将所述第二隐向量和所述宽度扩容参数输入所述第三循环单元，输出第三隐向量和基于所述第三隐向量确定得到的所述卷积核扩容参数；将所述深度扩容参数、所述宽度扩容参数和所述卷积核扩容参数，获取为所述循环模块所对应隐藏层的层级扩容策略。8.根据权利要求1所述的方法，其特征在于，所述对所述初始行为模型进行训练，得到所述行为模型包括：以所述结构扩容模型为智能体、权重继承模型为环境，对所述结构扩容模型进行强化训练，其中，所述权重继承模型用于提供具有不同模型结构的初始行为模型的模型参数，所述强化训练的强化信号为所述初始行为模型的性能参数，所述性能参数用于表征所述初始行为模型控制所述第一对象所执行行为的操作水平；在所述性能参数符合所述预期水平时，对所述结构扩容模型停止训练，基于所述权重继承模型和训练完毕的结构扩容模型，获取所述行为模型。9.根据权利要求8所述的方法，其特征在于，所述结构扩容模型的损失函数值基于所述性能参数和所述模型结构信息的信息熵确定得到。10.根据权利要求8或9所述的方法，其特征在于，所述方法还包括：在验证数据集上对所述初始行为模型进行性能评估，得到所述初始行为模型的性能参数；或，基于所述初始行为模型，控制所述第一对象在多个测试对局中执行对应的行为，基于所述第一对象在所述多个测试对局中的胜率，确定所述初始行为模型的性能参数。11.根据权利要求1所述的方法，其特征在于，所述获取与所述模型结构信息相匹配的初始行为模型包括：从权重继承模型中，基于所述模型结构信息，采样得到与所述模型结构信息匹配的子模型，基于所述子模型训练得到所述初始行为模型；或，从权重继承模型中，基于所述模型结构信息，采样得到与所述模型结构信息匹配的所述初始行为模型；其中，所述权重继承模型用于提供具有不同模型结构的初始行为模型的模型参数。12.根据权利要求11所述的方法，其特征在于，所述基于所述子模型训练得到所述初始行为模型包括：以所述权重继承模型为教师模型、所述子模型为学生模型，以知识蒸馏的方式，在训练数据集上对所述子模型进行训练，得到所述初始行为模型。13.根据...

【专利技术属性】
技术研发人员：牛帅程，衡建宇，赵沛霖，邓民文，吴家祥，覃洪杨，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人