一种生成流模型的训练方法及相关装置制造方法及图纸

技术编号：36603250 阅读：21 留言：0更新日期：2023-02-04 18:21

一种生成流模型的训练方法，应用于人工智能技术领域。在该方法中，在训练生成流模型的过程中，针对智能体所处的任意一个状态，通过采样的方式从连续的动作空间中选取在该状态下所执行的多个第一动作以及能够转移至该状态的多个第二动作，然后通过生成流模型输出多个第一动作以及多个第二动作对应的预测值，进而求得用于更新生成流模型的损失函数。本方案中，通过采样得到的多个动作来近似表示连续的动作空间，进而对生成流模型进行训练，使得训练后的生成流模型能够应用于处理连续控制任务，增加了生成流模型可应用的场景，便于推广应用生成流模型。应用生成流模型。应用生成流模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种生成流模型的训练方法及相关装置

[0001]本申请涉及人工智能(Artificial Intelligence，AI)
，尤其涉及一种生成流模型的训练方法及相关装置。

技术介绍

[0002]作为一种新兴技术，生成流模型(GFlowNets)可以弥补强化学习在探索性任务上的不足。具体来说，基于贝尔曼方程，强化学习通常被训练为最大化对未来奖励的期望；因此，强化学习所学习到的策略更倾向于对具有更高奖励的动作序列进行采样。相比之下，生成流模型的训练目标是根据给定的奖励函数按比例近似地采样候选动作，而不是生成单个高奖励动作序列。具体来说，生成流模型更像是在主动学习环境中对不同的候选者进行抽样，因此生成流模型更适合探索任务。
[0003]目前，相关技术中的生成流模型仅限于应用在具有确定性的离散环境中，即智能体在离散环境中所处的状态以及能够执行的动作是有限的。然而，在现实环境中，具有大量的连续控制任务。在这些连续控制任务中，智能体在环境中所处的状态以及能够执行的动作是无限的，因此目前的生成流模型难以应用于处理连续控制任务，导致生成流模型可应用的场景较少，难以推广应用生成流模型。

技术实现思路

[0004]本申请实施例提供了一种生成流模型的训练方法，通过采样得到的多个动作来近似表示连续的动作空间，进而对生成流模型进行训练，使得训练后的生成流模型能够应用于处理连续控制任务，增加了生成流模型可应用的场景，便于推广应用生成流模型。
[0005]本申请第一方面提供一种生成流模型的训练方法，应用于电子...

【技术保护点】

【技术特征摘要】
1.一种生成流模型的训练方法，其特征在于，包括：获取第一状态信息，所述第一状态信息用于指示智能体所处的第一状态；将所述第一状态信息输入生成流模型，得到多个第一输出值，所述多个第一输出值为在所述第一状态下分别选择多个第一动作时的预测值；将多个第二状态信息输入生成流模型，得到多个第二输出值，所述多个第二状态信息用于指示执行对应的第二动作后能够转移至所述第一状态的多个第二状态，所述多个第二状态信息与多个第二动作一一对应，所述多个第二输出值为分别在所述多个第二状态下选择对应的第二动作时的预测值，所述多个第一动作和所述多个第二动作均是在连续的动作空间中采样得到的；基于损失函数，更新所述生成流模型，所述损失函数是基于所述多个第一输出值与所述多个第二输出值之间的差异得到的。2.根据权利要求1所述的方法，其特征在于，所述连续的动作空间中所包括的动作为连续变量。3.根据权利要求1或2所述的方法，其特征在于，所述多个第一动作的数量与所述多个第二动作的数量相同。4.根据权利要求1
‑
3任意一项所述的方法，其特征在于，所述方法还包括：获取第一奖励值，所述第一奖励值是基于所述智能体转移至所述第一状态所获得的奖励得到的；所述损失函数是基于求差结果与所述第一奖励值之间的差值得到的，所述求差结果为所述多个第二输出值的和与所述多个第一输出值的和之间的差值。5.根据权利要求4所述的方法，其特征在于，所述第一奖励值与所述多个第一动作的数量以及所述动作空间的度量值相关，所述度量值用于指示所述动作空间的大小。6.根据权利要求1
‑
3任意一项所述的方法，其特征在于，所述损失函数包括第一损失函数和第二损失函数；其中，所述第一损失函数是基于所述多个第一输出值的和与所述多个第二输出值的和之间的差值得到的，所述第二损失函数是基于目标输出值与第二奖励值之间的差值得到的，所述目标输出值为所述多个第二输出值中的一个，所述第二奖励值与所述第二输出值对应的动作相关。7.根据权利要求1
‑
6任意一项所述的方法，其特征在于，所述方法还包括：从所述动作空间中采样得到所述多个第二动作；将所述第一状态信息和所述多个第二动作输入状态预测模型，得到所述多个第二状态信息，所述状态预测模型用于基于执行动作和转移后的状态预测得到转移前的状态。8.根据权利要求1
‑
7任意一项所述的方法，其特征在于，所述第一状态信息是基于状态序列得到的，所述状态序列用于指示有序的多个状态。9.根据权利要求8所述的方法，其特征在于，所述多个状态中的状态是基于前一个状态以及所述前一个状态对应的执行动作得到的，所述前一个状态对应的执行动作是在所述动作空间中采样得到的多个动作中选取的，且所述多个动作的选取概率是基于所述生成流模型所输出的预测值得到的。10.根据权利要求1
‑
9任意一项所述的方法，其特征在于，所述生成流模型用于处理具
有连续的动作空间的任务，所述任务包括自动驾驶任务、机器人控制任务、游戏角色控制任务、推荐任务、参数优化任务或蛋白质结构搜索任务。11.一种生成流模型的训练装置，其特征在于，包括：获取模块，用于获取第一状态信息，所述第一状态信息用于指示智能体所处的第一状态；处理模块，用于将所述第一状态信息输入生成流模型，得到多个第一输出值，所述多个第一输出值为在所述第一状态下分别选择多个第一动作时的预测值；所述处理模块，还用于将多个第二状态信息输入生成...

【专利技术属性】
技术研发人员：李银川，邵云峰，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人