用于训练决策模型的方法、装置、设备、介质和程序产品制造方法及图纸

技术编号：43027857 阅读：16 留言：0更新日期：2024-10-18 17:27

本公开的实施例提供了用于训练决策模型的方法、设备、装置、介质和程序产品，涉及计算机领域。该方法包括：基于训练数据，利用决策模型中的监督学习模型确定第一策略并且利用决策模型中的强化学习模型确定第二策略。方法还包括基于第一策略与第二策略之间的差异，确定模仿学习损失。方法还包括基于模仿学习损失和与第二策略对应的强化学习损失，训练该决策模型。以此方式，基于模仿学习损失和强化学习损失两者，可以结合监督学习利用专家数据的能力和强化学习泛化性强的特点，从而训练得到性能优异且类人的决策模型。在一些实施例中，根据本公开的方案，可以训练得到应用于自动驾驶领域的决策模型，以提供诸如换道等策略。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施例主要涉及计算机领域。更具体地，本公开的实施例涉及用于训练决策模型的方法、装置、设备、计算机可读存储介质以及计算机程序产品。

技术介绍

1、目前，利用人工智能的决策模型被广泛应用于诸如自动驾驶、推荐决策管理、机器人控制决策管理等领域。例如，在自动驾驶领域，可以利用决策模型来根据路况确定诸如换道和刹车之类的驾车行为，从而实现自动驾驶。然而，适用于复杂场景的决策模型的训练难度较大。在一些示例中，需要收集大量的专家数据来训练基于监督学习的决策模型。在另一些示例中，基于强化学习的决策模型需要构建复杂的奖励函数来学习决策经验。因此，需要一种训练决策模型的方案，以用于训练类人并且性能优异的决策模型。

技术实现思路

1、本公开的实施例提供了一种训练决策模型的方案。

2、在本公开的第一方面，提供了训练决策模型的方法。该方法包括基于训练数据，利用决策模型中的监督学习模型确定第一策略并且利用所述决策模型中的强化学习模型确定第二策略；基于所述第一策略与所述第二策略之间的差异，确定模仿学习损失；以及基于所述模仿学习损失和与所述第二策略对应的强化学习损失，训练所述决策模型。

3、以此方式，基于模仿学习损失和强化学习损失两者，可以结合监督学习利用专家数据的能力和强化学习泛化性强的特点，从而训练得到性能优异且类人的决策模型。在一些实施例中，根据本公开的方案，可以训练得到应用于自动驾驶领域的决策模型，以提供诸如换道等策略。

4、在第一方面的一些实施例中，基于所述模仿

5、在第一方面的一些实施例中，确定针对所述模仿学习损失的自适应权重包括：确定针对所述模仿学习损失的初始权重；在达到预定训练轮次之前，基于所述模仿学习损失的变化来更新所述初始权重，以确定更新权重；以及在达到所述预定轮次之后，逐渐减小所述更新权重。

6、在第一方面的一些实施例中，基于所述模仿学习损失的变化来更新所述初始权重包括：若初始训练轮次的所述模仿学习损失小于后续训练轮次的所述模仿学习损失，则增加所述初始权重；以及若初始训练轮次的所述模仿学习损失大于后续训练轮次的所述模仿学习损失，则保持所述初始权重。

7、以此方式，基于自适应权重，可以使得强化学习模型在训练前期更注重“模仿”人类策略，并且在训练后期更注重自由探索，从而得到结合监督学习和强化学习两者的优点的决策网络。

8、在第一方面的一些实施例中，基于所述第一策略与所述第二策略之间的差异，确定模仿学习损失包括：对所述第一策略和所述第二策略进行归一化；以及基于归一化的所述第一策略和所述第二策略之间的距离，确定所述模仿学习损失。

9、在第一方面的一些实施例中，方法还包括：基于经标注的专家数据，训练所述监督学习模型；确定基于所述专家数据被训练的所述监督学习模型的推理性能，所述推理性能指示针对多个决策场景中的每个决策场景的预测策略质量；以及基于所述监督学习模型的所述推理性能，确定所述训练数据中对应于所述多个决策场景的数据分布。

10、在第一方面的一些实施例中，方法还包括：确定所述强化学习模型的推理性能，所述推理性能指示针对多个决策场景中的每个决策场景的预测策略质量；基于所述强化学习模型的所述推理性能，更新所述训练数据中对应于所述多个决策场景的数据分布，以确定经更新的训练数据；以及基于所述经更新的训练数据，训练所述决策模型。

11、以此方式，可以动态调节训练数据中针对决策场景的数据分布，从而定向提升决策模型针对特定决策场景的推理性能。

12、在第一方面的一些实施例中，方法还包括：利用仿真器生成所述训练数据的至少一部分。在一些实施例中，利用所述仿真器生成数据包括：基于由所述强化学习模型确定的策略或随机策略中的至少一项，利用所述仿真器生成与所述策略或随机策略中的所述至少一项对应的行为，以作为所述训练数据的至少一部分。以此方式，可以利用仿真器来增加训练数据量。

13、在第一方面的一些实施例中，训练所述决策模型包括：确定与所述第一策略对应的监督学习损失；以及基于所述模仿学习损失、所述强化学习损失和所述监督学习损失，训练所述决策模型。

14、在第一方面的一些实施例中，方法还包括：利用经训练的所述决策模型或经训练的所述强化学习模型，基于与驾驶有关的输入数据，确定驾驶策略，所述驾驶策略包括以下至少一项：左换道、右换道、直行、超车、左转弯、右转弯、停车、加速、减速、刹车。

15、在本公开的第二方面，提供了用于训练决策模型的装置。该装置包括策略确定单元，被配置为基于训练数据，利用决策模型中的监督学习模型确定第一策略并且利用所述决策模型中的强化学习模型确定第二策略；损失确定单元，被配置为基于所述第一策略与所述第二策略之间的差异，确定模仿学习损失；以及优化单元，被配置为基于所述模仿学习损失和与所述第二策略对应的强化学习损失，训练所述决策模型。

16、在第二方面的一些实施例中，优化单元进一步被配置为：确定针对所述模仿学习损失的自适应权重；基于所述自适应权重以及所述模仿学习损失和所述强化学习损失，确定整体学习损失；以及通过使所述整体学习损失最小化，训练所述决策模型。

17、在第二方面的一些实施例中，所述优化单元进一步被配置为：确定针对所述模仿学习损失的初始权重；在达到预定训练轮次之前，基于所述模仿学习损失的变化来更新所述初始权重，以确定更新权重；以及在达到所述预定轮次之后，逐渐减小所述更新权重。

18、在第二方面的一些实施例中，所述优化单元进一步被配置为：若初始训练轮次的所述模仿学习损失小于后续训练轮次的所述模仿学习损失，则增加所述初始权重；以及若初始训练轮次的所述模仿学习损失大于后续训练轮次的所述模仿学习损失，则保持所述初始权重。

19、在第二方面的一些实施例中，装置还包括训练数据确定单元，所述训练数据确定单元被配置为：基于经标注的专家数据，训练所述监督学习模型；确定基于所述专家数据被训练的所述监督学习模型的推理性能，所述推理性能指示针对多个决策场景中的每个决策场景的预测策略质量；以及基于所述监督学习模型的所述推理性能，确定所述训练数据中对应于所述多个决策场景的数据分布。

20、在第二方面的一些实施例中，装置还包括仿真器利用单元，所述仿真器利用单元被配置为：利用仿真器生成所述训练数据的至少一部分。在第二方面的一些实施例中，所述仿真器利用单元进一步被配置为：基于由所述强化学习模型确定的策略或随机策略中的至少一项，利用所述仿真器生成与所述策略或随机策略中的所述至少一项对应的行为，以作为所述训练数据的至少一部分。

21、在第二方面的一些实施例中，装置还包括定向优化单元，所述定向优化单元被配置为本文档来自技高网...

【技术保护点】

1.一种训练决策模型的方法，所述方法包括：

2.根据权利要求1所述的方法，其中基于所述模仿学习损失和与所述第二策略对应的强化学习损失，训练所述决策模型包括：

3.根据权利要求2所述的方法，其中确定针对所述模仿学习损失的自适应权重包括：

4.根据权利要求3所述的方法，其中基于所述模仿学习损失的变化来更新所述初始权重包括：

5.根据权利要求1至4中任一项所述的方法，还包括：

6.根据权利要求1至5中任一项所述的方法，其中基于所述第一策略与所述第二策略之间的差异，确定模仿学习损失包括：

7.根据权利要求1至6中任一项所述的方法，还包括：

8.根据权利要求7所述的方法，其中利用所述仿真器生成数据包括：

9.根据权利要求1至8中任一项所述的方法，还包括：

10.根据权利要求1至9中任一项所述的方法，其中训练所述决策模型包括：

11.根据权利要求1至10中任一项所述的方法，还包括：

12.一种用于训练决策模型的装置，包括：

13.根据权利要求12所述

14.根据权利要求13所述的装置，其中所述优化单元进一步被配置为：

15.根据权利要求14所述的装置，其中所述优化单元进一步被配置为：

16.根据权利要求12至15中任一项所述的装置，还包括训练数据确定单元，所述训练数据确定单元被配置为：

17.根据权利要求12至16中任一项所述的装置，还包括仿真器利用单元，所述仿真器利用单元被配置为：利用仿真器生成所述训练数据的至少一部分。

18.根据权利要求17所述的装置，其中所述仿真器利用单元进一步被配置为：

19.根据权利要求12至18中任一项所述的装置，还包括定向优化单元，所述定向优化单元被配置为：

20.一种电子设备，包括：

21.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-11中任一项所述的方法。

22.一种计算机程序产品，包括计算机可执行指令，其中所述计算机可执行指令在被处理器执行时实现根据权利要求1-11中任一项所述的方法。

...

【技术特征摘要】