一种结合早期监督学习和后期强化学习的智能体策略模型训练方法技术

技术编号：41292063 阅读：2 留言：0更新日期：2024-05-13 14:42

本发明专利技术公开了一种结合早期监督学习和后期强化学习的智能体策略模型训练方法，属于多智能体强化学习领域，包括：利用先前收集的轨迹作为上下文，用上下文预测器进行建模以产生下一个动作和观察结果，并在早期训练阶段使用上下文预测器来替代Q值函数或效用函数。此外，本发明专利技术采用联合动作采样机制来限制动作空间，并动态选择来自policy网络与来自上下文轨迹预测器的策略来执行rollout过程。通过合理限制动作空间和rollout过程，本发明专利技术可以显著加速算法训练过程。本发明专利技术的框架显著加速了现有的CTDE和非CTDE的多智能体强化学习方法的训练过程，同时在最终表现上也与它们的原始版本持平或超越原始算法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多智能体强化学习领域，具体涉及一种结合早期监督学习和后期强化学习的智能体策略模型训练方法。

技术介绍

1、最近关于多智能体强化学习(marl)的研究在现实世界中有非常广泛的应用，如无人驾驶车辆团队和传感器网络。当前提出的许多marl方法是以改善价值分解或合作探索为主要方法，其中基于价值的marl方法在挑战性任务上表现出优异性能。例如，starcraft ii和mpe环境。

2、然而，在强化学习领域基于q值引导的算法和基于价值的算法可能会受到函数近似与数据分布之间的病态交互的影响。在标准的q学习方法中，在线的数据收集应该通过正确的反馈修正旧预测中的数据分布错误。然而在q学习的动态规划方法中，这种正确的反馈往往缺失，进而导致了算法的不稳定与次优收敛。

3、这一现象在多智能体强化学习中进一步恶化，智能体数量增加会导致累积自举误差增大；同时智能体交互呈现指数级增长也导致了传统方法的收敛需要更大的训练步数，从而限制了多智能体强化学习算法的应用前景。

4、针对上述问题，公开号为cn115300910a的专利文献公开了一种基于多智能体强化学习的去混淆游戏策略模型生成方法，包括：s1、查找游戏场景中每一个需要和环境进行交互且能够被游戏玩家控制的独立角色，将每个独立角色视为一个游戏智能体；s2、对每个游戏智能体进行单独建模得到自身游戏策略模型，每个自身游戏策略模型的输入为对应角色自身在游戏环境中的观测，输出为对应角色的局部动作价值；s3、构建一个中心评判器，其输入为游戏场景中所有游戏智能体的局部动

5、但是，该专利技术利用图网络建模智能体之间的交流，属于基于模型的方法，一方面，只适用于集中式训练与分布式执行(centralized training with decentralizedexecution，ctde)的设定，在non-ctde上无法实现，另一方面，基于模型的方法的优势是样本效率高、收敛速度快，但是性能差，且通常需要更多的先验知识和计算资源来构建模型。

6、公开号为cn115204415a的专利文献公开了一种多智能体强化学习训练方法及系统，包括：局部策略训练阶段，智能体局部策略利用自身的局部观测信息做出动作；全局策略训练阶段，智能体的全局策略利用局部策略作为与环境交互的动作模块，全局策略以环境全局状态作为输入，给出对全局信息在隐空间中进行编码，同时利用全部智能体的局部观测信息使用神经网络对全局状态进行拟合；部策略结合各自的局部观测信息以及全局策略的输出在环境中做出符合环境要求的合适动作；局部策略优化阶段，利用前两个阶段得到的全局策略与局部策略以及拟合模型，在现有的局部策略的基础上进行优化，最终得到效果更好的智能体。

7、该专利技术采用局部策略训练和全局策略训练相结合的方式对智能体模型进行训练，但是，在采用全局策略处理全局状态信息时，整体计算复杂度增加，同时由于智能体之间需要交换局部观测信息，同时又增加了模型的通信开销，在这两方面限制下，模型的训练速度会显著降低。

技术实现思路

1、本专利技术的目的是提供一种结合早期监督学习和后期强化学习的智能体策略模型训练方法，在智能体强化学习策略模型的决策过程中，早期采用监督学习避免了误差累积，后期采用强化学习接力训练，能够加快模型的收敛，从而提高智能体强化学习策略模型的训练速度。

2、为实现上述专利技术目的，本专利技术提供的技术方案如下：

3、本专利技术实施例提供的一种结合早期监督学习和后期强化学习的智能体策略模型训练方法，包括以下步骤：

4、步骤1：查找环境中每一个独立可操控的智能体，获取每个智能体在环境中当前时间步的观测值和可行行为集合，每个智能体在当前时间步之前的可行行为和状态作为历史信息，根据历史信息和当前时间步的可行行为获取奖励；

5、步骤2：基于强化学习策略网络构建每个智能体的智能体策略模型，将智能体当前时间步的观测值和历史信息输入智能体策略模型，得到可行行为的价值，筛选出最高价值及对应的可行行为；

6、步骤3：构建混合超网络将每个智能体策略模型输出的最高价值进行最大值混合，并保证混合后的价值对每个智能体的最高价值的梯度为正；

7、步骤4：从经验回放缓存中随机采样轨迹数据，所述轨迹数据包括每个智能体的历史信息及对应的奖励，通过聚类的方式将轨迹数据中所有的状态聚类为聚类中心，以聚类中心、观测值、访问次数和价值作为节点，以可行行为作为枝干，构建环境中所有智能体的策略树；

8、步骤5：建立上下文预测模型，将轨迹数据中的观测值作为输入、当前时刻的可行行为和下一时刻的观测值作为预测输出，以策略树中最优路径作为训练标签，采用自回归的方式监督训练上下文预测模型；

9、步骤6：将随机采样得到的轨迹数据中的观测值输入训练后的上下文预测模型，得到预测输出，当预测输出中下一时刻的观测值与真实观测之间的差距超过预设阈值时跳出，此后，基于步骤3混合后的价值，以跳出时间步之后采样得到的轨迹数据为输入，采用td更新训练强化学习策略网络；

10、步骤7：将智能体的初始状态输入训练后的上下文预测模型中，得到预测输出，在跳出时间步后采用训练后的强化学习策略网络继续决策，得到每一个时间步的可行行为，每个智能体采取得到的可行行为与环境交互，并将交互后的轨迹更新到策略树中；

11、步骤8：重复步骤4-步骤7，对策略树的生成与更新以及智能体策略模型进行迭代训练，直到达到终止条件，环境中的每一个智能体都得到各自收敛的智能体策略模型。

12、本专利技术的技术构思为：针对基于q学习的动态规划方法需要大量的正确反馈做修正从而导致训练次数明显增加的问题，本专利技术提出了一个包含上下文提示、联合行为采样组成的多智能体强化学习框架以及上下文轨迹预测机制。智能体早期行为不是通过q函数生成，而是通过根据重放缓冲区中的历史交互数据训练得到的自监督上下文预测器生成。在有限的计算资源和较少的训练步骤下，应用了本专利技术框架的多智能本文档来自技高网...

【技术保护点】

1.一种结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，步骤2中，所述的智能体策略模型，包含全连接输出层与循环神经网络层。

3.根据权利要求2所述的结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，步骤2中，所述的将智能体当前时间步的观测值和历史信息输入智能体策略模型，得到可行行为的价值，具体为：

4.根据权利要求1所述的结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，步骤4具体为：

5.根据权利要求1所述的结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，步骤5具体为：

6.根据权利要求1所述的结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，步骤6中，所述的采用TD更新训练强化学习策略网络，具体为：

7.根据权利要求1所述的结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，步骤7中，所述的

8.根据权利要求1所述的结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，模型参数更新时，目标网络的参数每隔一段预定时间进行一次更新，并复制当前策略网络的参数，策略树每隔一段预定时间进行一次摧毁与重建。

...

【技术特征摘要】

1.一种结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，包括以下步骤：

4.根据权利要求1所述的结合早期监督学习和后期强化学习的智能体策略模型训练方法，其特征在于，步骤4具体为：

5.根据权利要求1所述的结合早期监督学习和后期强化学习的智能体策略模型训练...

【专利技术属性】
技术研发人员：张寅，邓悦，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人