多智能体强化学习通信方法、终端设备及存储介质技术

技术编号：38213359 阅读：30 留言：0更新日期：2023-07-25 11:21

本发明专利技术公开了一种多智能体强化学习通信方法、终端设备及存储介质，包括：步骤1、根据环境建模智能体模型，智能体包括信号发送者和信号接收者，并设定所述智能体模型的超参数；步骤2、获取所述智能体在环境中交互产生的轨迹数据；步骤3、根据所述轨迹数据，更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络，并根据信号梯度和拓展服从约束，更新所述信号发送者的信号网络；步骤4、调整所述智能体的超参数，并重复步骤2

全部详细技术资料下载

【技术实现步骤摘要】
多智能体强化学习通信方法、终端设备及存储介质

[0001]本专利技术公开了一种多智能体强化学习通信方法、终端设备及存储介质，属于多智能体强化学习

技术介绍

[0002]多智能体是由多个智能体组成的复杂系统，其中每个智能体具有感知、交互和自主决策能力，根据智能体的关系(竞争/合作)可以分为竞争型、合作型以及混合型多智能体系统。强化学习是一种通过试错学习机制进行决策优化的机器学习方法，具有不依赖于任何先验知识和外部环境模型的优点。近年来，多智能体强化学习技术飞速发展，并在自动驾驶汽车、计算机游戏场景、机器人群和传感器网络等现实领域有了深入的应用。
[0003]目前，多智能体强化学习通信算法通常只考虑多个智能体在完全合作场景下的通信。但是，在现实中，智能体之间的行为通常是混合动机的，既包含合作行为也包含竞争行为。在这些混合动机的场景中，不同的智能体想要优化的目标不同，这些有不同目标智能体之间的互动存在博弈。现有技术中仅考虑多个智能体在完全合作场景下的通信，不考虑多个智能体之间的博弈，会导致决策的演化陷入较差的均衡。

技术实现思路

[0004]本申请的目的在于，提供一种多智能体强化学习通信方法、终端设备及存储介质，以解决现有技术中仅考虑多个智能体在完全合作场景下的通信，不考虑多个智能体之间的博弈，会导致决策出现偏差的技术问题。
[0005]本专利技术的第一方面提供了一种多智能体强化学习通信方法，包括：
[0006]步骤1、根据环境建模智能体模型，智能体包括信号发送者和信号接收

【技术保护点】

【技术特征摘要】
1.一种多智能体强化学习通信方法，其特征在于，包括：步骤1、根据环境建模智能体模型，智能体包括信号发送者和信号接收者，并设定所述智能体模型的超参数；步骤2、获取所述智能体在环境中交互产生的轨迹数据；步骤3、根据所述轨迹数据，更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络，并根据信号梯度和拓展服从约束，更新所述信号发送者的信号网络；步骤4、调整所述智能体的超参数，并重复步骤2
‑
3，选取多组超参数组中表现最优的所述智能体模型。2.根据权利要求1所述的多智能体强化学习通信方法，其特征在于，根据信号梯度和拓展服从约束，更新所述信号发送者的信号网络，具体包括：当所述信号发送者的信号策略满足所述拓展服从约束时，所述信号网络的更新梯度为信号梯度；当所述信号发送者的信号策略不满足所述拓展服从约束时，所述信号网络的更新梯度是根据所述信号梯度与所述拓展服从约束对所述信号网络的参数的梯度确定的；梯度计算完成后采用上升法更新所述信号发送者的所述信号网络的参数。3.根据权利要求2所述的多智能体强化学习通信方法，其特征在于，所述拓展服从约束中使用的所述信号发送者的信号集合是根据所述信号接收者的最大化后验收益期望的信号确定。4.根据权利要求2所述的多智能体强化学习通信方法，其特征在于，所述信号网络的梯度的计算是根据所述智能体模型中所述信号发送者发送的信号对所述信号接收者的影响确定；所述信号接收者的影响包括...

【专利技术属性】
技术研发人员：林越，李文浩，查宏远，王趵翔，
申请(专利权)人：香港中文大学深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人