多智能体强化学习通信方法、终端设备及存储介质技术

技术编号:38213359 阅读:22 留言:0更新日期:2023-07-25 11:21
本发明专利技术公开了一种多智能体强化学习通信方法、终端设备及存储介质,包括:步骤1、根据环境建模智能体模型,智能体包括信号发送者和信号接收者,并设定所述智能体模型的超参数;步骤2、获取所述智能体在环境中交互产生的轨迹数据;步骤3、根据所述轨迹数据,更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络,并根据信号梯度和拓展服从约束,更新所述信号发送者的信号网络;步骤4、调整所述智能体的超参数,并重复步骤2

【技术实现步骤摘要】
多智能体强化学习通信方法、终端设备及存储介质


[0001]本专利技术公开了一种多智能体强化学习通信方法、终端设备及存储介质,属于多智能体强化学习


技术介绍

[0002]多智能体是由多个智能体组成的复杂系统,其中每个智能体具有感知、交互和自主决策能力,根据智能体的关系(竞争/合作)可以分为竞争型、合作型以及混合型多智能体系统。强化学习是一种通过试错学习机制进行决策优化的机器学习方法,具有不依赖于任何先验知识和外部环境模型的优点。近年来,多智能体强化学习技术飞速发展,并在自动驾驶汽车、计算机游戏场景、机器人群和传感器网络等现实领域有了深入的应用。
[0003]目前,多智能体强化学习通信算法通常只考虑多个智能体在完全合作场景下的通信。但是,在现实中,智能体之间的行为通常是混合动机的,既包含合作行为也包含竞争行为。在这些混合动机的场景中,不同的智能体想要优化的目标不同,这些有不同目标智能体之间的互动存在博弈。现有技术中仅考虑多个智能体在完全合作场景下的通信,不考虑多个智能体之间的博弈,会导致决策的演化陷入较差的均衡。

技术实现思路

[0004]本申请的目的在于,提供一种多智能体强化学习通信方法、终端设备及存储介质,以解决现有技术中仅考虑多个智能体在完全合作场景下的通信,不考虑多个智能体之间的博弈,会导致决策出现偏差的技术问题。
[0005]本专利技术的第一方面提供了一种多智能体强化学习通信方法,包括:
[0006]步骤1、根据环境建模智能体模型,智能体包括信号发送者和信号接收者,并设定所述智能体模型的超参数;
[0007]步骤2、获取所述智能体在环境中交互产生的轨迹数据;
[0008]步骤3、根据所述轨迹数据,更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络,并根据信号梯度和拓展服从约束,更新所述信号发送者的信号网络;
[0009]步骤4、调整所述智能体的超参数,并重复步骤2

3,选取多组超参数组中表现最优的所述智能体模型。
[0010]优选的,根据信号梯度和拓展服从约束,采用优化方法计算更新所述信号发送者的信号网络,具体包括:
[0011]当所述信号发送者的信号策略满足所述拓展服从约束时,所述信号网络的更新梯度为信号梯度;
[0012]当所述信号发送者的信号策略不满足所述拓展服从约束时,所述信号网络的更新梯度为所述信号梯度与所述拓展服从约束对所述信号网络的参数的梯度;
[0013]梯度计算完成后采用上升法更新所述信号发送者的所述信号网络的参数。
[0014]优选的,所述拓展服从约束中使用的所述信号发送者的信号集合是根据所述信号
接收者的最大化后验收益期望的信号确定。
[0015]优选的,所述信号网络的梯度的计算是根据所述智能体模型中所述信号发送者发送的信号对所述信号接收者的影响确定;
[0016]所述信号接收者的影响包括所述信号接收者的动作策略。
[0017]优选的,根据所述轨迹数据,更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络,具体包括:
[0018]更新所述信号接收者对应的所述动作策略网络、评价网络和目标评价网络;
[0019]更新所述信号发送者对应的所述动作策略网络、评价网络、目标评价网络和信号网络;
[0020]更新所述信号发送者为所述信号接收者维护的评价网络和目标评价网络。
[0021]优选的,更新所述信号接收者对应的所述动作策略网络、评价网络和目标评价网络,具体包括;
[0022]根据所述信号接收者的所述轨迹数据,用策略梯度法更新所述信号接收者的动作策略网络;
[0023]利用所述轨迹数据和所述目标评价网络计算时间差分误差,更新所述评价网络;
[0024]所述目标评价网络的更新方式为软更新。
[0025]优选的,所述轨迹数据收集存储在经验回放池中;
[0026]所述经验回放池包括所述信号接收者的经验回放池和所述信号发送者的经验回放池。
[0027]一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
[0028]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
[0029]本专利技术多智能体强化学习通信方法、终端设备及存储介质具有以下有益效果:
[0030](1)本专利技术是一种多智能体通信系统,用强化学习实现的多智能体在混合动机场景中进行通信的方法,通过将计算经济学信息设计中的服从约束拓展到序列博弈,并显式地考虑信号策略对序列博弈上未来收益期望的影响,使得智能体能在混合动机下的场景中学习产生有效的通信。
[0031](2)本专利技术提出了新模型,用以建模信号发送者和信号接收者的通信过程以及其在环境中的交互过程,这种随机过程为马尔科夫信号博弈。本方法解决了目前将贝叶斯说服拓展到序列决策的研究中不合理的假设。
[0032](3)本专利技术推导了信号发送者在序列决策中的收益期望对于自身发送信号的策略参数的梯度,即信号梯度。
[0033](4)本专利技术在实际学习中,发送者的信号策略的更新目标是自己的收益期望,其梯度的计算为信号梯度的结果,同时要满足拓展服从约束。因此实现一种用强化学习实现的多智能体在混合动机场景中进行通信的方法。
附图说明
[0034]图1为本专利技术多智能体强化学习通信方法的步骤示意图。
具体实施方式
[0035]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合具体实施方式,对本专利技术进行进一步的详细说明。应当理解的是,此处所描述的具体实施方式仅用以解释本专利技术,并不限定本专利技术的保护范围。
[0036]本专利技术实施例中的第一方面提供了一种多智能体强化学习通信方法,具体包括:
[0037]步骤S1、根据环境建模智能体模型,智能体包括信号发送者和信号接收者,并设定所述智能体模型的超参数;
[0038]步骤S2、使所述智能体在环境中交互,收集所述智能体的轨迹数据;
[0039]步骤S3、根据所述轨迹数据,更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络,并根据信号梯度和拓展服从约束,采用优化方法计算更新所述信号发送者的信号网络;
[0040]步骤S4、调整所述智能体的超参数,并重复步骤2

3,直至每个所述智能体的奖励曲线收敛或者达到指定的最大训练次数,选取多组超参数组中表现最优的所述智能体模型。
[0041]本专利技术实施例中,贝叶斯说服中的拓展服从约束是由每种环境状态s下,信号发送者发送信号的概率、信号接收者接收到信号发送者发送的信号并采取动作的概率和期望、信号接收者接收到其他信号发送者发送的信号并采取动作的概率及期望确定的,具体如公式(1):...

【技术保护点】

【技术特征摘要】
1.一种多智能体强化学习通信方法,其特征在于,包括:步骤1、根据环境建模智能体模型,智能体包括信号发送者和信号接收者,并设定所述智能体模型的超参数;步骤2、获取所述智能体在环境中交互产生的轨迹数据;步骤3、根据所述轨迹数据,更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络,并根据信号梯度和拓展服从约束,更新所述信号发送者的信号网络;步骤4、调整所述智能体的超参数,并重复步骤2

3,选取多组超参数组中表现最优的所述智能体模型。2.根据权利要求1所述的多智能体强化学习通信方法,其特征在于,根据信号梯度和拓展服从约束,更新所述信号发送者的信号网络,具体包括:当所述信号发送者的信号策略满足所述拓展服从约束时,所述信号网络的更新梯度为信号梯度;当所述信号发送者的信号策略不满足所述拓展服从约束时,所述信号网络的更新梯度是根据所述信号梯度与所述拓展服从约束对所述信号网络的参数的梯度确定的;梯度计算完成后采用上升法更新所述信号发送者的所述信号网络的参数。3.根据权利要求2所述的多智能体强化学习通信方法,其特征在于,所述拓展服从约束中使用的所述信号发送者的信号集合是根据所述信号接收者的最大化后验收益期望的信号确定。4.根据权利要求2所述的多智能体强化学习通信方法,其特征在于,所述信号网络的梯度的计算是根据所述智能体模型中所述信号发送者发送的信号对所述信号接收者的影响确定;所述信号接收者的影响包括...

【专利技术属性】
技术研发人员:林越李文浩查宏远王趵翔
申请(专利权)人:香港中文大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1