一种基于强化学习算法的通信拓扑优化方法技术

技术编号：39186192 阅读：25 留言：0更新日期：2023-10-27 08:33

本发明专利技术公开了一种基于强化学习算法的通信拓扑优化方法，属于多智能体系统技术领域，包括以下步骤：S101、构建基于强化学习算法的最优通信拓扑生成框架；S102、设计基于通信距离和收敛时间的通讯拓扑评价函数，利用评价函数的值作为学习最优策略更新规则的奖励值；S103、改变通信拓扑，根据多智能体系统的运行结果选择出最优的通信拓扑结构，保证多智能体系统稳定并提高系统控制器的性能。通过上述方式，本发明专利技术融合强化学习算法DQN生成最优通信拓扑，充分考虑了多智能体系统的控制器性能和通信成本，在保证系统的稳定性前提下，大幅提高了系统控制器的性能，减少了系统收敛的时间，有效降低了智能体之间的通信成本。有效降低了智能体之间的通信成本。有效降低了智能体之间的通信成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习算法的通信拓扑优化方法

[0001]本专利技术涉及多智能体系统
，具体涉及一种基于强化学习算法的通信拓扑优化方法。

技术介绍

[0002]近年来，越来越多的真实生活场景应用了多智能体系统，例如自动驾驶，传感器网络，飞行器的编队和多机器人合作控制。然而随着多智能体系统与多个领域的关系逐渐密切，用户对多智能体系统的成本和性能有着更高的要求，但是目前多智能体系统的拓扑结构为了保证系统的稳定性，通常会人为选择并固定通信拓扑。这样的行为虽然满足了系统的稳定性要求，但是往往会忽略其他可能工作效果更佳的拓扑结构，从而增加了系统的通信成本和降低系统性能。在多智能体系统中，通信拓扑可以为系统的群协作奠定基础，实现智能体之间的有效信息交互，因此选择一个好的通信拓扑结构对于降低多智能体系统的成本和提高系统的性能具有重要意义。
[0003]选择更好的通信拓扑首先需要一个统一的评价标准，然而随着多智能体系统的不断发展，如何设计一个统一的评价标准是一个挑战。目前国内外已经有人研究相关问题，研究的成果分别有：通过分析具有有向拓扑和通信延迟的离散多智能体系统的广义共识问题，得到有向连接下通信延迟广义共识的一个充分条件；提出用于跟踪和形成具有时变通信拓扑的多智能体系统的分布式模型预测控制；建立在任意时变通信拓扑和通信时延下多智能体系统的鲁棒稳定性并给出在任意不变通信拓扑和任意时变通信时延下鲁棒稳定性的充要条件。但是这些研究均未考虑通信拓扑对收敛时间和通信成本的影响，因此有必要提出一个评价函数来准确地评价拓扑结构，让系统选...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习算法的通信拓扑优化方法，其特征在于，包括以下步骤：S101、构建基于强化学习算法的最优通信拓扑生成框架；S102、设计基于通信距离和收敛时间的通讯拓扑评价函数，利用评价函数的值作为学习最优策略更新规则的奖励值；S103、改变通信拓扑，根据多智能体系统的运行结果选择出最优的通信拓扑结构，保证多智能体系统稳定并提高系统控制器的性能。2.根据权利要求1所述的基于强化学习算法的通信拓扑优化方法，其特征在于，所述步骤S101具体包括：状态空间：建立状态空间s，为了简化计算复杂度，将N阶多智能体系统的通信拓扑方阵转换为一维长度向量(N*N)，以通信拓扑的一维向量作为状态空间；动作空间：根据输出概率最大的位置W选择神经网络，将状态向量W的0变为1；奖励：为保证通信拓扑结构的稳定性，对于包含N个智能体的多智能体系统，将通讯拓扑的边数设置为M＝(2N
‑
3)；当∑s
t
＝M时，将s
t
转换为通讯拓扑A并计算其对应的拉普拉斯矩阵L，设定对角矩阵B表示领导者以及与其通信的跟随者的之间的关系，如果跟随者接收到领导者的信息，对角线元素为1，否则为0；计算rank(L+B)，如果rank(L+B)＝N，计算相应的距离和时间，回报r
t
＝
‑
f，否则，认为当前状态不满足要求，回报r
t
＝
‑
5；当∑s
t
≠9时，回报r
t
＝
‑
5；策略：π在s
t
情况下生成可行解的概率为其中p
θ
(π
t
|π
1:t
‑1,s)是由参数θ参数化的单步分配策略；回报：其中γ表示奖励折扣因子。3.根据权利要求1所述的基于强化学习算法的通信拓扑优化方法，其特征在于，所述步骤S102具体包括：建立通信拓扑和多智能体系统的连接，新的评价函数为：其中，表示通信拓扑的有向图；x0表示多智能体系统的初始状态；u表示多智能体系统的输入；ρ1，ρ2表示权系数；T表示多智能体系统收敛时间；η表示多智能体系统的总通信距离。4.根据权利要求3所述的基于强化学习算法的通信拓...

【专利技术属性】
技术研发人员：王震，严利，于登秀，周松博，金军委，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人