一种基于长短期记忆神经网络的多智能体系统动态通信方法技术方案

技术编号：41997407 阅读：8 留言：0更新日期：2024-07-12 12:22

本发明专利技术公开了一种基于长短期记忆神经网络的多智能体系统动态通信方法，首先对各个智能体进行建模，并采用长短期记忆神经网络作为各智能体的控制器对智能体通信向量进行输入与输出；计算每一时刻各智能体距离目标位置的欧氏距离及总和，得到各智能体的距离权重并构建基于距离的加权平均通信向量；然后，引入注意力单元，并通过构建多层感知机嵌入网络计算得到注意力权重与贡献指数，采用元素级乘积的计算方法得到注意力通信向量；最后，将隐藏层向量、基于距离的加权平均向量以及注意力通信向量进行拼接，得到最终的多智能体系统通信向量。上述方法能够实现环境与智能体信息在系统中的高效传播，从而使智能体动态调整策略以实现动作预测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于长短期记忆神经网络的多智能体系统动态通信方法，属于多智能体通信领域。

技术介绍

0、技术背景

1、多智能体系统是一种由多个智能体组成的协作系统，具有广泛的应用领域，如机器人控制、集群协同、网络通信等。在多智能体系统中，智能体之间的高效通信是实现协同工作和信息共享的关键。多智能体系统在各个领域都具有重要的应用价值。例如，汽车自动驾驶、智能无人工厂机器人以及物流供应链协同管理的领域。基于神经网络的多智能体通信方法旨在通过最大化减少多智能体之间的无效通信，降低多智能体间的成本，实现多智能体合作场景下的高效通信。

2、在多智能体系统中，有效的通信对于多智能体间的协作任务至关重要。在信息共享方面，智能体往往需要共享信息以完成任务。建立有效的通信机制，智能体可以传递关于环境状态、任务目标以及其他智能体行为的重要信息。这样，智能体能够共同理解和感知环境，并基于共享信息做出相应的决策。此外，各个智能体通过知识的共享与学习也能够不断提高自身的智能水平和决策能力，从而加快整个系统的学习速度，提供更好的决策。在协同工作与系统优化方面，通过智能体间通信能够实现协商和协调彼此的行动，提高整体系统的性能和效率。与此同时，多智能体系统能够利用通信过程中的信息协调整体资源分配、任务决策制定等，以实现系统整体性能最大化，提高效率的同时也能够降低通信所带来的成本开销。

3、神经网络是一种受到生物神经元系统启发而设计的计算模型，它可以模拟人脑的信息处理方式。在神经网络中，神经元和它们之间的连接以及权重起着关键

4、在多智能体环境中，现有研究多为通过预先规定的模式与方法实现智能体间的通信，这会导致在面对复杂环境或部分可观测环境时出现通信效率低下的问题，从而导致多智能体在完成合作任务时出现问题。由于现有多智能体间的通信主要通过离散形式的信号进行，会导致信息在智能体间传递时出现环境信息缺失的问题，进而导致通信质量的下降。为此，本方法引入lstm作为每个智能体的控制器，通信内容以连续的向量形式在智能体间传播以提升其传播质量，并为系统中的每个智能体分配权重以实现对于上一时刻通信向量的加权分配。本方法引入注意力单元，为每个智能体学习一个评论家网络选择性地关注来自其他智能体的通信信息，从而适应通信带宽有限的实际应用场景，降低成本开销的同时也能避免冗余信息对多智能体决策所产生的影响。

技术实现思路

1、传统的多智能体通信方法在多智能体协作场景中，智能体之间的通信效率、通信质量、奖励值分配存在困难和问题。多数现有方法倾向于预先规定通信的格式和方式，同时使用离散形式的信号进行通信。这会导致在处理复杂环境和部分可观测环境时，通信效率降低，信息传递不可靠，以及奖励值分配不均匀的问题。

2、为解决上述问题，本专利技术提出一种基于长短期记忆神经网络的多智能体系统动态通信的方法，该方法采用lstm作为多智能体的控制器，实现通信内容以连续向量的形式在多智能体间进行传播。在此基础上，引入注意力单元模块使各智能体能够有选择地关注来自其他智能体的交互信息。

3、本方法采用lstm作为智能体的控制器，负责多智能体系统中各智能体的之间连续向量形式的通信，每个智能体都能够独立地学习和适应环境，使多智能体系统更加灵活，适应性更强。此外，lstm网络在处理时序数据方面具有优势，由于多智能体通信涉及到时序数据的处理，lstm能够有效地捕捉时序信息的依赖关系，从而提高通信的准确性和有效性。同时，lstm网络具备记忆与遗忘机制，其能够选择性地保存和忘记信息，这对于多智能体通信尤为重要，因为智能体往往只需要在通信中传递特定的信息，lstm能够根据需要选择性地学习和保留相关信息，减少通信的冗余。

4、每个智能体的lstm控制器由输入门、遗忘门、记忆单元、隐藏层状态单元和输出门组成。这些组件共同构成了一个完整的lstm单元，实现了对智能体状态的控制和更新。输入门用于控制外部输入对记忆单元的影响，遗忘门则控制当前记忆单元中应该保留和遗忘的信息。记忆单元和隐藏层状态单元是lstm网络的核心。记忆单元负责储存和传递时序信息，隐藏层状态单元则负责生成输出信息。这两个状态随着时间的推移动态变化，共同决定了智能体在不同时间步的行为和决策过程。输出门用于控制记忆单元传递给下一时间步的程度，并产生下一个时刻的隐状态向量与通信向量。这些向量包含了关于智能体观测值以及与其他智能体进行通信所需的信息。

5、在多智能体系统中使用独立的lstm网络控制每个智能体，实现智能体之间的通信。每个智能体能够根据自身的观测值和lstm网络输出的信息，准确地理解和响应其他智能体的意图和需求，从而实现高效的多智能体协作。lstm网络能够捕捉到时序数据中的长期依赖关系，从而提高通信的准确性和鲁棒性。

6、在每一轮时间步迭代时，利用通信向量交互实现智能体与智能体、智能体与环境的相互感知，实现通信向量的高效、合理地分配与计算。各智能体每一时刻的通信向量由三部分构成，分别是：

7、(1)隐藏层状态向量：上一时刻长短期记忆神经网络该智能体控制器输出所得；

8、(2)加权平均通信向量：根据当前多智能体系统状态，计算各个智能体距离目标的距离并求和，同时计算每个智能体的距离权重并使用该权重计算得到加权平均通信向量；

9、(3)注意力通信向量：根据当前多智能体系统状态，通过注意力单元得到智能体与其他智能体之间的贡献指数，并利用该贡献指数计算得到注意力通信向量。

本文档来自技高网...

【技术保护点】

1.一种基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，所述多智能体系统动态通信方法包括以下步骤：

2.根据权利要求1所述的基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，对多智能体系统中的每个智能体由一个独立的LSTM网络进行控制，对于第i个智能体在t时刻下LSTM控制器表示为：

3.根据权利要求1所述基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，其中，控制每个智能体的LSTM网络内部由输入门、遗忘门、细胞状态单元、隐藏层状态单元以及输出门构成。

4.根据权利要求1所述的基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，LSTM的输出为下一个时刻的隐状态向量与通信向量，即LSTM的输出表示为

5.根据权利要求1所述的基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，智能体i在每个时刻下与目标位置的具体使用二维平面坐标系下的欧氏距离表示，pi为智能体i当前的位置(xi,yi)，为目标的位置(xt,yt)；

6.根据权利要求1所述的基于长短期记忆神经网络的

7.根据权利要求6所述的基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，注意力单元为每个智能体构建一个可学习的Critic网络，从而使各个智能体能够选择性的关注来自其他智能体的信息。

8.根据权利要求7所述的基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，注意力单元中Critic网络的输入为环境观测值集合o＝(o1,o2,…,oN)以及各个智能体的动作集合a＝(a1,a2,…,aN)。

9.根据权利要求8所述的基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，其中影响因子表示为vj，g表示多层感知机嵌入网络，V表示一个线性变换矩阵，h表示元素级别的ReLU激活函数；

10.根据权利要求9所述的基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，其中，每个时刻各个智能体的通信向量由三部分向量拼接而成：

...

【技术特征摘要】

1.一种基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，所述多智能体系统动态通信方法包括以下步骤：

2.根据权利要求1所述的基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，对多智能体系统中的每个智能体由一个独立的lstm网络进行控制，对于第i个智能体在t时刻下lstm控制器表示为：

3.根据权利要求1所述基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，其中，控制每个智能体的lstm网络内部由输入门、遗忘门、细胞状态单元、隐藏层状态单元以及输出门构成。

4.根据权利要求1所述的基于长短期记忆神经网络的多智能体系统动态通信方法，其特征在于，lstm的输出为下一个时刻的隐状态向量与通信向量，即lstm的输出表示为

6.根据权利要求1所述的基于长短期记忆神经网络的多智能体系统动态通信...

【专利技术属性】
技术研发人员：杜永萍，尹子豪，张博超，王彬锐，王禹心，李方昱，韩红桂，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人