一种多代理合作场景下的通信协议学习和迁移的方法技术

技术编号：24215687 阅读：103 留言：0更新日期：2020-05-20 19:01

本发明专利技术公开了一种多代理合作情景下的通信协议学习和迁移的方法，包括：每个执行代理独立观测环境，使用神经网络将环境进行编码，生成需要分享给其他代理的信息特征向量；所述执行代理将各自的信息发送给信道代理（通信通道），所述信道代理使用通信协议为各执行代理生成消息向量并进行分发；所述执行代理接收到新的消息，整合已有的信息，然后使用策略网络进行动作决策；所述执行代理和所述信道代理的网络参数的梯度是分开进行计算的；在源任务上学习到通信协议后，迁移到目标任务时，复用通信协议参数，并限制学习率。该方法能够独立学习指定任务上的连续通信协议，并具有良好的鲁棒性。

A method of communication protocol learning and migration in multi-agent cooperation scenario

全部详细技术资料下载

【技术实现步骤摘要】
一种多代理合作场景下的通信协议学习和迁移的方法
本专利技术属于人工智能自动化领域，特别地涉及一种多代理合作情景下的通信协议学习和迁移的方法。
技术介绍
现代人工智能自动化领域使用强化学习来训练代理执行任务是一个常见的解决方案，其中，许多场景依赖多个代理进行合作来达成共同的目标。在多代理合作体系中，常见的一种方法就是使用代理间通信来协调动作，进行合作。现有的主流通信协作方法有：(1)采用固定的通信协议。这种方法需要领域专家对相关场景进行通信协议的设计，无法适应多种场景；(2)采用机器学习技术来自动学习连续的通信协议。这种方法常见于各类多代理通信系统中，其中，通信协议是作为通信通道出现的，且其训练是与代理的策略共同进行的。对于所述方法(2)，学习到的通信协议与动作执行策略具有强耦合性，在面对同类型的不同目标任务场景时，基本不具备可复用性。因此，在面对新的任务环境时，需要重新学习通信协议，提高了学习成本。
技术实现思路
为解决上述问题，本专利技术的目的在于提供一种多代理合作情景下的通信协议学习和迁移的方法，其通过设计独立的信道代理，将通信协议作为其策略网络来学习，可以实现同类型任务下的通信协议的复用。为实现上述目的，本专利技术的解决方案为：在多代理合作通信系统中引入信道代理来自动学习通信协议，区别于用于执行动作的执行代理；使用所述信道代理来自动学习通信协议，所述信道代理接收执行代理发来的特征向量，按照通信协议生成消息向量分发给执行代理。执行代理和信道代理的工作流程具体为：...

【技术保护点】
1.一种多代理合作情景下的通信协议学习和迁移的方法，其特征在于，包括：/n在多代理合作通信系统中引入信道代理来自动学习通信协议，区别于用于执行动作的执行代理；/n使用所述信道代理来自动学习通信协议，所述信道代理接收执行代理发来的特征向量，按照通信协议生成消息向量分发给执行代理；/n执行代理和信道代理的工作流程具体为：每个执行代理独立进行观测，并通过编码器将所观测的局部状态进行编码，生成对应的特征向量并发送给所述信道代理，所述信道代理接收特征向量，使用所述通信协议生成消息向量并分发给执行代理；所述执行代理接收到所述消息向量，与所述特征向量一起输入自己的策略网络，所述策略网络输出动作向量，与环境进行交互；使用深度确定性策略梯度算法分别对所述执行代理和所述信道代理的相关网络参数进行调整；/n从源任务迁移到目标任务时，保留源任务上学习到的通信协议网络参数，并限制目标任务学习时的通信协议网络参数更新率。/n

【技术特征摘要】
1.一种多代理合作情景下的通信协议学习和迁移的方法，其特征在于，包括：
在多代理合作通信系统中引入信道代理来自动学习通信协议，区别于用于执行动作的执行代理；
使用所述信道代理来自动学习通信协议，所述信道代理接收执行代理发来的特征向量，按照通信协议生成消息向量分发给执行代理；
执行代理和信道代理的工作流程具体为：每个执行代理独立进行观测，并通过编码器将所观测的局部状态进行编码，生成对应的特征向量并发送给所述信道代理，所述信道代理接收特征向量，使用所述通信协议生成消息向量并分发给执行代理；所述执行代理接收到所述消息向量，与所述特征向量一起输入自己的策略网络，所述策略网络输出动作向量，与环境进行交互；使用深度确定性策略梯度算法分别对所述执行代理和所述信道代理的相关网络参数进行调整；
从源任务迁移到目标任务时，保留源任务上学习到的通信协议网络参数，并限制目标任务学习时的通信协议网络参数更新率。

2.如...

【专利技术属性】
技术研发人员：谭哲越，尹建伟，尚永衡，张鹿鸣，李莹，邓水光，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人