当前位置: 首页 > 专利查询>浙江大学专利>正文

一种多代理合作场景下的通信协议学习和迁移的方法技术

技术编号:24215687 阅读:103 留言:0更新日期:2020-05-20 19:01
本发明专利技术公开了一种多代理合作情景下的通信协议学习和迁移的方法,包括:每个执行代理独立观测环境,使用神经网络将环境进行编码,生成需要分享给其他代理的信息特征向量;所述执行代理将各自的信息发送给信道代理(通信通道),所述信道代理使用通信协议为各执行代理生成消息向量并进行分发;所述执行代理接收到新的消息,整合已有的信息,然后使用策略网络进行动作决策;所述执行代理和所述信道代理的网络参数的梯度是分开进行计算的;在源任务上学习到通信协议后,迁移到目标任务时,复用通信协议参数,并限制学习率。该方法能够独立学习指定任务上的连续通信协议,并具有良好的鲁棒性。

A method of communication protocol learning and migration in multi-agent cooperation scenario

【技术实现步骤摘要】
一种多代理合作场景下的通信协议学习和迁移的方法
本专利技术属于人工智能自动化领域,特别地涉及一种多代理合作情景下的通信协议学习和迁移的方法。
技术介绍
现代人工智能自动化领域使用强化学习来训练代理执行任务是一个常见的解决方案,其中,许多场景依赖多个代理进行合作来达成共同的目标。在多代理合作体系中,常见的一种方法就是使用代理间通信来协调动作,进行合作。现有的主流通信协作方法有:(1)采用固定的通信协议。这种方法需要领域专家对相关场景进行通信协议的设计,无法适应多种场景;(2)采用机器学习技术来自动学习连续的通信协议。这种方法常见于各类多代理通信系统中,其中,通信协议是作为通信通道出现的,且其训练是与代理的策略共同进行的。对于所述方法(2),学习到的通信协议与动作执行策略具有强耦合性,在面对同类型的不同目标任务场景时,基本不具备可复用性。因此,在面对新的任务环境时,需要重新学习通信协议,提高了学习成本。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种多代理合作情景下的通信协议学习和迁移的方法,其通过设计独立的信道代理,将通信协议作为其策略网络来学习,可以实现同类型任务下的通信协议的复用。为实现上述目的,本专利技术的解决方案为:在多代理合作通信系统中引入信道代理来自动学习通信协议,区别于用于执行动作的执行代理;使用所述信道代理来自动学习通信协议,所述信道代理接收执行代理发来的特征向量,按照通信协议生成消息向量分发给执行代理。执行代理和信道代理的工作流程具体为:每个执行代理独立进行观测,并通过编码器将所观测的局部状态进行编码,生成对应的特征向量并发送给所述信道代理,所述信道代理接收特征向量,使用所述通信协议生成消息向量并分发给执行代理;所述执行代理接收到所述消息向量,与所述特征向量一起输入自己的策略网络,所述策略网络输出动作向量,与环境进行交互;使用深度确定性策略梯度算法分别对所述执行代理和所述信道代理的相关网络参数进行调整。从源任务迁移到目标任务时,保留源任务上学习到的通信协议网络参数,并限制目标任务学习时的通信协议网络参数更新率。所述通信协议由循环神经网络进行实现,其输入为所述执行代理所计算得到的特征向量,将网络的循环单元按代理数目进行展开,将所述循环单元的隐含状态作为所述消息向量。所述的深度确定性策略梯度算法中,执行代理和信道代理分别拥有独立的动作-价值函数,执行代理的动作-价值函数的输入为特征向量和动作向量,信道代理的动作-价值函数的输入为特征向量和消息向量;其中,执行代理的编码器和策略网络的参数是通过所述执行代理的动作-价值函数的梯度进行调整的,信道代理的通信协议网络的参数是通过所述信道代理的动作-价值函数的梯度进行调整的。迁移时,首先在源任务上进行通信协议的学习,然后将通信协议网络的参数复用在目标任务中,并限制相关参数的学习率,以保留学习到的通信协议的性能且快速适应目标任务。与现有技术相比,本专利技术具有的有益效果为:本专利技术提供的多代理合作情景下的通信协议学习和迁移的方法能适应不同目标任务和不同数量的代理的场景,提升目标任务下的性能表现。附图说明图1是执行代理和信道代理的模型及对应动作-价值函数的示意图;图2.1是合作导航任务的示意图;图2.2是捕食者-猎物任务的示意图;图3是将合作导航任务上学习到的通信协议迁移到捕食者-猎物任务时的奖励曲线。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。一种多代理合作情景下的通信协议学习和迁移的方法,包括:如图1所示,将多代理通信模型中的通信通道作为信道代理来独立学习通信协议;通信协议使用展开的循环神经网络来实现,并进一步可泛化到不同数量的代理、不同目标的任务中;其中,信道代理和执行代理的网络参数调整是同分离的动作-价值函数的梯度进行计算的。1、具体的执行过程为:执行代理独立对环境进行观测,得到对应的观测状态si,其中i为代理的编号;所述执行代理使用编码器将观测进行编码,得到对应的特征向量xi:xi=e(si)其中,e(·)为编码器;所述执行代理将各自的特征向量发送给信道代理,信道代理接收特征向量,使用通信协议网络计算对应的消息向量。通信协议网络采用循环神经网络实现,将所述循环神经网络按代理数目N进行展开,得到N个循环单元,将每个执行代理的特征向量xi按时序分别输入对应的循环单元,计算得到对应的消息向量mi。上述过程记作:...,mi,...=Φ(...,xi,...)其中,mi为对应各代理的消息向量,Φ(·)为通信协议网络;所述执行代理接收到信道代理发来的消息向量,与特征向量一起输入策略网络,得到各自对应的动作:ai=μ(xi,mi)其中,ai为执行代理的策略网络输出的动作向量,μ(·)为所述执行代理的策略网络。2、具体的相关网络参数训练过程为:所述执行代理的动作-价值函数为:其中,Qi(si,ai)为各执行代理的动作-价值函数网络,s=[s1,s2,...,sN],a=[a1,a2,...,aN],θ为所述动作-价值函数的参数;所述信道代理的动作-价值函数为:Qm(x,m|φ)其中,x=[x1,x2,...,xN],m=[mi,m2,...,mN],φ为所述动作-价值函数的参数;使用深度确定性策略梯度算法(比如TimothyP.Lillicrap等人在ContinuouscontrolwithDeepReinforcementLearning中提出的)通过所述执行代理的动作-价值函数和所述信道代理的动作-价值函数来计算对应的策略梯度,并对所述执行代理的编码器和策略网络以及所述信道代理的通信协议网络的参数进行更新。其中,计算策略梯度时,信道代理的奖励为执行代理的奖励之和。3、具体的通信协议迁移过程为:多个任务拥有相似观测空间和相似动作空间,根据专家经验在其中挑选源任务;使用所述训练过程在所述源任务上进行学习,得到信道代理的通信协议参数;在目标任务上初始化模型,使用所述信道代理的通信协议参数对目标任务上的对应网络参数进行初始化。其中,通信协议网络进行展开后同时能适应不同数目执行代理的情况;在目标任务上学习时,控制通信协议参数的更新范围,在适应目标任务的同时保证已有通信协议能加速目标任务的学习。实施例多代理进行合作任务的常见任务有合作导航和捕食者-猎物,接下来以此为例进行具体实施的说明。如图2.1所示,合作导航任务为:(1)3个代理和3个目标点;(2)任务目的是覆盖所有目标点,且代理和代理之间不能发生碰撞。若覆盖到目标点,则拿到对应的奖励。若代理之间发生碰撞,则扣除相应的奖励;(3)每个代理独立本文档来自技高网...

【技术保护点】
1.一种多代理合作情景下的通信协议学习和迁移的方法,其特征在于,包括:/n在多代理合作通信系统中引入信道代理来自动学习通信协议,区别于用于执行动作的执行代理;/n使用所述信道代理来自动学习通信协议,所述信道代理接收执行代理发来的特征向量,按照通信协议生成消息向量分发给执行代理;/n执行代理和信道代理的工作流程具体为:每个执行代理独立进行观测,并通过编码器将所观测的局部状态进行编码,生成对应的特征向量并发送给所述信道代理,所述信道代理接收特征向量,使用所述通信协议生成消息向量并分发给执行代理;所述执行代理接收到所述消息向量,与所述特征向量一起输入自己的策略网络,所述策略网络输出动作向量,与环境进行交互;使用深度确定性策略梯度算法分别对所述执行代理和所述信道代理的相关网络参数进行调整;/n从源任务迁移到目标任务时,保留源任务上学习到的通信协议网络参数,并限制目标任务学习时的通信协议网络参数更新率。/n

【技术特征摘要】
1.一种多代理合作情景下的通信协议学习和迁移的方法,其特征在于,包括:
在多代理合作通信系统中引入信道代理来自动学习通信协议,区别于用于执行动作的执行代理;
使用所述信道代理来自动学习通信协议,所述信道代理接收执行代理发来的特征向量,按照通信协议生成消息向量分发给执行代理;
执行代理和信道代理的工作流程具体为:每个执行代理独立进行观测,并通过编码器将所观测的局部状态进行编码,生成对应的特征向量并发送给所述信道代理,所述信道代理接收特征向量,使用所述通信协议生成消息向量并分发给执行代理;所述执行代理接收到所述消息向量,与所述特征向量一起输入自己的策略网络,所述策略网络输出动作向量,与环境进行交互;使用深度确定性策略梯度算法分别对所述执行代理和所述信道代理的相关网络参数进行调整;
从源任务迁移到目标任务时,保留源任务上学习到的通信协议网络参数,并限制目标任务学习时的通信协议网络参数更新率。


2.如...

【专利技术属性】
技术研发人员:谭哲越尹建伟尚永衡张鹿鸣李莹邓水光
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1