一种强化学习多代理合作任务下的代理贡献分配的方法技术

技术编号：26419448 阅读：96 留言：0更新日期：2020-11-20 14:14

本发明专利技术公开了一种强化学习多代理合作任务下的代理贡献分配的方法，包括：每个代理独立观测环境状态，输入各自的策略网络，得到各自的动作决策；在模拟环境执行各代理的动作，环境反馈的全局奖励；将各代理之间的交互建模为一张无向图，使用此图计算出每个代理的贡献权值；使用各代理的贡献权值计算各代理的局部奖励，使用此局部奖励对每个代理各自的策略网络进行训练。该方法能够对多个代理与环境交互后的结果（奖励）进行贡献分配，能够起到可信度赋值的效果，给训练算法提供更加精准的奖励描述，帮助多代理系统在合作任务上学习到更好的策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种强化学习多代理合作任务下的代理贡献分配的方法
本专利技术属于人工智能自动化领域，特别地涉及一种多代理强化学习合作任务下的代理贡献分配的方法。
技术介绍
现代人工智能自动化领域使用强化学习来训练代理执行任务是一个常见的解决方案，其中，许多场景依赖多个代理进行合作来达成共同的目标。在多代理合作体系中，可以使用全局奖励信息作为全局价值函数和各代理价值函数的训练信号，也可以分别对各代理进行贡献度分配，估计各代理的局部奖励，并将其作为各代理的学习信号，为各代理的策略网络或价值网络提供训练用的梯度。使用各代理的全部奖励在工程上的实现较为简单，一些场景下可以认为是将控制所有代理的模型视作一个整体进行训练。这种方法在代理数量较少时易于实现和控制，但代理数量较多时，模型的参数会指数级增大，使模型变得难以训练。这种情况下，考虑到工程实现的工作量和难度，通常会采用分布式独立训练各代理模型的方法，减轻模型的训练难度，然而这种方法需要有每个代理的局部奖励来提供独立的训练信号，在环境只提供一个全局奖励信号的情况下，进行贡献度分配来估计每个独立代理的贡献度大小变成了一个亟需解决的问题。
技术实现思路
为解决上述问题，本专利技术的目的在于提供一种多代理强化学习合作任务下的代理贡献分配的方法，其通过设置观测范围来对各代理之间的交互建模出一张无向图，并使用此图计算每个代理对其影响范围的影响系数估计，作为进行贡献分配的权重信息；同时，此图也也是对可信度赋值问题的一个描述；使用各代理的贡献权重计算其局部奖励估计，为各代理的策...

【技术保护点】
1.一种强化学习多代理合作任务下的代理贡献分配的方法，其特征在于，包括：/n每个代理独立观测环境状态，输入各自的价值网络，得到各候选动作的价值估计，选择拥有最大价值估计的动作作为当前动作决策；/n在模拟环境执行各代理的动作，得到环境反馈的全局奖励信息；/n将各代理之间的交互建模为一张无向图，作为给各代理进行贡献分配的特征描述；/n使用此无向图分别对每个代理计算贡献分配权重估计，得到每个代理的局部奖励估计；/n使用得到的局部奖励估计计算各代理维护的价值函数的目标值，计算时序差分误差，为训练各代理的价值网络提供梯度信息；/n其中，建模出的无向图能够对多个代理与环境交互后的奖励结果进行贡献分配，同时能够起到对各代理进行可信度赋值的效果，给训练算法提供更加精准的奖励描述。/n

【技术特征摘要】
1.一种强化学习多代理合作任务下的代理贡献分配的方法，其特征在于，包括：
每个代理独立观测环境状态，输入各自的价值网络，得到各候选动作的价值估计，选择拥有最大价值估计的动作作为当前动作决策；
在模拟环境执行各代理的动作，得到环境反馈的全局奖励信息；
将各代理之间的交互建模为一张无向图，作为给各代理进行贡献分配的特征描述；
使用此无向图分别对每个代理计算贡献分配权重估计，得到每个代理的局部奖励估计；
使用得到的局部奖励估计计算各代理维护的价值函数的目标值，计算时序差分误差，为训练各代理的价值网络提供梯度信息；
其中，建模出的无向图能够对多个代理与环境交互后的奖励结果进行贡献分配，同时能够起到对各代理进行可信度赋值的效果，给训练算...

【专利技术属性】
技术研发人员：谭哲越，尹建伟，尚永衡，张鹿鸣，李莹，邓水光，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人